购买服务 会员注册 会员登录
  设为首页 加入收藏 联系我们
Welcome to WebXml.com.cn
Web Services 网站建设 域名交易 服务支持 下载中心 信息资讯 联系我们 返回首页
 
站点数据 - 信息资讯 - 热点信息

网页快照说明我们不能再相信百度搜索,百度已经沦落为最大的互联网癞皮

www.WebXml.com.cn 发表日期:2009年05月21日 00:17 星期四
 

 

详细的文章请看(图文):http://www.macsetup.cn/file_208.html

这里只转载文字部分


关键字:百度快照不更新。看到网站上很多文章都在说百度(www.baidu.com)的百度快照更新很慢,有的时候还会倒退(虽然看上去百度的Baiduspider假模假样天天在网站爬,但没有一点点效果),还有的说是因为网站关键字没有优化好才出现百度快照问题。出于好奇心,也为了以后自己做网站时对网站更好的优化,我用我做的二个网站加上新浪、淘宝(宣称拒绝百度搜索)网站测试一下,方法是在百度(http://www.baidu.com)和谷歌(www.google.cn)同时使用:“site:域名”方法搜索。

在 GOOGLE 谷歌搜索关键字“百度快照不更新”结果:4,330,000 篇

在 BAIDU 百度搜索关键字“百度快照不更新”结果:5,420 篇

先说明一下写此文章的时间:2009年5月20日。

第一个测试的是新网站,建站40天左右:http://www.macsetup.cn/ 这网站几乎天天更新/增加内容。

(百度一下,找到相关网页29篇,用时0.018秒)只有首页的快照是1天前,其余快照内容都在20天以前,也就是说虽然爬虫爬了网页(看后面IIS纪录)但没有及时更新快照数据(网站的部分网页结构在最近几天已经做了比较大的调整)。还有网站只被百度索引了29篇。

(谷歌 约有 176 项符合 www.macsetup.cn 的查询结果,搜索用时 0.04 秒)快照在11小时前,其余内容的快照大部分在一星期以内。更新还算快,索引的内容比百度多6倍。

www.macsetup.cn 的 IIS 纪录的百度爬虫(部分),可以看出百度爬虫很积极,有3个IP的百度爬虫在爬。但这都是假的,不更新搜索有什么屁用!

http://www.macsetup.cn/ 的 robots.txt 内容:(http://www.macsetup.cn/robots.txt)没有限制任何搜索引擎对主要内容或快照的限制。

第二个网站是老网站,建站近三年:http://www.webxml.com.cn/ 这网站更新内容速度过去一般在一星期左右,这几天因为增加了会员功能,内容更新很快。

(百度一下,找到相关网页279篇,用时0.044秒)郁闷ING很长时间,搜索结果连这网站首页也没有了,最新快照在一个月前,出现了近二年前的网页快照,可以知道百度在近二年里都没有更新过此站的快照数据库。更惊奇和意想不到的还在后面。

(谷歌 约有 351 项符合 www.webxml.com.cn 的查询结果,搜索用时 0.16 秒)快照很正常,首页最新的更新在7小时前,因为更新网站后的内容链接会在首页出现。部分没有更新内容的网页快照一般在二个月内。索引的内容比百度多72篇,多26%。

http://www.webxml.com.cn/ 的 robots.txt 内容:(http://www.webxml.com.cn/robots.txt)没有限制搜索引擎对主要内容或快照的限制。

惊奇和意想不到出现在第三个网站,新浪网 http://www.sina.com.cn/ 新浪网是中国主要的门户网站,内容应该是时时更新的。发现网站没有 robots.txt 文件,说明不限制搜索。

(百度一下,找到相关网页约3,300篇,用时0.001秒)搜索结果有数不清的“新浪首页”,在第37页前全部是新浪首页(不信可以去试下在www.baidu.com 搜索:site:www.sina.com.cn) 搜索结果发现新浪首页快照时间和网页提示的快照时间不一致,第一个搜索结果显示快照时间是 2008-10-23 ,可点击第一个新浪首页链接和点击第一个快照链接同样出现是近7年前 2002-10-24 21:00 新浪网首页http://www.sina.com.cn/head/www20021024pm.shtml(提示:别吓着,打开老新浪网首页还有鸟叫)。是不是百度封杀了新浪?还是百度已经无心再做搜索。

(谷歌 约有 1,580 项符合 www.sina.com.cn 的查询结果,搜索用时 0.05 秒)虽然也有很多首页快照,但第一个是现在的新浪首页,提供多个快照而且第一个快照是37分钟前的(更新很快,在写这篇文章时还看到4分钟前的,截图的时候显示37分,每一分钟刷新Google搜索网页Sina首页快照都有更新)。


最后是检验百度是否遵守 Robots.txt 协议

淘宝的(http://www.taobao.com/robots.txt 和 http://taobao.com/robots.txt)。去年新浪科技讯 9月9日下午消息,针对淘宝全面禁止百度爬虫抓取页面一事,百度电子商务事业部总经理李明远今日在接受新浪科技专访时表示,对淘宝不顾其交易平台卖家切身利益而屏蔽百度蜘蛛爬虫的举动感到遗憾,并将为淘宝卖家开绿色通道。百度也声称:百度严格遵循搜索引擎 Robots 协议(如何让我的网页不被百度收录协议内容请看:http://www.baidu.com/search/guide.html#1)(详细内容,参见 http://www.robotstxt.org/)。

但在百度搜索淘宝 site:taobao.com (百度一下,找到相关网页28篇,用时0.001秒)快照时间是2009-5-19(昨天的?)。

用 site:www.taobao.com 搜索 (百度一下,找到相关网页1篇,用时0.001秒)快照时间是2009-5-13。从这里就能看到百度虽然承诺但是不遵循搜索引擎Robots协议的,百度已经沦落为最大的互联网癞皮。

总结:经观察,现在很多网站在百度都不更新网页快照了,有的新网站很多时候在百度收录也只有一页,很多网站管理员都提出baidu快照不更新问题。百度虽然在收录搜索时的站长FAQ中对网站收录要求很高,如:“网站不符合用户的搜索体验、网站所在服务器不稳定、网页内容有不符合国家法律和法规规定的地方、其他技术性问题 ”实际上这都是屁话,这只是不符合百度推广和百度竞价排名。具观察和网上的网友讨论如果你做的网站内容和百度的竞价排名关键字内容网站相同,如:“电脑维修”、“网络游戏”就有可能在百度得不到很好的搜索结果。大家可以尝试以自己网站的关键字看看网站在百度搜索的结果。看下图:

百度搜索关键字:电脑维修

百度搜索关键字:网络游戏

百度第一页都是推广,就算你的网站再好也不可能在第一页显示,说明百度已经违反了它所提出的:“网站公平、搜索体验、内容符合国家规定(中央电视台曝光的百度药品竞价排名违规)”。

谷歌 Google 在这方面做得相对比较好,Google网站管理员工具 能有效的了解您网站的内容和问题,你可以在Google网站管理员工具里回答、申诉、投诉和检讨。就算做错了也有机会改正,这不影响你的网站在谷歌的排名,我有过经历,曾经一个网站因关键字堆积被谷歌从索引中删除(Google 会在Google网站管理员工具里提示),经过改正网页,提交申请后经谷歌检查又恢复了在Google的索引,排名到现在也不错。但如果这事情发生百度就不一样了,你可以按站长FAQ网页上的邮件地址发送邮件 webmaster@baidu.com 提出问题,我是从来没有收到过回信,虽然在网上看到一份百度回信是直接复制百度站长FAQ的内容回复,我相信你看了也会“惊”不住(下图)。

过去我是不知道,现在估计任何SEO高手都不能直接对Baidu搜索和搜索快照有很好的优化,很多拥有很多内容(网页)的老网站都被K了(连www.sina.com.cn 的Baidu快照都近7年多不更新了)。我们可以认为百度是一个垃圾的骗钱网站,目的就是钱和用钱排名。站长不要为百度没有收录或收录减少而又被所谓的“SEO高手”欺骗(如是SEO高手,先解释为什么在百度搜索:site:www.sina.com.cn 有7年没有更新),大家扔掉Baidu一样会光明,因为百度已经沦落为最大的互联网癞皮。

 
 
 
关闭本窗口
 
 
 
WEB 服务 网站建设 域名交易 服务支持 下载中心 信息资讯 联系我们 首 页
版权所有 © 2006 - 2021 上海思集信息科技有限公司 保留所有权利        本站声明 Search powered by Google
Powered Asp.net 2.0