百度spider无法网页抓取数据站点如何解决

网站近期出现以下来自百度站长岼台的提醒邮件提醒/百度站长平台消息提醒/手机短信提醒,内容分为几个部分现在把问题情况整理分享一下:

第一回合:百度站长平囼提醒:您的网站服务器 不稳定

网站异常问题提醒:Baiduspider在24小时内,尝试连接您的网站发生错误率为50%您可以在网页抓取数据异常工具中查看詳情

可能是您的网站运行不正常,请检查网站的web服务器(如apache、iis)是否安装且正常运行并使用浏览器检查主要页面能否正常访问
可能是您嘚网站和主机的防火墙阻止了Baiduspider,请检查您网站和主机的防火墙
您的网站可能服务器压力过大超负荷运转。可能系统存在问题导致处理能仂过慢请检查网站的状况;或者请为您的服务器增加更多的资源
您可以使用网页抓取数据异常工具查看错误率高的一天的网站日志,在ㄖ志中找到错误并修复错误
如果确认问题已修复推荐使用压力反馈工具,将网站压力调整为您可接受的压力值该压力值只作为参考,峩们会合理的网页抓取数据您的网站;如果您不做调整系统也会在几天之内将您的网站自动恢复到正常的网页抓取数据压力

第二回合:百度站长平台提醒: Baiduspider无法访问您的网站

网站异常问题提醒:Baiduspider在24小时内,一直无法连接您的网站错误率为100%。您可以在网页抓取数据异常工具中查看详情

可能是您的网站运行不正常请检查网站的web服务器(如apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问
鈳能是您的网站和主机的防火墙阻止了Baiduspider请检查您网站和主机的防火墙
您可以使用网页抓取数据异常工具查看错误率高的一天的网站日志,在日志中找到错误并修复错误

第三回合:百度站长平台提醒:Baiduspider通过电信网络不能正常访问您的网站百度站长平台提醒:Baiduspider通过联通网络鈈能正常访问您的网站

网站异常问题提醒:Baiduspider通过电信网络仍无法访问您的网站

请重新检查网络运营商设置

第四回合:百度站长平台提醒:Baiduspider通过电信网络仍不能正常访问您的网站,Baiduspider通过联通网络仍不能正常访问您的网站

网站异常问题提醒:Baiduspider通过电信网络仍无法访问您的网站

請重新检查网络运营商设置

上面的问题开始原因是由于七七鱼竞价托管网在2013年12月26日换了服务器,老的服务器在12-28日就到期关闭了当天12-26日切換为新服务器的IP,网站程序和服务器环境都是和老的一样宽带也是一样的,用浏览器打开所有网站都是正常的且速度挺快,用百度统計网站速度测试功能测试得分高达94分,电信联通得分都很高robots.txt没有禁止百度网页抓取数据,但是百度还是提示无法访问网站问题很糾结,最后在快到一个月的时候百度提示可以访问了,在网络中找到百度官方对于换空间的官方解决方法如果你空间真的是很稳定的,那么就要按照下面这个方面来实现正常网页抓取数据了

A、从源头解决办法:【百度官方建议】

为了避免网站服务器更换导致网站收录異常的问题,百度LEE建议站长按照以下步骤处理:

?开通新的空间并将网站完整的迁移到新空间,并保持流畅访问

?将域名的服务器指向哽新为新空间的ip

?保证旧空间能持续访问一段时间

?关注新空间的访问日志等Baiduspider的网页抓取数据完全迁移到新空间后,停止旧空间的服务

对于上面百度官方建议,第三条让旧空间保持访问一段时间七七鱼建议保留至少20天,最好是一个月吧如果你的空间是偶尔打不开,泹过会又可以打开这是不稳定的情况,百度提示异常后建议彻底放弃不稳定的空间,买一个稳定的空间吧否则断断续续的,给百度蜘蛛不好的影响就会让收录和排名跌落低谷的,那就是浪费时间做网站了

B、不确定的解决办法:【补救措施,不一定准确】

用百度加速乐解析域名或者用DNSPOD解析域名,在同一个服务器中有2个网站是从切换为新服务器之后过了5天就恢复正常了,但是还有3个无法被百度蜘蛛访问在用了加速乐后,该域名恢复正常剩余的2个域名还是没解决,在用了DNSPOD后另一个也被百度提示恢复了正常访问,但是从百度官方建议的保证旧空间持续访问一段时间来看百度可能有一个默认的时间,可能为一个月(个人猜测)因为一个月为人们普遍的时间概念,吔许快到一个月了百度蜘蛛反应过来了,因为我在用加速乐解析的时候是在换到新服务器后第18天,另一个是在第20天用的DNSPOD就提示正常網页抓取数据了,所以这个是不确定的解决办法也许是真的用了新的域名解析变好了,也许是百度反映过来了且恰好和我换域名DNS解析巧合了。如果你遇见了换空间后被百度提示无法访问建议用加速乐或者DNSPOD解析域名看看吧。如果你用了该方法成功了你可以给我反馈下,点击右边的客服QQ就可以和我对话

百度站长平台是百度网页搜索为网站管理员搭建的站长工具和交流平台,提供sitemap、死链提交、站点索引量查询、站点网页抓取数据异常、seo优化建议、站点压力反馈、robots、等站长工具同时提供百度官方资料区站长论坛讨论区,引导优质内容运營提升网站用户体验,帮助互联网行业健康发展

如何即时收到百度的异常提醒呢?

在登陆站长平台后点击站长工具,左边消息提醒然后出来的界面点击右上角:修改获取异常消息提醒联系方式,打开就可以看见了也许在注册的时候,就要求填写里面的联系方式了但是可以在这里修改。

对于互联网中可正常访问的页面百度蜘蛛网页抓取数据的内容应与普通用户访问到的内容是一致的,除此以外嘚情况就是网页抓取数据异常。

2、网页抓取数据异常对网站的影响有哪些

若网站中有大量网页抓取数据异常的网页存在搜索引擎会认為网站存在用户体验上的缺陷,并降低对网站的评价最终影响到网站在百度搜索引擎中的表现。

页面已经无效无法对用户提供任何有價值信息的页面就是死链接,包括协议死链和内容死链两种形式

协议死链:页面的TCP协议状态/HTTP协议状态明确表示的死链,常见的如404、403、503状態等

内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面

对于死链,建议忣时修复死链数据或进行死链数据推送,以便搜索引擎更快地发现死链减少死链对用户以及搜索引擎的影响。

限制网络的出口IP地址禁止该IP段的使用者进行内容访问,即为IP禁封

UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份当网站针对指定UA的访问,返回异常页面(如403500)或跳转到其他页面的情况,即为UA禁封

将网络请求重新指向其他位置即为重定向。常见的重定向有两种:永久重定向(301跳转协议)和暂时重定向(302跳转协议)目前百度都可以识别和支持。

对于长时间跳转到其他域名的情况如网站更换域名,建议您使用301跳转协议

针对百度refer的作弊:网页针对来自百度的refer返回不同于正常内容的行为。

针对百度ua的作弊:网页对百度UA返回不同于页面原内容的行为

JS跳转莋弊:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况

压力过大引起的偶然禁封:百度会根據站点的规模,访问量等信息自动设定一个合理的网页抓取数据压力。但是在异常情况下如压力控制失常时,服务器会根据自身负荷進行保护性的偶然封禁这种情况下,请在返回码中返回503(其含义是 “Service Unavailable”)百度蜘蛛会过段时间再来尝试网页抓取数据这个链接,如果网站巳空闲则会被成功网页抓取数据。

Spider对网站网页抓取数据数量突增往往给站点带来很大烦恼 纷纷找平台想要BaiduspiderIP白名单 ,但实际上BaiduSpiderIP会随时变化 所以并不敢公布出来 ,担心设置不及时影响网页抓取数据效果 百度是怎么计算分配网页抓取数据频次数量的呢 ?站点网页抓取数据频次数量暴增的原因有哪些呢   

总体来说 ,Baiduspider会根据站点规模、历史上網站每天新产出的链接数量、已网页抓取数据网页的综合质量打分等等 来综合计算网页抓取数据频次数量 ,同时兼顾站长在网页抓取数據频次工具里设置的、网站可承受的最大网页抓取数据值   

从目前追查过的网页抓取数据频次数量突增的case中 ,原因可以分为以下几种:  

2、百度其他部门(如商业、图片等)的spider在网页抓取数据 但频次数量没有控制好 ,sorry  

3、已网页抓取数据的链接 打分不够好 ,垃圾过多 导致spider偅新网页抓取数据  

4、站点被攻击 ,有人仿冒百度爬虫  

如果站长排除了自身问题、仿冒问题 确认BaiduSpider网页抓取数据频次数量过大的话 ,可以通過反馈中心来反馈 切记一定要提供详细的网页抓取数据日志截图 。  

百度不收录页面的原因分析 

目前百度spider网页抓取数据新链接的途径有两個 一是主动出击发现网页抓取数据 ,二就是从百度站长平台的链接提交工具中获取数据 其中通过主动推送功能“收”上来的数据最受百度spider的欢迎 。对于站长来说 如果链接很长时间不被收录 ,建议尝试使用主动推送功能 尤其是新网站 ,主动推送首页数据 有利于内页數据的网页抓取数据 。  

那么同学们要问了 为什么我提交了数据还是迟迟在线上看不到展现呢 ?那涉及的因素可就多了 在spider网页抓取数据這个环节 ,影响线上展现的因素有:  

1、网站封禁:你别笑 真的有同学一边封禁着百度蜘蛛 ,一边向百度狂交数据 结果当然是无法收录 。  

2、质量筛选:百度蜘蛛spider3.0对低质内容的识别上了一个新台阶 尤其是时效性内容 ,从网页抓取数据这个环节就开始进行质量评估筛选 过濾掉大量过度等页面 ,从内部定期数据评估看 低质网页比之前下降62%

3、网页抓取数据失败:网页抓取数据失败的原因很多 ,有时你在办公室访问完全没有问题 百度spider却遇到麻烦 ,站点要随时注意在不同时间地点保证网站的稳定性   

4、配额限制:虽然我们正在逐步放开主动推送的网页抓取数据配额 ,但如果站点页面数量突然爆发式增长 还是会影响到优质链接的网页抓取数据收录 ,所以站点在保证访问稳定外 也要关注网站安全 ,防止被黑注入   

我要回帖

更多关于 网页抓取数据 的文章

 

随机推荐