百度蜘蛛不抓取网站抓取与网站文件更新时间有关吗

怎么查看百度蜘蛛有没有来过我的网站_百度知道
怎么查看百度蜘蛛有没有来过我的网站
我有更好的答案
判断蜘蛛有没有来过自己的网站可以查看IIS日志代码。
或者联系空间商开通了蜘蛛访问记录也可以。如果你的空间商给你的空间支持查询蜘蛛访问记录的话。可以在ftp找到WebLog的文件夹,具体步骤如下:1.
打开FTP登陆软件(这里以FlashFxp为例),登陆你的空间FTP。登陆进FTP后,你会发现在根目录下有一个WebLog的文件夹
(注:不同的IDC空间生成的日志文件目录名称不一样,仅供参考.一般文件夹中包含Log字符的都是日志文件夹)
2.打开WebLog目录后,里面有一些以日期格式特征为文件名的.gz后缀结尾的文件.这些就是我们需要下载到本地的日志文件.
3.打开压缩文件,发现里面只有一个以.log结尾的日志文件,我们需要的就是这个文件了.
4.解压后,打开日志文件.Ctrl+F查找baidu.com/search
特征字符(这里以百度蜘蛛为例)
通过分析蜘蛛来访纪录,可以了解本站的大体情况,而不用再为百度不放出内页或者不收录的问题而苦恼了.
蜘蛛来访正常,可以确切的说,搜索引擎对你的站很友好的,坚持更新自己的网站,会有不错的收录的.注:有些共享IP空间可能不支持日志功能.对于独立ip虚拟主机则提供每天的日志下载.而实在没有可以日志功能的空间可以参考使用
蜘蛛爬行插件
的一些方法进行分析.
采纳率:64%
为您推荐:
其他类似问题
您可能关注的内容
百度蜘蛛的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。百度蜘蛛抓取与网站文件更新时间有关吗? - 知乎8被浏览178分享邀请回答0添加评论分享收藏感谢收起百度蜘蛛_百度百科
清除历史记录关闭
声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗。
百度,是的一个自动程序。它的作用是访问收集整理互联网上的、图片、视频等内容,然后分门别类建立数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。
百度蜘蛛工作机制
百度的构建的原理。搜擎构建一个调度程序,来调度百度蜘蛛的工作,让百度蜘蛛去和建立连接下载,计算的过程都是通过调度来计算的,百度蜘蛛只是负责下载网页,目前的搜索引擎普遍使用广布式多服务器多线程的百度蜘蛛来达到多线程的目的。
百度蜘蛛的运行原理。
百度蜘蛛程序
(1)通过下载回来的放到补充数据区,通过各种程序计算过后才放到检索区,才会形成稳定的排名,所以说只要下载回来的东西都可以通过指令找到,补充数据是不稳定的,有可能在各种计算的过程中给k掉,检索区的数据排名是相对比较稳定的,百度目前是缓存机制和补充数据相结合的,正在向补充数据转变,这也是目前百度收录困难的原因,也是很多今天给k了明天又放出来的原因。
(2)深度优先和权重优先,百度抓页面的时候从起始站点(即种子站点指的是一些门户站点)是百度优先抓取是为了抓取更多的网址,深度优先抓取的目的是为了抓取高质量的网页,这个策略是由调度来计算和分配的,百度蜘蛛只负责抓取,权重优先是指较多的页面的优先抓取,这也是调度的一种策略,一般情况下抓到40%是正常范围,60%算很好,100%是不可能的,当然抓取的越多越好。
百度蜘蛛的工作要素。
百度蜘蛛在从首页登陆后抓取首页后调度会计算其中所有的连接,返回给百度蜘蛛进行下一步的抓取连接列表,百度蜘蛛再进行下一步的抓取,网址地图的作用是为了给百度蜘蛛提供一个抓取的方向,来左右百度蜘蛛去抓取重要页面,如何让百度蜘蛛知道哪个页面是重要页面?可以通过连接的构建来达到这个目的,越多的页面指向该页,网址首页的指向,副页面的指向等等都能提高该页的权重,地图的另外一个作用是给百度蜘蛛提供更多的连接来达到抓去更多页面的目的,地图其实就是一个连接的列表提供给百度蜘蛛,来计算你的,找到通过站内连接来构建的重要页面。
百度原理的应用。
补充数据到主检索区的转变:在不改变板块结构的情况下,增加相关连接来提高质量,通过增加其他页面对该页的来提高权重,通过外部连接增加权重。如果改变了板块结构将导致seo的重新计算,所以一定不能改变板块结构的情况下来操作,增加连接要注意一个连接的质量和反向连接的数量的关系,短时间内增加大量的反向连接将导致k站,连接的相关性越高,对排名越有利。
百度蜘蛛状态代码
百度蜘蛛成功
200 正常;请求已完成。
201 正常;紧接命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
百度蜘蛛重定向
301 永久重定向 — 请求的数据具有新的位置且更改是永久的。
302 暂时重定向 — 请求的数据临时具有不同URI。
303 请参阅其它 — 可在另一URI下找到对请求的响应,且应使用 GET方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
百度蜘蛛代码中的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示已有效。
403 禁止— 即使有授权也不需要访问。
404 找不到—找不到给予的资源;文档不存在。
406 不可接受 — 根据此请求中所发送的“接受”标题,此请求所标识的资源只能生成内容特征为“不可接受”的响应实体。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的不存在(永久);
415 介质类型不受支持 —服务器拒绝服务请求,因为不支持请求实体的格式。
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 —服务器不支持请求的工具。
502 错误网关—服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,无法处理请求。
百度蜘蛛问题解答
Baiduspider对一个网站造成的访问压力如何?
答:Baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,Baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,Baiduspider对您网站的服务器不会造成过大的压力。
为什么Baiduspider不停的抓取我的网站?
百度蜘蛛工作图
答:或许您的网站权重高或者对于您网站上新产生的或者持续、有规律更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请反馈至,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。
我不想我的网站被访问,我该怎么做?
答:Baiduspider遵守互联网协议。您可以利用文件完全禁止Baiduspider访问您的网站,或者禁止Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的,在以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
ps:关于robots.txt的写作方法,请参看我们的介绍:robots.txt写作方法
为什么我的网站已经加了robots.txt,还能在出来?
答:因为搜擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要二至四周才会清除。 另外也请检查您的配置是否正确。
我希望我的网站内容被百度索引但不被保存快照,我该怎么做?
答:Baiduspider遵守互联网metarobots协议。您可以利用meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
和robots的更新一样,因为搜擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。
百度在中的名字是什么?
答:“Baiduspider” 首字母B大写,其余为小写。
Baiduspider多长时间之后会重新抓取我的?
答:百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,Baiduspider会重新访问和更新一个网页。
Baiduspider抓取造成的带宽堵塞?
答:Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至百度投诉中心,如果能够提供您网站该时段的访问将更加有利于我们的分析。
百度蜘蛛应用提示
第一,要想排名靠前,应该完整匹配地出现在网页的前面。
第二,百度蜘蛛似乎更注重网站页面的层次结构。与Google相比,百度蜘蛛更加重视网站内部页面结构的层次,有点爬虫类的味道,越黑越深,它越是喜欢往里钻,不相信你做100个页面,做得再漂亮,只要链接没有层次,你最多就孤零零的被收录可怜的一点点东西。
第三,百度蜘蛛极为活跃,抓取网页的频率和数量都非常大。百度蜘蛛几乎每天都会访问你的新站,并且至少抓取几十个网页。大量捕获是百度的强项,其他任何搜索引擎都没办法相比。但是百度中文网页数目并不是最大的,百度蜘蛛抓取的频率和网页更新情况有关。天天更新的网站一定会吸引百度蜘蛛更频繁的访问,百度对天天更新的站最敏感,彻底换内容更敏感。
第四,百度并不被所谓的优化迷惑,Google对优化好像远远没有百度敏感,百度尤其反感所谓的优化,不知道百度是用什么方法识别网站优化的。我的看法是目前最”先进“ 的优化方法,好像对百度没什么大的作用,大家都这么干了,机器人是有点死脑筋,但是百度那些IT也不是吃白饭的哈,要知道他是全球最先进的中文搜索老大,Google在中文搜索这块毕竟与百度还没得比。
第五,百度是以网页为基础,比较少关注整个网站的主题。联系到上一点,这说明百度排名算法中比较注重内部结构缺少完整的语义分析。所以一些目 前比较认同的关于“:”之间那几个所谓关系到搜索质量的东西,并不是百度蜘蛛所最敏感的。
第六,充分利用百度的一个最大的优势——收录速度快。
内容、复制内容
网站标题频繁更改
服务器或者空间不稳定
域名DNS解析不稳定
产品名称 对应
搜索 Baiduspider
无线搜索 Baiduspider
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
Baiduspider-cpro
竞价蜘蛛Baiduspider-sfkr
清除历史记录关闭2018人阅读
百度竞价-外推(4)
什么是Baiduspider?
Baiduspider是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。Baiduspider的user-agent是什么?
百度各个产品使用不同的user-agent:产品名称
对应user-agent
Baiduspider-mobile
Baiduspider-image
Baiduspider-video
Baiduspider-news
Baiduspider-favo
Baiduspider-cpro
网页以及其他搜索
Baiduspider
Baiduspider对一个网站服务器造成的访问压力如何?
Baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后,Baiduspider会暂停一会,以防止增大服务器的访问压力。所以在一般情况下,Baiduspider对您网站的服务器不会造成过大压力。 为什么Baiduspider不停的抓取我的网站?
对于您网站上新产生的或者持续更新的页面,Baiduspider会持续抓取。此外,您也可以检查网站访问日志中Baiduspider的访问是否正常,以防止有人恶意冒充Baiduspider来频繁抓取您的网站。 如果您发现Baiduspider非正常抓取您的网站,请通过反馈给我们,并请尽量给出Baiduspider对贵站的访问日志,以便于我们跟踪处理。如何判断是否冒充Baiduspider的抓取?
您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。$ host 123.125.66.120
120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.
我不想我的网站被Baiduspider访问,我该怎么做?
Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站,或者禁止Baiduspider访问您网站上的部分文件。 注意:禁止Baiduspider访问您的网站,将使您的网站上的网页,在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。关于robots.txt的写作方法,请参看我们的介绍: 您可以根据各产品不同的user-agent设置不同的抓取规则,如果您想完全禁止百度所有的产品收录,可以直接对Baiduspider设置禁止抓取。
以下robots实现禁止所有来自百度的抓取: User-agent: Baiduspider
Disallow: /
以下robots实现仅禁止来自百度视频搜索的抓取: User-agent: Baiduspider-video
Disallow: /
以下robots实现禁止所有来自百度的抓取但允许图片搜索抓取/image/目录: User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-image
Allow: /image/
请注意:Baiduspider-cpro抓取的网页并不会建入索引,只是执行与客户约定的操作,所以不遵守robots协议,如果Baiduspider-cpro给您造成了困扰,请联系。为什么我的网站已经加了robots.txt,还能在百度搜索出来?
因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。另外也请检查您的robots配置是否正确。
如果您的拒绝被收录需求非常急迫,也可以通过反馈请求处理。我希望我的网站内容被百度索引但不被保存快照,我该怎么做?
Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置,使百度显示只对该网页建索引,但并不在搜索结果中显示该网页的快照。
和robots的更新一样,因为搜索引擎索引数据库的更新需要时间,所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照,但百度搜索引擎数据库中如果已经建立了网页索引信息,可能需要二至四周才会在线上生效。Baiduspider多长时间之后会重新抓取我的网页?
百度搜索引擎每周更新,网页视重要性有不同的更新率,频率在几天至一月之间,Baiduspider会重新访问和更新一个网页。 Baiduspider抓取造成的带宽堵塞?
Baiduspider的正常抓取并不会造成您网站的带宽堵塞,造成此现象可能是由于有人冒充Baiduspider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞,请尽快和我们联系。您可以将信息反馈至,如果能够提供您网站该时段的访问日志将更加有利于我们的分析。百度蜘蛛的小知识,站长必备【外链吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:105,484贴子:
百度蜘蛛的小知识,站长必备收藏
本文章来自私人网站 周四小更新 每个月26号左右大更新。最近观察了下自己网站的日志文件,发现有四个时间点蜘蛛来的比较勤,早晨8-10 中午12-14 下午5-6 晚上8点以后,每天在这个时间段更新的文章都可以很快的被蜘蛛抓取,分析日志文件可以找到蜘蛛爬取网站的时间规律内容和外链的质量高蜘蛛就会经常爬行一般情况下早上10点之前 百度蜘蛛最活跃。百度蜘蛛来访是有规律的。你更新越勤,它来得越多。网上很多这方面的资料。你可以多搜着看看。一般来说,你若每天更新,那百度蜘蛛每天都会来。一个星期更新一次,那蜘蛛的周期就是一周。再往后推,一个月更新一次,蜘蛛就是一个月来一次。当然,并不是每天更新就好。有的网站每天更新,但是只要中间一段时间不更新,蜘蛛是可能不来的。所以说百度抓取取决于蜘蛛来访。希望能帮到你。好的网站,蜘蛛自然来得勤。像网易新浪这类蜘蛛基本5分钟一次。用心作站,提高网站访客,这样就会来得勤快了!蜘蛛每天24小时都在抓取,这叫作稳定式抓取。它每个小时的抓取量相差不大。其实稳定式抓取是对新站而言的。如果你的一个老站,也出现这类情况了,那么你的网站也就要小心了。你要做好心里准备,可能你的网站要降权了。所以并不是说稳定式抓取对任何网站都是有效的。我们经常会遇到一种情况就是每天发的贴子也被收录了,但就是看不到收录的情况。如果出现这类情况就是蜘蛛的确认式抓取。也就是指你网站更新一个内容过后,百度第一次抓取过后,一定不会给你放出收录来,Baidu蜘蛛还要进行第二次抓取再运算、比较的,如果认为你这个更新内容有必要收录,Baidu蜘蛛会进行第三次抓取,正常情况下百度蜘蛛不会进行第四次抓取。第三次确认过后,Baidu蜘蛛就会慢慢的给你放出收录的。所以好的文章是会经过层层考验的。不知Baidu蜘蛛是不是喜欢高效率D抓取,有时Baidu蜘蛛能在一两分钟内抓取几百次。因为蜘蛛机器人,它抓取一段时间过后,蜘蛛机器人再去运算程序,看是否是原来收录过的,是否是原创什么的,是否应该收录等等。毕竟这样的抓取不会经常出现,只是偶有现身。就算是一时的抓取,以后也会被释放掉的百度蜘蛛极为活跃,抓取网页的频率和数量都非常大。百度蜘蛛几乎每天都会访问你的新站,并且至少抓取几十个网页。大量捕获是百度的强项,其他任何搜索引擎都没办法相比。但是百度中文网页数目并不是最大的,百度蜘蛛抓取的频率和网页更新情况有关。天天更新的网站一定会吸引百度蜘蛛更频繁的访问,百度对天天更新的站最敏感,彻底换内容更敏感要想排名靠前,目标关键词应该完整匹配地出现在网页的前面
搜索引擎服务公司请找乐广巧,我们承接网络推广,价格低,流量高,排名好!为企业提供免费报价+咨询,选择我们=选择放心,
楼主辛苦了,谢谢分享。问学堂
学习了 不可多得的好文章
学习了,楼主辛苦了,谢谢分享。LEGPAP吉他
定点定时更新有利于蜘蛛的抓取
楼主辛苦了,篷布
顶一个,顶一个!!!bshaikuo.yigaofuzhuang.516j.soueou.com
在这个世界上、唯有蜘蛛是最爱 激光打标机 拉森钢板桩
登录百度帐号

我要回帖

更多关于 百度蜘蛛抓取规则 的文章

 

随机推荐