谷歌爬虫无法爬取天猫数据爬虫代码分页数据怎么办

想要爬取网站上所有的产品数据,但是没有默认的列表状态,需要进行至少一次点击操作才能出现列表。看了关于连续动作的内容,能找到的教程里介绍的例子,虽然页面不会跳转,但是链接地址会不一样。但是要爬的网站无论怎么勾选筛选要求,地址都完全一样。请问这样的情况要怎么写规则抓取。
这是网站打开的默认状态,需要至少点击“查询符合条件的机型”才能出现产品
3.png (140.82 KB, 下载次数: 33)
13:26 上传
点击之后,会出现产品,但是上面的地址不变,做其他勾选也是如此,请问这种情况要怎么爬取数据呢?
本帖最后由 ym 于
14:43 编辑
你说的教程只是用了具有独立网址的网页为例而已,但连续动作就是用于网址不变的网页,用来实现自动的点选等智能操作。
你的这种网页就是要设置点击动作,参考一下这篇教程
你说的教程只是用了具有独立网址的网页为例而已,但连续动作就是用于网址不变的网页,用来实现自动的点选等 ...
看到您的回复特意去实践了,才来回复的。谢谢您!
本帖最后由 livia1014 于
14:59 编辑
看到您的回复特意去实践了,才来回复的。谢谢您!
因为是同一个页面想请教遇到的第二个问题。这个默认列表有1610页,在写了翻页的规则之后,第一页可以顺利翻到第二页,并采集信息。可是之后会一直重复采集第二页。我在编写规则的页面,先取消了“内容定位”的情况下,也无法翻页到第三页,会一直卡在第二页。我应该怎么解决呢
4.jpg (113.31 KB, 下载次数: 65)
14:59 上传
翻页对应的图片没有连接,是一个onclick触发的
因为是同一个页面想请教遇到的第二个问题。这个默认列表有1610页,在写了翻页的规则之后,第一页可以顺利 ...
在火狐上,总xxx页 这个信息显示不出来,这个网页在火狐上有问题,影响到了翻页。“上一页”和“下一页”无效,但是可以直接输入页码,跳转到指定页。用连续动作也能实现,用连续输入和点击按钮
在火狐上,总xxx页 这个信息显示不出来,这个网页在火狐上有问题,影响到了翻页。“上一页”和“下一页” ...
好的!谢谢您!
快速建立手机用户评论特征词库-GooSeeker分为政民互动大数据分析建立特征词库比较北京和上海各个行业的招聘分布深圳11月招聘公司的分布情况分析利用GooSeeker分词、Ucient和NetDraw进行社
12345678910
Fuller帖子:5073 ym帖子:1477 wangyong帖子:801没有更多推荐了,
不良信息举报
举报内容:
为何大量网站不能抓取?爬虫突破封禁的6种常见方法
举报原因:
原文地址:
原因补充:
最多只允许输入30个字
加入CSDN,享受更精准的内容推荐,与500万程序员共同成长![python]利用urllib+urllib2解决爬虫分页翻页问题
时间: 11:07:39
&&&& 阅读:3615
&&&& 评论:
&&&& 收藏:0
标签:&&&&&&&&&&&&&&&&&&&&&&&&&&&最近由于公司的自动化测试工具需要将测试结果导出到excel中,奈何没有学SSH,导致无法在工具本身中添加(工具是开发做的),故转而使用python爬虫来做,开发过程中遇到了一个问题:
  由于测试结果太多,需要翻页,而翻页时网址没有变化,这就导致抓取的时候没法依照网址去爬,遂去网上查找解决方法,最后找到利用urllib2提交post的方法来解决。
解决过程:
网址不变,而如果是用selenium的话,我又觉得太慢,毕竟selenium是用来做验收测试的,不是用来爬数据的。言归正传,利用urllib2提交post的方法来获取翻页数据的话,首先的找到网页对应的post,首先我找到了这个:
{‘topage‘:‘3‘}
{‘pageNow‘:‘3‘}
(后者是正确的)
这需要大家自己去网页里找规律,不一定被放到了哪个位置,我因为工具是公司开发写的,我在他的页面代码里找到了如下这段:
所以确定是{‘pageNow‘:‘3‘}是对的。
既然找到post的键值,那接下来的事就简单了:
2 url = 网络地址
3 #需要提交给表单键值对
4 query = {‘pageNow‘:‘3‘}
6 #urllib.urlencode(query[, doseq]):将dict或者包含两个元素的元组列表转换成url参
7 #数。例如 字典{‘name‘: ‘dark-bull‘, ‘age‘: 200}将被转换为"name=dark-bull&
8 #age=200"
9 date = urllib.urlencode(query)
10 #向服务器端发送请求
11 post = urllib2.Request(url,date)
12 #接收服务端返回的内容
13 response
= urllib2.urlopen(request)
14 #转化为页面代码
15 page = response.read()
18 print page
以上,控制台上显示出来的就是第三页的代码,这时大家就可以用正则去匹配自己需要的东西了\(^o^)/~标签:&&&&&&&&&&&&&&&&&&&&&&&&&&&原文地址:http://www.cnblogs.com/yuexizhuo/p/3946178.html
&&国之画&&&& &&&&chrome插件
版权所有 京ICP备号-2
迷上了代码!

我要回帖

更多关于 爬虫爬取数据 的文章

 

随机推荐