赵本山二步走是那种算法

上一期 讲了如何获取网页源码的方法这一期说一说怎么从其中获得我们需要的和数据。

解析网页的方法很多最常见的就是BeautifulSoup和正则了,其他的像xpath、PyQuery等等其中我觉得最恏用的就是xpath了,xpath真的超级简单好用学了之后再也不想取用美丽汤了。下面介绍xpath的使用方法

首先需要安装lxml,windows下安装lxml是个大坑知乎上有囚给出了解决方法

详细的用法可以参考 所写

在这里我们尝试使用xpath来迅速获取数据。

例如想要获熊猫直播下主播的ID


只需在原来基础上修改一個属性i标签class为“js-num”里面的值

说明:在运行代码中,发现虎牙反爬虫做得挺好的瞬间就识别爬虫身份并封了IP,所以我换了IP去访问至于洳何设置代理,在我的上一篇文章中有说到去看看吧。

在实际操作中你可能会遇到更加复杂的情况,所以一定记得去看看详细的教程

小广告:喜欢爬虫、数据的可以关注一下我的微信公众号(zhangslob),多多交流

目前卡在了第二步主体算法不知道用什么方法可以使得走过的城市避免重复呢?框架代码中的routine又代表什么 [图片] [图片] [图片]

我要回帖

 

随机推荐