爬虫爬下来的网址没有开头咋办

user-agent:自己的浏览器会被很多网站拒絕要从networks里找到它的user-agent作为开头,才能保证爬取网页顺利进行

div:网页用来分割不同部分的标识。

class=:网页中某部分类别的提示

params:传递参数鼡,把网页链接参数化为自己想要的形式

network.xhr:当要找的东西源代码里找不到的时候,就去network里的xhr找

json:将得到的数据化为python可用的形式。

post:get用於获得数据post用于提交数据,如登陆微博

cookie:就是浏览器存在你电脑上的一段文件。

session:一个流程比cookie还大,保存更多的东西通过session能流程囮运行很多东西。

最近在搞Python 爬虫的小东东有一个網址 ,没错就是网易跟帖!浏览器查看源代码是有内容Python 的re…

我要回帖

更多关于 爬虫能做什么 的文章

 

随机推荐