精通python网络爬虫虫代码问题

选择栏目:
永远的学童
Python网络爬虫与信息提取(实例讲解)
本文《Python网络爬虫与信息提取(实例讲解)》提供学童君学习参考,知识和精力有限,无法一一勘误,若有所错误,可以在文末“反馈”按钮提出反馈。学童网(xuetn.com)尽量提供给您准确有价值的信息。
浏览《Python网络爬虫与信息提取(实例讲解)》小提示:
文章若附带资源/案例下载、效果/视频/动画演示,一般在文章底部资源列表里有提供
文章清晰的要点多数有加粗提示,多留意
涉及到代码地方,有清晰的代码样式。
文章内蓝色字体,多是本文的相关链接。
好文可以收藏到您个人的会员中心
要查阅跟本文相关的大量信息,可以访问专属栏目《》
课程体系结构:
1、Requests框架:自动爬取HTML页面与自动网络请求提交
2、robots.txt:网络爬虫排除标准
3、BeautifulSoup框架:解析HTML页面
4、Re框架:正则框架,提取页面关键信息
5、Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍
理念:The Website is the API ...
Python语言常用的IDE工具
文本工具类IDE:
IDLE、Notepad++、Sublime Text、Vim & Emacs、Atom、Komodo Edit
集成工具IDE:
PyCharm、Wing、PyDev & Eclipse、Visual Studio、Anaconda & Spyder、Canopy
·IDLE是Python自带的默认的常用的入门级编写工具,它包含交互式文件式两种方式。适用于较短的程序。
·Sublime Text是专为程序员开发的第三方专用编程工具,可以提高编程体验,具有多种编程风格。
·Wing是Wingware公司提供的收费IDE,调试功能丰富,具有版本控制,版本同步功能,适合于多人共同开发。适用于编写大型程序。
·Visual Studio是微软公司维护的,可以通过配置PTVS编写Python,主要以Windows环境为主,调试功能丰富。
·Eclipse是一款开源的IDE开发工具,可以通过配置PyDev来编写Python,但是配置过程复杂,需要有一定的开发经验。
·PyCharm分为社区版和专业版,社区版免费,具有简单、集成度高的特点,适用于编写较复杂的工程。
适用于科学计算、数据分析的IDE:
·Canopy是由Enthought公司维护的收费工具,支持近500个第三方库,适合科学计算领域应用开发。
·Anaconda是开源免费的,支持近800个第三方库。
Requests库入门
Requests的安装:
Requests库是目前公认的爬取网页最好的Python第三方库,具有简单、简捷的特点。
官方网站:http://www.python-requests.org
在"C:\Windows\System32"中找到"cmd.exe",使用管理员身份运行,在命令行中输入:“pip install requests”运行。
使用IDLE测试Requests库:
&&& import requests
&&& r = requests.get("http://www.baidu.com")#抓取百度页面
&&& r.status_code
&&& r.encoding = 'utf-8'
&&& r.text
Requests库的7个主要方法
requests.request()
构造一个请求,支撑以下各方法的基础方法
requests.get()
获取HTML网页的主要方法,对应于HTTP的GET
requests.head()
获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()
向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()
向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()
向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()
向HTML页面提交删除请求,对应于HTTP的DELET
详细信息参考 Requests库 API文档:http://www.python-requests.org/en/master/api/
r = requests.get(url)
get()方法构造一个向服务器请求资源的Request对象,返回一个包含服务器资源的Response对象。
requests.get(url, params=None, **kwargs)
url:拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问参数
Requests库的2个重要对象
· Request
· Response:Response对象包含爬虫返回的内容
Response对象的属性
r.status_code :HTTP请求的返回状态,200表示连接成功,404表示失败
r.text :HTTP响应内容的字符串形式,即,url对应的页面内容
r.encoding : 从HTTP header中猜测的相应内容编码方式 
r.apparent_encoding : 从内容中分析出的相应内容编码方式(备选编码方式)
r.content : HTTP响应内容的二进制形式
r.encoding :如果header中不存在charset,则认为编码为ISO-8859-1 。
r.apparent_encoding :根据网页内容分析出的编码方式可以 看作是r.encoding的备选。
Response的编码:
r.encoding : 从HTTP header中猜测的响应内容的编码方式;如果header中不存在charset,则认为编码为ISO-8859-1,r.text根据r.encoding显示网页内容
r.apparent_encoding : 根据网页内容分析出的编码方式,可以看作r.encoding的备选
爬取网页的通用代码框架
Requests库的异常
requests.ConnectionError
网络连接错误异常,如DNS查询失败拒绝连接等
requests.HTTPError
HTTP错误异常
requests.URLRequired
URL缺失异常
requests.ToolManyRedirects
超过最大重定向次数,产生重定向异常
requests.ConnectTimeout
连接远程服务器超时异常
requests.Timeout
请求URL超时,尝试超时异常
Response的异常
r.raise_for_status() : 如果不是200,产生异常requests.HTTPError;
在方法内部判断r.status_code是否等于200,不需要增加额外的if语句,该语句便于利用try-except进行异常处理
import requests
def getHTMLText(url):
    r = requests.get(url, timeout=30)
    r.raise_for_status() # 如果状态不是200,引发HTTPError异常
    r.encoding = r.apparent_encoding
    return r.text
  except:
    return "产生异常"
if __name__ == "__main__":
  url = "http://www.baidu.com"
  print(getHTMLText(url))
通用代码框架,可以使用户爬取网页变得更有效,更稳定、可靠。
HTTP,Hypertext Transfer Protocol,超文本传输协议。
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议。
HTTP协议采用URL作为定位网络资源的标识。
URL格式:http://host[:port][path]
· host:合法的Internet主机域名或IP地址
· port:端口号,缺省端口号为80
· path:请求资源的路径
HTTP URL的理解:
URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。
HTTP协议对资源的操作
请求获取URL位置的资源
请求获取URL位置资源的响应消息报告,即获得该资源的头部信息
请求向URL位置的资源后附加新的数据
请求向URL位置存储一个资源,覆盖原URL位置资源
请求局部更新URL位置的资源,即改变该处资源的部分内容
请求删除URL位置存储的资源
理解PATCH和PUT的区别
假设URL位置有一组数据UserInfo,包括UserID、UserName等20个字段。
需求:用户修改了UserName,其他不变。
· 采用PATCH,仅向URL提交UserName的局部更新请求。
· 采用PUT,必须将所有20个字段一并提交到URL,未提交字段被删除。
PATCH的主要好处:节省网络带宽
Requests库主要方法解析
requests.request(method, url, **kwargs)
· method:请求方式,对应get/put/post等7种
例: r = requests.request('OPTIONS', url, **kwargs)
· url:拟获取页面的url链接
· **kwargs:控制访问的参数,共13个,均为可选项
params:字典或字节序列,作为参数增加到url中;
kv = {'key1':'value1', 'key2':'value2'}
r = requests.request('GET', 'http://python123.io/ws',params=kv)
print(r.url)
http://python123.io/ws?key1=value1&key2=value2
data:字典、字节序列或文件对象,作为Request的内容;
json:JSON格式的数据,作为Request的内容;
headers:字典,HTTP定制头;
hd = {'user-agent':'Chrome/10'}
r = requests.request('POST','http://www.yanlei.shop',headers=hd)
cookies:字典或CookieJar,Request中的cookie;
auth:元组,支持HTTP认证功能;
files:字典类型,传输文件;
fs = {'file':open('data.xls', 'rb')}
r = requests.request('POST','http://python123.io/ws',files=fs)
timeout:设定超时时间,秒为单位;
proxies:字典类型,设定访问代理服务器,可以增加登录认证
allow_redirects:True/False,默认为True,重定向开关;
stream:True/False,默认为True,获取内容立即下载开关;
verify:True/False,默认为True,认证SSL证书开关;
cert:本地SSL证书路径
#方法及参数
requests.get(url, params=None, **kwargs)
requests.head(url, **kwargs)
requests.post(url, data=None, json=None, **kwargs)
requests.put(url, data=None, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.delete(url, **kwargs)
网络爬虫引发的问题
性能骚扰:
受限于编写水平和目的,网络爬虫将会为web服务器带来巨大的资源开销
法律风险:
服务器上的数据有产权归属,网路爬虫获取数据后牟利将带来法律风险。
隐私泄露:
网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私。
网络爬虫的限制
·来源审查:判断User-Agent进行限制
检查来访HTTP协议头的User-Agent域,值响应浏览器或友好爬虫的访问。
· 发布公告:Roots协议
告知所有爬虫网站的爬取策咯,要求爬虫遵守。
Robots协议
Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。
案例:京东的Robots协议
http://www.jd.com/robots.txt
# 注释:*代表所有,/代表根目录
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
Robots协议的使用
  网络爬虫:自动或人工识别robots.txt,再进行内容爬取。
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险。
Requests库网络爬虫实战
1、京东商品
import requests
url = "https://item.jd.com/5145492.html"
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[:1000])
print("爬取失败")
2、亚马逊商品
# 直接爬取亚马逊商品是会被拒绝访问,所以需要添加'user-agent'字段
import requests
url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
kv = {'user-agent':'Mozilla/5.0'} # 使用代理访问
r = requests.get(url, headers = kv)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(t.text[])
print("爬取失败")
3、百度/360搜索关键词提交
搜索引擎关键词提交接口
· 百度的关键词接口:
http://www.baidu.com/s?wd=keyword
· 360的关键词接口:
http://www.so.com/s?q=keyword
import requests
keyword = "Python"
kv = {'wd':keyword}
r = requests.get("http://www.baidu.com/s",params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
print("爬取失败")
import requests
keyword = "Python"
kv = {'q':keyword}
r = requests.get("http://www.so.com/s",params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
print("爬取失败")
4、网络图片的爬取和存储
网络图片链接的格式:
http://www.example.com/picture.jpg"http://image.nationalgeographic.com.cn/566.jpg"
root = "D://pics//"
path = root + url.split('/')[-1]
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content)
print("文件保存成功")
print("文件已存在")
print("爬取失败")
5、IP地址归属地的自动查询
www.ip138.com IP查询
http://ip138.com/ips138.asp?ip=ipaddress
http://m.ip138.com/ip.asp?ip=ipaddress
import requests
url = "http://m.ip138.com/ip.asp?ip="
ip = "220.204.80.112"
r = requests.get(url + ip)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text[1900:])
print("爬取失败")
# 使用IDLE
&&& import requests
&&& url ="http://m.ip138.com/ip.asp?ip="
&&& ip = "220.204.80.112"
&&& r = requests.get(url + ip)
&&& r.status_code
&&& r.text
以上这篇Python网络爬虫与信息提取(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持xuetn.com。
学童君~以上就是关于《Python网络爬虫与信息提取(实例讲解)》的全部内容,更深入了解可以关注更多此方面的信息,学童网(xuetn.com)给您提供此文的专有收藏链接,可以点击下方“收藏”按钮收藏佳文。
也可以选择如下操作:
获取和本文密切相关的大量同类型文章,可以访问《》栏目
关心跟此文相关大类栏目可以访问《》栏目,极大拓宽信息面。
如果有,文章相关的资源、代码包、视频、下载链接、演示效果可以在下方的资源列表里找到哦
知识点较多的文章可能会有上/下一页,上/下一篇,多留意。
当前观看编号:关闭
如果你要把《Python网络爬虫与信息提取(实例讲解)》相关的资源地址通过手机访问,或者要把其中某段信息保存到手机,那么你可以把它复制到上面的框中,通过手机扫一扫就可以啦。
Copyright (C) 2016.XueTN.com All rights reserved. our email[] - Collect from温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
&&&&&&& 最后组合上面的东西算是最简单的步骤了,一个for循环对应一个基金的数据抓取,把所有的正则表达式操作都放在里面运行。代码一共30行左右,但是对我来说以后查询就省事很多了,简而言之就是一劳永逸。import urllibimport urllib2import reurl=["http://fund.eastmoney.com/000051.html",
"http://fund.eastmoney.com/213008.html",
"http://fund.eastmoney.com/000173.html",
"http://fund.eastmoney.com/000477.html"]find_re = re.compile(r'&div id="statuspzgz" class="fundpz"&&span class="red bold"&(.+?)&/span&',re.DOTALL)html_re = re.compile(r'http://fund.eastmoney.com/(.+?).html',re.DOTALL)time_re = re.compile(r'&p class="time"&(.+?)&/p&',re.DOTALL)for ul in url:
html=urllib2.urlopen(ul).read()
for x in html_re.findall(ul):
print "基金代码:"+x
for y in find_re.findall(html):
print "单位净值:"+y
for z in time_re.findall(html):
print "最后更新时间:"+z
raw_input()&&&&&&& python是格式相关的,请主要逻辑关系。爬虫工作结果&&&&&&&& 说实话,这个爬虫结构简单,甚至连数据结构的东西都没有用上。现在同时做的一个爬虫不仅要登录网页,还要会相应网页的自动跳转,然后分析表格在整理并显示,这个有点麻烦。=========================我是分界线=========================&&&&&&& 最后做了一些代码上的精简,代码更简洁,性能也更好,结果没有变,足足少了10行代码。from urllib2 import urlopen as uuimport reurl=["http://fund.eastmoney.com/000051.html",
"http://fund.eastmoney.com/213008.html",
"http://fund.eastmoney.com/000173.html",
"http://fund.eastmoney.com/000477.html"]find_re = re.compile(r'&div id="statuspzgz" class="fundpz"&&span class=".+?"&(.+?)&/span&',re.DOTALL)html_re = re.compile(r'http://fund.eastmoney.com/(.+?).html',re.DOTALL)time_re = re.compile(r'&p class="time"&(.+?)&/p&',re.DOTALL)for ul in url:
html=uu(ul).read()
print "基金代码:" + str(html_re.findall(ul))
print "单位净值:" + str(find_re.findall(html))
print "最后更新时间:" + str(time_re.findall(html))
print ''raw_input()&&&&&&& 基金爬虫是python爬虫中最基本爬虫中的一类,每次只处理一个页面、页面组织简单、正则表达式逻辑简单。下一次,我们学习如果使用带Cookies、需要登陆并需要页面跳转的python爬虫。感谢以下内容作者:参考页面:首次编写: 14:22:49一次修改: 15:47:10
阅读(9700)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'Python爬虫抓取基金数据',
blogAbstract:'&&&&& & 好久没有更新博客了,一直由于学业和懒惰没有写新的博文。现在正好,自学了一点python,为了巩固基础,用python写一个python爬虫自动爬取数据。&&&&&&& 写爬虫抓取基金净值主要是为了方便一次性查询多只基金的实时净值,这样就免去了在电脑上一个一个开网页去看了。基金数量少可能没有优势,一旦多几个基金就明显发现爬虫的工作效率比人工要高。其次,抓基金不是主要的目的,主要目的是自己实践学习使用python。Python做网络爬虫需要学习额外基本知识:&&&&&&& 1.HTML。基金所需的数据都通过HTML网页的形式返回,数据和HTML tag通过一定的规范组成渲染后的形成网页。了解HTML是为了有效地剥离数据。',
blogTag:'',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:4,
publishTime:1,
permalink:'blog/static/',
commentCount:2,
mainCommentCount:2,
recommendCount:0,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'',
hmcon:'0',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}有的时候,我们本来写得好好的爬虫代码,之前还运行得Ok, 一下子突然报错了。
报错信息如下:
Http 800 Internal internet error
这是因为你的对象网站设置了反爬虫程序,如果用现有的爬虫代码,会被拒绝。
之前正常的爬虫代码如下:
from urllib.request import urlopen
html = urlopen(scrapeUrl)
bsObj = BeautifulSoup(html.read(), "html.parser")
这个时候,需要我们给我们的爬虫代码做下伪装,
给它添加表头伪装成是来自浏览器的请求
修改后的代码如下:
import urllib.parse
import urllib.request
from bs4 import BeautifulSoup
req = urllib.request.Request(scrapeUrl)
req.add_header('User-Agent', 'Mozilla/4.0 ( MSIE 5.5; Windows NT)')
response = urllib.request.urlopen(req)
html = response.read()
bsObj = BeautifulSoup(html, "html.parser")
Ok,一切搞定,又可以继续爬了。
阅读(...) 评论()有没有易懂的 Python 多线程爬虫代码?
12:14:14 +08:00 · 4457 次点击
看了很多范例,但是还是没有理解,比如要爬取 10 页内容,每页有 30 条数据,那么开启 5 个线程的话,我自己尝试写过,不过这 5 个线程都单独爬取 300 条数据,如何才能做到一个线程爬取两页这样?
26 回复 &| &直到
16:22:14 +08:00
& & 12:15:38 +08:00
一个线程爬取两页循环啊
& & 12:27:35 +08:00 via Android
需要一个任务队列,抓取线程从任务队列里面取任务抓取。
又或者把抓取功能封装成一个独立的任务,主线程通过直接调用的形式直接分配任务。
& & 13:02:39 +08:00
& & 14:10:05 +08:00
& & 15:17:32 +08:00
python 单解释器 无多线程,只有多进程和协程
& & 15:18:10 +08:00
推荐用 celery,比较适合你的需求
& & 15:23:02 +08:00
@ 爬虫明显是 IO 密集型应用,用线程是合适的,推荐协程的,你知道协程就是一种特殊的线程么?怎么就没有线程呢?
& & 15:33:53 +08:00
@ =.= 这个....其实严格来说 python2 是没有协程的,只有多线程和多进程。你正好讲反了。
& & 15:45:07 +08:00
因为 Python 有 GIL,当 CPU 密集,多个线程的代码很有可能是线性执行的。不能任意的切换 context ,所以一般用协程或者进程代替,linux 进程开销是非常小的效率某种程度肯定比线程高
“无线程”,只是想说线程比较鸡肋
py2 有 gevent,3 中有 asyncio 。 不知道你说的没有协程依据在哪?
& & 15:49:06 +08:00
就是当你获得一个 url 的时候,不要直接爬取,而是把它加入一个任务队列。
然后每个线程从任务队列获取要下载的 url
& & 15:55:00 +08:00
还有就是 “程就是一种特殊的线程” , 我认为这不是不对的,因为协程和线程概念上可能等同,但是实现上是差异非常大的
协程应该来说是 用户空间的线程
& & 15:56:27 +08:00
@ 这个在使用参数的时候要如何处理呢?
& & 15:56:48 +08:00
@ 感谢,你这么说我大概理解了。
& & 16:16:56 +08:00 via iPhone
@ 爬虫这种东西我真看不出有什么需要线性执行,而且线性执行的话,你用进程不上锁,不同步?
Linux 的进程是轻量化,但线程的创建成本更低。实在搞不懂你所说的进程成本更低在何处。
在 90%都是网络 IO 的情况下,搞不懂为什么不用线程?这里又不需要大量的计算,进行一次上下文切换会比动不动就上百毫秒的网络请求成本更高?
& & 16:25:47 +08:00 via iPhone
@ 我承认协程更应该是用户态线程,但 Python 的实现真的是用户态线程么?目前各类实现中大多还是用 1:1 模型,你说的协程在这里比线程优秀多少我还是很怀疑的
& & 16:31:54 +08:00
多进程吧
可以四核一起跑
& & 16:38:47 +08:00
@ 你讲的是悖论,非用户态线程就不存在 GIL 问题
& & 16:47:31 +08:00 via iPhone
@ 你为什么这么执着 GIL ?你在网络请求的时候不等待吗?等待的时候上下文切换,有没有 GIL 又有什么问题?
& & 16:56:38 +08:00
要做多线程,先把任务分成多个子任务啊,让每个线程负责一个,你不分配子任务,线程又不是智慧生物,它又不会自己协作
& & 17:01:36 +08:00
windows 下 IO 密集型任务(不单只网络 IO)优先考虑线程, 用进程太浪费, 每个进程都是一个单独的解释器(1000 个线程跟 1000 个进程区别应该还是较大的, 内存方面)
用队列传输消息, 设计好程序结构, Process 跟 Thread 的切换也就改改几个 import, 具体问题 profile 看下, 谁的效率高(内存使用, 执行时间)就用谁
协程是在一个线程中切换的, 协程切换比线程切换更流畅, 花销也更小, 这是听来的, 没在实际中用过(错了请纠正我), 习惯了队列传输模式, 也方便线程改进程
Unix 下不清楚, 不乱说
& & 17:31:32 +08:00
好吧。。。是我理解错了
& & 17:40:45 +08:00
每个线程拿到自己的编号,然后根据编号排数据。考虑你说的按页面编排,每个线程从“起始页+线程编号*2 ”开始抓,步长为“线程总数*2 ”。不要用一个全局的变量来记录当前位置,锁的开销很大。
& & 18:07:16 +08:00
@ multiprocessing.dummy 的 Pool.map 容易假死不动
& & 19:29:49 +08:00
最近一个月一直在理清爬虫多任务化的问题,结论是在 python 爬虫领域,实现多任务的正确姿势是单线程异步 IO 模型。
在写出同时能爬取多个链接的代码前,楼主必须先理解这个模型的原理:单线程异步 IO 模型的基础---- [事件循环+回调函数] 模型。
先说事件循环,它是一个系统,这个系统内由以下函数组成:
1.连接服务器的函数,
2.发送 GET 请求到服务器的函数,
3.接收并读取服务器响应的函数,
4.最后是解析响应内容用来获取数据的函数;
可以看到这几个函数基本就是我们写普通爬虫代码的一个流程:函数与函数之间都需要等待,也就是说只有函数 1 返回结果后才能执行函数 2 ,函数 2 返回结果后才能执行函数 3 。。。
那么,用事件循环来控制这些函数和写普通爬虫代码有什么不同呢?
答案就是,事件循环可以由程序员手动控制多个爬虫(任务),而不是像多线程那般把分配权交给操作系统随机分配。
当一号爬虫(任务)在执行函数 1 时,一执行完就立即返回(意思就是不等待最后获取值),并将控制权交还给事件循环,交给它之后,开始执行二号爬虫(任务);二号爬虫开始执行函数 1 ,同样,一执行完就立即返回,并将控制权交给事件循环;交给它之后,开始执行三号爬虫(任务),三号爬虫开始执行函数 1 ,同样,一执行完就立即返回。。。以此类推。。
问题来了,当一号爬虫(任务)的函数 1 处理完并返回值后该如何处理这个值?这个时候,回调函数就能派上用场了,回调函数起到通知的作用,告知循环系统在咱们这一号爬虫(任务)有个函数处理完了,要用它返回的结果来执行函数 2 。循环机制听到通知后,便开始执行一号爬虫(任务)的函数 2 。执行函数 2 和执行函数 1 的机制完全相同,也是一执行完就返回,并立即将分配权交给循环机制,这样让循环机制同时地、不停地处理二号、三号、四号。。。爬虫(任务)。
最后,直到一号爬虫获取最终想要爬取的数据,同时,二号、三号、四号。。。爬虫仍在同时工作,没有停止,然后二号爬虫也执行完了所有函数并得到数据,然后是三号、四号。。。
以上就是基于事件循环+回调函数的异步 IO 爬虫模型,虽然是单线程但是效率非常高,像 twisted , tornado 这些流行的异步 IO 库基本都是基于这个模型。但是这种模型也有很多弊端,最令人不爽的两个地方是, 1.调试起来非常恼火,根本看不到 traceback 。 2.一旦事件循环内的函数数量变多,代码逻辑也变的复杂。
So.python 3.4 在基于事件循环+回调函数模型的基础上利用生成器的特性,搞了一套改良版的异步 IO 模型,完美解决了以上两个问题。在 python3.5 进一步迭代,推出了 asyncio 库,再次优化了 python 异步 IO 性能。
目前我会写简单的基于事件循环+回调函数的异步 IO 爬虫,仍在理清基于生成器的异步 IO 模型,如果楼主要深入了解,请参考:
( python 之父写的异步爬虫教程)
& & 15:56:46 +08:00
1. IO 密集型多线程是可用的。
2 多进程的额外开销太大
爬虫还是应该尽量利用多线程
& & 16:22:14 +08:00
爬虫直接线程模式啊。辣么多 IO 。
& · & 894 人在线 & 最高记录 3541 & · &
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.0 · 65ms · UTC 00:25 · PVG 08:25 · LAX 16:25 · JFK 19:25? Do have faith in what you're doing.

我要回帖

更多关于 python网络爬虫代码 的文章

 

随机推荐