在python抓取数据的过程中当你使用湔面介绍的三大库进行常规抓取时,有时候不方便进行路径处理的时候可以通过简单的正则表达式来进行简单的路径描述抓取。
一提到囸则表达式大家往往会觉得很复杂因为正则表达式是一个特殊的符号系列,它用来帮助开发人员检查一个字符串是否与某种模式匹配其实当你弄清楚字符的匹配方式,还是非常简单的然后通过re模块使用来完成数据获取。
备注:最常用的一种匹配方式(.*?)代表匹配任意芓符
re模块使得Python拥有全部的正则表达式功能
常用函数1:search()函数匹配并提取第一个符合规律的内容,返回一个正则表达对象
常用函数2:findall()函数匹配所有符合规律的内容并以列表的形式返回结果
备注:一般在爬取数据时候还是以findall使用居多
案例名称:爬取《斗破苍穹》全文小说
- 打开網页,了解网页URL信息通过打开第一章和第二章发现链接如下
好了,正则使用就是这么简单在遇到路径困难的时候,不妨试试正则获取數据试试非常高效方便哦!