请问哈,怎样用python爬取容易的网站网站

版权声明:本文为博主原创文章未经博主允许不得转载。 /gaoapp/article/details/

一般的小白python新手可能都知道廖雪峰网站吧由于自己也是个小白,所以就想能不能将该教程爬取下来呢说做僦做。好了不多说直接上代码:

#打印成pdf(其实可有可无)

其实这是大半年前写的代码,写的有点糟糕同时用了xpath和beautifulsoup,真是汗颜也懒的妀了(哈哈)

本博客仅记录一下自己学习生活如不胜对大家有点借鉴作用,也是极好的

引言:今天周末想找本电子书看看。发现了一个很好的电子书下载网站为了以后找书方便,顺便练习一下python3写爬虫于是就有了今天的小成果,python3爬取电子书网站所有链接

首先,这是网站的首页:

点击网站的尾页看看总共有多少网页。如下图:

点击之后发现网址变为: 这说明总共有218个父页面。每个主页面是如下图这样的列表:

点击链接进入任意子页面,要爬取下面的5个框框

pool.join() # 调用join之前,先调用close函数否则会出错。执行完close后不会有噺的进程加入到pool,join函数等待所有子进程结束

我要回帖

更多关于 python爬取容易的网站 的文章

 

随机推荐