爬取大数据专题所有文章列表並输出到文件中保存
每篇文章需要爬取的数据: 作者,标题文章地址,摘要缩略图地址,阅读数评论数,点赞数和打赏数
本来想在の前的框架上补充可是发现一个问题,在获取页面数时会出现死循环因为最后一页的内容无论page=多少都一样。解决方法想到通过每页第┅篇文章的timestamp来比较是可行的。但是这个在每次爬取之前先获得所有页面数的设计会加大对爬取网站的访问次数似乎不太可取,暂时先放下以后再好好考虑下框架的设计。
这次作业用lxml实现全部hardcode在函数中,有些粗糙
遇到两个问题,都没解决只好找了workaround。
在获取阅读数等数字时<a>的文本中是换行的,number.text打印出来的总是第一行"\n "不知道如何解决?
获取到所有内容后想输出到文件,可是总是报错: