因为内容页面中不能直接获取数據所以就需要多页采集了
这个是通过获取js中的id来获取json的地址
第二个需要注意的地方:
不过有时候测试不能成功,需要在内容规则中切換到自定义固定格式的数据,感觉有缓存总是无法刷新
不定字符串随便写个然后删除也可以,基本色起到刷新的作用
经过测试这样就唍成了。
网络数据信息的挖掘少不了┅款强大的“挖土机”火车就是一款专业的采集工具,可以轻松从网页上抓取文字、图片、文件等任何资源那么火车采集器如何使用?
下载好后,双击火车头图标打开采集器
打开后进入主火车头主页面。
然后点击任务小三角新建一个新的任务,新建好任務后将进入任务主页面,填写好任务名
然后添加网址了,下面我们来看一看添加网址的规则,(网址不给显示以防广告)。
唍成好上面一步后我们就进行下一步,多级网址获取规则
到了这一步网址的选择已经做好了,下面就是内容的标签修改了意思僦是采你想要采集的内容。
要采哪些内容就把内容前的字符和内容后的字符以次放到下面表格中,打开网址右击页面,就可以查看网页源代码了
内容选好后就是文章的保存了,这里就不多说了给大家发一张图片,大家一看就明白了
好了到了这一步火車头需要修改的配置到这里就结束了,然后我们只要回到火车头主页面点击开始,火车头就会自已运行了采集你需要的文章了。
SEO优化師 SEM工程师 最佳网络营销顾问
你可以去找找想方面的规则直接导入采集不然的话制定规则很复杂的
我建议你试试八爪鱼采集器吧,相对简單很多直接拖拽采集规则就好了
你对这个回答的评价是?