火车头采集器论坛将信息采集下来之后,如何将这些内容发布的自己的网站上去。(网站是科讯CMS系统ASP技术的)

查看: 18220|回复: 815
最后登录在线时间1950 小时金币3908 个火车车厢22 节注册时间阅读权限100帖子精华0积分11705UID2557
火车头采集规则火车头发布模块PHP插件QQ
火车车厢22 节金币3908 个注册时间帖子UID2557
火车头采集器V7版dedecms5.7文章WEB发布模块1个火车头采集器V7版dedecms5.7图集WEB发布模块1个火车头采集器V7版dedecms5.7软件WEB发布模块1个火车头采集器V7版文章采集规则1条
模块解压密码:
游客,如果您要查看本帖隐藏内容请
AD:火车头dedecms系列免登陆发布接口(可自动生成首页栏目页内容页)定制联系QQ:
火车采集器数据抓取原理:  火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。火车采集器数据发布原理:  在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。
1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。
2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。
3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。火车采集器工作流程:  火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。
1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。
2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。
具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。
本帖子中包含更多资源
才可以下载或查看,没有帐号?
&&&&&&&&&&&&
最后登录在线时间7 小时金币0 个火车车厢0 节注册时间阅读权限20帖子精华0积分92UID172804
蒸汽机车, 积分 92, 距离下一级还需 308 积分
火车车厢0 节金币0 个注册时间帖子UID172804
dddddddddddddddddddddd
&&&&&&&&&&&&
最后登录在线时间1 小时金币1 个火车车厢1 节注册时间阅读权限10帖子精华0积分4UID194766
火车零件, 积分 4, 距离下一级还需 46 积分
火车车厢1 节金币1 个注册时间帖子UID194766
可能是我需要的
&www.biquge.co/book/11/11906/ 儒道至圣&
&&&&&&&&&&&&
最后登录在线时间3 小时金币8 个火车车厢0 节注册时间阅读权限10帖子精华0积分26UID91138
火车零件, 积分 26, 距离下一级还需 24 积分
火车车厢0 节金币8 个注册时间帖子UID91138
&&&&&&&&&&&&
最后登录在线时间36 小时金币605 个火车车厢17 节注册时间阅读权限40帖子精华0积分1069UID80586
电力机车, 积分 1069, 距离下一级还需 1931 积分
火车车厢17 节金币605 个注册时间帖子UID80586
可用于7.6吗?好久没用了发现7.6变了.
&&&&&&&&&&&&
最后登录在线时间1 小时金币4 个火车车厢1 节注册时间阅读权限10帖子精华0积分16UID136060
火车零件, 积分 16, 距离下一级还需 34 积分
火车车厢1 节金币4 个注册时间帖子UID136060
这个要大力支侍哈哈哈
&&&&&&&&&&&&
最后登录在线时间26 小时金币8 个火车车厢3 节注册时间阅读权限100帖子精华0积分44UID14348
火车车厢3 节金币8 个注册时间帖子UID14348
看看什么样的
&&&&&&&&&&&&
最后登录在线时间3 小时金币1 个火车车厢1 节注册时间阅读权限10帖子精华0积分25UID111802
火车零件, 积分 25, 距离下一级还需 25 积分
火车车厢1 节金币1 个注册时间帖子UID111802
好东西啊,收下了谢谢
&&&&&&&&&&&&
最后登录在线时间4 小时金币39 个火车车厢0 节注册时间阅读权限20帖子精华0积分100UID131654
蒸汽机车, 积分 100, 距离下一级还需 300 积分
火车车厢0 节金币39 个注册时间帖子UID131654
测试看看怎么样啊
&&&&&&&&&&&&
最后登录在线时间1 小时金币3 个火车车厢1 节注册时间阅读权限80帖子精华0积分8UID130513
火车车厢1 节金币3 个注册时间帖子UID130513
下载下来看一下好不好用,谢谢了
&&&&&&&&&&&&
模块高手勋章
模块高手勋章
规则高手勋章
规则高手勋章
网址高手勋章
网址高手勋章
论坛为大家进行规则,模块,接口等提供了交易的平台,提醒:网上交易有风险,请大家谨慎交易,所有非通过官方企业QQ达成的交易或非通过官方支付方式支付的款项与官方无关。
联系电话:6-606(业务咨询) 6-604(开发+定制服务) 6-603(市场-合作)
Powered by火车头采集器_天涯博客_有见识的人都在此_天涯社区
现金求购分类信息网采集发布模块!!!本人是真心求购。绝不是灌水我做了一个分类信息网但是因为源码是下载的。后台的采集系统无法使用希望能找个人写一个采集和发布模块。不然我自己写信息太累了我的源码是海洋分类信息网的access的网址是。不知道这种分类信息的多级栏目的模块可以做吗?大约需要多少钱?高人请联系我。qq......&&
BTMAster发布模块以及配套规则和会员数据库和相关相关教程.支持随机发布!--------------------BTMaster1.33WEB发布模块使用说明-------------------1.BTMaster1.33免费版,栏目分类只能一级,不能为二级.在本地模式下为全功能版--------------------------------------------------------------------------------------------------------------------------------------------------2.标题的最大长度为50字符,请用火车的标题截取功能,截取为50字符--------------------------------------------------------------------------------------------------------------------------------------------------3.[标签:BTURL]的种子网址必须是http://......&&
谁弄个wordpress2.5.1的模块啊需要啊......&&
V3.0_2.0模块发布使用方法:本帖隐藏的内容需要回复才可以浏览......&&
请问下谁有downplus的在线发布模块可购买RT......&&
【关于采集模块提问的一点点建议】首先提问的时候希望你能把你的问题前加上【待解决】已经解决了的修改成【已解决】其次呢提问的时候不要总是在说,这个怎么样了,那个怎么样了。说的不清不楚,弄得让人不甚知之。错误在什么地方,你发个图上来,代码返回的是什么你也发上来。这样才能让管理员们知道你的问题出在了哪里,才能让“高手们”更好的解决大家的问题。最后我希望各位最好是能抱着试试看的心理,自己尝试着去找寻资料去解决下问题。因为只有自己解决了问题,以后碰到了才能游刃有余。不耻下问确实美德,但是求助别人永远不是王道,试问有一天别人不再帮你了。你又何去何从?以上仅代表个人意见,希望各位参考。......&&
火车头内容采集器3.2版模块制作教程说明(42'语音版)火车头内容采集器3.2版模块制作教程说明--By孤魂需要准备的软件有:1.火车头采集器V3.22.WinSockExpert/redire.../post/25.htm3.Encode/Decode&ANSI&-&UTF8(不一定需要)/redire.../post/26.htm教程内容:火车头在线发布模块*.cwr发布模块以织梦及DZ为例教程下载:(个人空间,没有限速,希望大家可以自觉单线程下载)/locoytemp/LocoyModule.wmv做教程的时候的几个模块,大家可以下载来对比教学!/bo-blog/attachment/.rar版权说明:孤魂居(模块制作联系QQ:)http://www.kal......&&
【提问的智慧】写在前面的话:首先感谢所有用户对火车头采集器的支持,让火车头采集器得以持续的发展,本文将从一个技术者回答问题的角度,来阐述如何通过有智慧的提问,快速获得需要的答案.本文在EricStevenRaymond的翻译原文基础上做了一定修改.引言在技术论坛,所提技术问题的回答很大程度上取决于你提问的方式与解决此问题的难度。在下文将采取如下名称定义:会提问者(聪明者),不会提问者(普通者),技术专家(黑客)。程序的应用已经很广泛,你通常可以从其它更有经验的用户而不是(黑客)那得到回答。这是好事,他们一般对新手常有的毛病更容忍一点。当然,使用下文提到的方法,通常能最有效地得到问题的解答。第一件需要知道的事是(黑客)喜欢难题和激发思考的好问题,如果用户能提出一个有趣的问题让他们咀嚼玩味,他们会感激你。一个好的问题是种激励与礼物,帮助他们发展认知,揭示没有注意或想过的问题。除此外,(黑客)有时候遇到简单问题就表现出敌视或傲慢,有时他们看起来还对新手和愚蠢的用户有条件反射式的无礼,但并不真正是这样。(黑客)只是毫无歉意地敌视那些提问前不愿思考、不做自己该做之事的人。这种人就象时间无底洞......&&
火车采集器实用教程与常见问题整理1如何做到每天更新一部分文章。我们知道搜索引擎对一个网站持续更新是很有好感的。采集器如何实现呢?我们可以用每天发布固定数量的文章的方法,建议每天最少发布15个以上,40个文章以下。方法:1任务的发布内容设置--每次最大发布记录条数因为火车采集器只有需要判断以前的文章已经发布成功,那么下次就不再发布。2设置全局设置-采集发布设置-成功发布到哪定义为发布成功-选WEB在线发布2采集后比如英文发现空格全部丢失设置任务-文件保存设置-选中-对采集的数据进行urlencode处理3新手入门常见问题整理:/spider-.html43.2版视频入门教程:孤魂制作a)如何导入导出模块及规则b)采集内容规则设置c)分页设置d)分步采集数据e)编辑本地数据f)自动更新的使用g)其它细节方面请自行观看视频操作步骤下载地址:/locoytemp/LocoyUse02.wmv53.2版入门视频教程孤魂制作内容提要a)合理设置全局选项b)设置缩略图采集及下载c)采集规则基本设置,......&&
火车头采集器发布模块及接口下载这里只提供论坛上较成熟的模块,如使用中有问题请在下边提出。具体情况请详写,除此外删。这多数是我自己做的,其它的也都验证过。有问题下边提,要有详细信息,模块里有说明,请看模块操作。本人不提供相关的技术支持。如有需要其他模块,请留下您网站的相关信息在下边,再将网站管理员帐号密码短信发给我,有的可能要求FTP权限,SQL相关信息。我做好后发布在这里,不承诺一定能成功。我会尽力而为,但可能因时间或其他事所影响不能及时做出,所以请大家不要摧我。急的话可以考虑付费服务.请在下边留言,需提供如下格式的信息: 格式:网站地址:如后台地址:如/admin.php系统版本:如Discuz6.0.0模块要求:如DEDE文章系统,要有标题,内容,关键字,作者等。如果不方便提供自己网站的管理员帐户和密码的,可以搭个临时的站点。同时我做成的模块一般是通用的,你可能要按照说明修改一些参数来达到你要的效果。再次郑重声名一点,如果您在下边发布了求模块信息,请及时查看,补充相关信息或对做出的模块作出评价,而不要一走了之。你不关心,那别人......&&
页码:1/9  [1]   商品已下架或不存在
免长途:400-655-1955
Etuan Inc.,All rights reserved.
工业信息产业部ICP备案号:苏B2- 增值电信业务经营许可证:苏B2- 在线数据处理与交易处理许可证:苏B1-
工作:9:00-23:30
免长途热线使用js调用内容文件网站的采集方法教程_天涯博客_有见识的人都在此_天涯社区
使用js调用内容文件网站的采集方法教程
使用js调用内容文件网站的采集方法教程事情起因:/spider-.html原帖内容:如果所有网站都这样,用什么采集器也没用啊!!!大家看看吧,估计任何采集器也不能够采集成功啊!/html/19/19207.html直接是败了,原想用二级转向采集它的这个/html/js/19/19207.js,却发现js文件是不能够采集的。你们说说看,他这个防采集是不是绝啦?
解决办法:看到这个帖子,就去尝试采集了一下,结果发现采集不了,便联系了火车,火车测试后说是由于“本来js是不下载的”,随后,修改了程序,并重新编译了LocoyCommon.dll文件,并发给了我,我使用了新的LocoyCommon.dll,sooopu的曲谱图片顺利采集下来了。LocoyCommon.dll见附件。这个dll是火车发给我的,并非官方正式发布,也不是一次升级,也没有经过测试,仅仅为了解决采集sooopu而做的,需要或者想试用的朋友,为避免发生意外,建议,另建目录新装个火车,覆盖同名dll文件。
采集sooopu,它的标题、演唱者、类别、格式等都在默认页面,就不多说了。它的曲谱图片地址保存在默认页面调用的一个js文件中,比较默认页面地址和js文件地址差异,采用“依据规则对默认页地址替换生成地址”方式添加新的采集页面,操作方法如下,有类似情况的朋友可以参考操作:点击“采集内容规则”,单击打开“同时采集多页面?”,弹出“添加同时采集页面”设置对话框,页面名称,随便填,自己明白即可,比如”sooopu曲谱图片“,下面是新的”页面地址“生成方式的设置,在这里我们选择使用第一种方法――”依据规则对默认页地址替换生成地址“,根据下面的说明,”注:使用第一种方法时该处使用正则替换“,我们需要在”将“后面的文本框中填入默认页面地址,”替换为“后面的文本框自然就是新的,需要采集的页面地址了。比较原html文件地址和需要采集的js文件地址,我们需要替换的是两个数字,19和19207,我很菜,不懂什么正则表达式,这里有个教程,《正则表达式30分钟入门教程》/deerchao/zhengzhe-biaodashi-jiaocheng-se.htm,单纯的数字比较简单,比如要匹配19,[\d])([\d],[\d]{2},[\d] ?好像都可以,那么原来的地址就是:/html/([\d])([\d])/([\d] ?).html,新地址用$1,$2,$3分别代替原地址上的正则匹配的内容,/html/js/$1$2/$3.js保存后返回。进入需要编辑的标签编辑框,点击”所属页面“后的下拉菜单,选择刚刚建立的”sooopu曲谱图片“新页面替换规则,再对照新页面的源代码,过滤出内容标签就好了。\附件:您所在的用户组无法下载或查看附件
评论人: 评论日期: 20:55
hhhhhhhhhhhh
本文所属博客:
引用地址:

我要回帖

更多关于 火车头采集器论坛 的文章

 

随机推荐