dedecms采集 采集规则在哪个表里面

Dedecms采集功能的使用方法 --- 含有分页的普通文章(一)
前言:这篇文章是Dedecms采集功能使用方法的第二篇,主要目的是采集含有分页的普通文章,并使用简单的过滤规则。这次选取的目标站点是中国网管联盟网络技术频道的网络协议栏目,网址是&http://www.bitscn.com/network/protocol/&。本文共分为三节,第一节,主要是介绍新增采集节点中的第一步:设置基本信息及网址索引页规则;第二节,主要是介绍新增采集节点中的第二步:设置字段获取规则;第三节,主要是介绍如何采集指定节点和如何导出采集内容。对于编写采集规则中一些基本的操作,本文将一带而过或不再涉及,如有疑问可参见文章&Dedecms采集功能的使用方法 --- 不含分页的普通文章的采集&。
下面进入第一节。
1.1 设置基本信息及网址索引页规则
建立一个新的普通文章型节点,并进入&新增采集节点:第一步设置基本信息及网址索引页规则&如(图1)所示,
图1-新增采集节点:第一步设置基本信息及网址索引页规则
1.1.1 设置节点基本信息
图2-节点基本信息
首先,定义节点名称为&采集测试(二)&。其次,查找目标页面编码。其操作步骤为:
(a)打开被采集的目标页:http://www.bitscn.com/network/protocol/;
(b)单击右键后选择&查看源文件&,找到&charset&, 如(图3)所示,
图3-查看源文件
其等号后面的代码就是所需的&编码格式&,这里是&gb2312&。对于&区域匹配模式&、&内容导入顺序&和&防盗链模式&,均使用默认值。
引用网址:可以选取在文章列表里出现的任意一个文章页的网址。方便起见,一般是填入文章列表中第一篇文章的网址,但是由于第一篇文章没有涉及到分页内容,为了展示如何采集分页文章,这里使用第二篇文章作为引用网址。其网址为:&http://www.bitscn.com/network/protocol/110.html&。设置后的节点基本信息,如(图4)所示,
图4-设置后的节点基本信息
检查无误后,进入下一步设置。
1.1.2 设置列表网址获取规则
如(图5)所示,
图5-列表网址获取规则
这里是设置被采集的文章列表页的匹配规则的,也是本节的重点和难点。
具体操作步骤:
(a)首先,回到已打开的文章列表页,这时浏览器的URL地址栏中显示的网址,如(图6)所示,
图6-列表首页的网址
(b)找到文章列表页的换页部分,把鼠标放在各个页码上面,同时观察其URL的变化规律。可以得出,网址的匹配规律为:&http://www.bitscn.com/network/protocol/list_(*).html&。因此,在&匹配网址&中,应填入&http://www.bitscn.com/network/protocol/list_(*).html&,为了能够快速演示采集过程,这里设定页面是从1开始到1结束,也就是说只采集第一页。
设置后的 &列表网址获取规则&,如(图7)所示,
图7-设置后的列表网址获取规则
检查无误后,进入下一步设置。
1.1.3 设置文章网址匹配规则
如(图8)所示,
图8-文章网址匹配规则
这里是设置被采集文章列表页的匹配规则。
具体操作步骤:
(a)对于&区域开始的HTML&,可通过在打开的文章列表首页上,单击右键后选择&查看源文件&。在源文件中,找到第一篇文章的标题&OpenFlow网络是空谈吗?&,如(图9)所示,
图9-查看源文件中,第一篇文章的标题
通过观察源文件,不难看出&&div class=&list-cc&&&为整个文章列表的开始部分。因此,在&区域开始的HTML&中,填入&&div class=&list-cc&&&。
(b)在源文件中,找到最后一篇文章标题&认识多重PPP链接协议&,如(图10)所示,
图10-查看源文件中,最后一篇文章的标题
结合文章列表的开始部分并通过观察可知,&&/div&&为整个文章列表的结束部分。因此,在&区域结束的HTML&中,应填入&&/div&&。
设置结束后的&文章网址匹配规则&, 如(图11)所示,
图11-设置后的文章网址匹配规则
通过1.1.1小节、1.1.2小节和1.1.3小节,新增采集节点的第一步就已经设置完成了。设置后的结果,如(图12)所示,
图12-设置后的新增采集节点:第一步设置基本信息及网址索引页规则
全部完成并检查无误后,单击&保存信息并进入下一步设置&。如果之前设置正确,单击后,将会进入&新增采集节点:测试基本信息及网址索引页规则设置的网址获取规则测试&页面并看到相应的文章列表地址。如(图13)所示,
图13-网址获取规则测试
确定正确无误后,单击&保存信息并进入下一步设置&。否则,请单击&返回上一步进行修改&。
到这里,第一节就结束了。下面进入第二节。。。
有问题可以加入织梦技术QQ群一起交流学习
本站vip会员 请加入 PS:加入时备注用户名或昵称
普通注册会员或访客 请加入
相关织梦教程:
常用安装使用
随机织梦源码
织梦模板随机Tags当前位置: >
织梦(DEDECMS)一条采集规则采集多个栏目并导入本站的方法
发布时间: | 发布者:
 | 浏览次数:
 以后再也不用每采集一个栏目就写一个采集规则了,只要目标站的各个栏目列表页和内容页拥有一样的页面,只需一条且仅需一条采集规则就可以搞定!
  1、首先要在匹配网址中将不同的栏目用(#)表示,比如网站有以下栏目网址:
  http://www.dongdongliu.cn/news/feixiang/list_(*).html
  http://www.dongdongliu.cn/news/dongdong/list_(*).html
  则只需在&匹配网址:&栏中填入
 http://www.dongdongliu.cn/news/(#)_(*).html
  2、选中&启用多栏目通配(#) &项
  多栏目通配规则说明:
  [(#)=&(#)匹配的网址; (*)=&(*)的范围,如:1-20; typeid=&导入到本站的栏目 addurl=&附加的网址(如有多个请用|分开)] 回车
  按照这个格式在&多栏目通配规则&文本区填入相应的栏目通配规则,每个栏目之间用回车隔开。
  比如这里就应该填:
  [(#)=&feixiang/list_16; (*)=&1-5; typeid=&2; ]
  [(#)=&/dongdong/list_15; (*)=&1-5; typeid=&3; ]
  采集后在导入时,不用选择默认栏目,系统会自动导入到&多栏目通配规则&中所指定的栏目中,非常方便。
转载请标注:――热门关键字:
         
DeDeCMS采集的问题与技巧集锦!
maxjay:采集里怎么样过滤多个信息??
以下为引用的内容:mizuno:{dede:trim}1{/dede:trim}& {dede:trim}2{/dede:trim}& {dede:trim}3{/dede:trim}
tom111:网易财经频道-财经要闻 的采集点分享
以下为引用的内容:{dede:comments}{!-- 采集列表获取规则 --}{/dede:comments}{dede:list source='single' sourcetype='list' & & varstart='2' varend='9'} & {dede:url value='[url]http://finance.163.com/special/00251OFM/cjyw_0[/url][var:分页].html'}{/dede:url} & {dede:need}/06/{/dede:need}{dede:cannot}{/dede:cannot}{/dede:list}{dede:comments}{!-- 网页内容获取规则 --}{/dede:comments}{dede:art sptype='full'}{dede:sppage}{/dede:sppage}{dede:note field='title' value='[var:内容]'isunit='' isdown=''}{dede:match}&title&[var:内容]&/title&{/dede:match}{dede:trim}_网易财经-中国的投资门户{/dede:trim}{/dede:note}{dede:note field='body' value='[var:内容]'isunit='1' isdown='1'}{dede:match}&!-- main --&[var:内容]&a href=&javascript:reply_allReply()& target=&_self&&&img src=&& alt=&网友评论& width=&34& height=&18& border=&0& /&{/dede:match}{dede:trim}_网易财经-中国的投资门户{/dede:trim} & {dede:trim}&iframe src=&[url]http://adclient.163.com/html.ng/site=netease&affiliate=stock&cat=article&type=tvscreen&location=1[/url]& width=&360& height=&300& frameborder=&no& border=&0& marginwidth=&0& marginheight=&0& scrolling=&no&&&/iframe&{/dede:trim}{dede:trim}&a href=&[url]http://finance.163.com[/url]&&{/dede:trim}{/dede:note}{/dede:art}
------------------5713090:采集的时候,把文章内容里的链接去掉,过滤要怎么写
以下为引用的内容:柏拉图:{dede:trim}&a ([^&]*)&([^&]*)&/a&{/dede:trim}
世界和平:([^&]*)什么意思,是不是代表任意字符!好想不是,能不能解释一下具体的意思,
以下为引用的内容:柏拉图:除 '&' 以外的任意字符
cooldgjk:哪里有NC采集入DEDE V3的教程哦?
以下为引用的内容:tomosak:
必须:不知老大在DedeCms 3.0.1版中解决采集内分页问题了吗!
以下为引用的内容:柏拉图:关于采集器和会员整合的问题都会在dedecms V3.1中处理,到时候会有很大的改进
上一篇:没有了
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
Powered bydedecms织梦采集规则_百度知道
dedecms织梦采集规则
果目标网址为x.com&#47.html,年份(2016)和日期(0909)以及页码(188)都不固定;a/188;/b&#47,如何写规则
我有更好的答案
只把网址写到2016就可以,/后面的月和日可以用通配符,织梦的通配符我忘了,后台应该有提示
采纳率:49%
为您推荐:
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。服务器安全狗防护验证页面网站访问认证,点击链接后将跳转到访问页面

我要回帖

更多关于 dedecms文章采集规则 的文章

 

随机推荐