dedecms采集采集规则在哪个表里面

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>编程语言 >>dedecms采集采集规则在哪个表里面

dedecms采集采集规则在哪个表里面

来源：蜘蛛抓取(WebSpider) 时间：2016-12-09 10:02 标签： dedecms文章采集规则

Dedecms采集功能的使用方法 --- 含有分页的普通文章（一）
前言：这篇文章是Dedecms采集功能使用方法的第二篇，主要目的是采集含有分页的普通文章，并使用简单的过滤规则。这次选取的目标站点是中国网管联盟网络技术频道的网络协议栏目，网址是&http://www.bitscn.com/network/protocol/&。本文共分为三节，第一节，主要是介绍新增采集节点中的第一步：设置基本信息及网址索引页规则；第二节，主要是介绍新增采集节点中的第二步：设置字段获取规则；第三节，主要是介绍如何采集指定节点和如何导出采集内容。对于编写采集规则中一些基本的操作，本文将一带而过或不再涉及，如有疑问可参见文章&Dedecms采集功能的使用方法 --- 不含分页的普通文章的采集&。
下面进入第一节。
1.1 设置基本信息及网址索引页规则
建立一个新的普通文章型节点，并进入&新增采集节点：第一步设置基本信息及网址索引页规则&如（图1）所示，
图1-新增采集节点：第一步设置基本信息及网址索引页规则
1.1.1 设置节点基本信息
图2-节点基本信息
首先，定义节点名称为&采集测试（二）&。其次，查找目标页面编码。其操作步骤为：
（a）打开被采集的目标页：http://www.bitscn.com/network/protocol/；
（b）单击右键后选择&查看源文件&，找到&charset&，如（图3）所示，
图3-查看源文件
其等号后面的代码就是所需的&编码格式&，这里是&gb2312&。对于&区域匹配模式&、&内容导入顺序&和&防盗链模式&，均使用默认值。
引用网址：可以选取在文章列表里出现的任意一个文章页的网址。方便起见，一般是填入文章列表中第一篇文章的网址，但是由于第一篇文章没有涉及到分页内容，为了展示如何采集分页文章，这里使用第二篇文章作为引用网址。其网址为：&http://www.bitscn.com/network/protocol/110.html&。设置后的节点基本信息，如（图4）所示，
图4-设置后的节点基本信息
检查无误后，进入下一步设置。
1.1.2 设置列表网址获取规则
如（图5）所示，
图5-列表网址获取规则
这里是设置被采集的文章列表页的匹配规则的，也是本节的重点和难点。
具体操作步骤：
（a）首先，回到已打开的文章列表页，这时浏览器的URL地址栏中显示的网址，如（图6）所示，
图6-列表首页的网址
（b）找到文章列表页的换页部分，把鼠标放在各个页码上面，同时观察其URL的变化规律。可以得出，网址的匹配规律为：&http://www.bitscn.com/network/protocol/list_(*).html&。因此，在&匹配网址&中，应填入&http://www.bitscn.com/network/protocol/list_(*).html&，为了能够快速演示采集过程，这里设定页面是从1开始到1结束，也就是说只采集第一页。
设置后的 &列表网址获取规则&，如（图7）所示，
图7-设置后的列表网址获取规则
检查无误后，进入下一步设置。
1.1.3 设置文章网址匹配规则
如（图8）所示，
图8-文章网址匹配规则
这里是设置被采集文章列表页的匹配规则。
具体操作步骤：
（a）对于&区域开始的HTML&，可通过在打开的文章列表首页上，单击右键后选择&查看源文件&。在源文件中，找到第一篇文章的标题&OpenFlow网络是空谈吗？&，如（图9）所示，
图9-查看源文件中，第一篇文章的标题
通过观察源文件，不难看出&&div class=&list-cc&&&为整个文章列表的开始部分。因此，在&区域开始的HTML&中，填入&&div class=&list-cc&&&。
（b）在源文件中，找到最后一篇文章标题&认识多重PPP链接协议&，如（图10）所示，
图10-查看源文件中，最后一篇文章的标题
结合文章列表的开始部分并通过观察可知，&&/div&&为整个文章列表的结束部分。因此，在&区域结束的HTML&中，应填入&&/div&&。
设置结束后的&文章网址匹配规则&，如（图11）所示，
图11-设置后的文章网址匹配规则
通过1.1.1小节、1.1.2小节和1.1.3小节，新增采集节点的第一步就已经设置完成了。设置后的结果，如（图12）所示，
图12-设置后的新增采集节点：第一步设置基本信息及网址索引页规则
全部完成并检查无误后，单击&保存信息并进入下一步设置&。如果之前设置正确，单击后，将会进入&新增采集节点：测试基本信息及网址索引页规则设置的网址获取规则测试&页面并看到相应的文章列表地址。如（图13）所示，
图13-网址获取规则测试
确定正确无误后，单击&保存信息并进入下一步设置&。否则，请单击&返回上一步进行修改&。
到这里，第一节就结束了。下面进入第二节。。。
有问题可以加入织梦技术QQ群一起交流学习
本站vip会员请加入 PS:加入时备注用户名或昵称
普通注册会员或访客请加入
相关织梦教程：
常用安装使用
随机织梦源码
织梦模板随机Tags当前位置： >
织梦(DEDECMS)一条采集规则采集多个栏目并导入本站的方法
发布时间: | 发布者：
 | 浏览次数：
　以后再也不用每采集一个栏目就写一个采集规则了，只要目标站的各个栏目列表页和内容页拥有一样的页面，只需一条且仅需一条采集规则就可以搞定!
　　1、首先要在匹配网址中将不同的栏目用(#)表示，比如网站有以下栏目网址：
　　http://www.dongdongliu.cn/news/feixiang/list_(*).html
　　http://www.dongdongliu.cn/news/dongdong/list_(*).html
　　则只需在&匹配网址：&栏中填入
　http://www.dongdongliu.cn/news/(#)_(*).html
　　2、选中&启用多栏目通配(#) &项
　　多栏目通配规则说明：
　　[(#)=&(#)匹配的网址; (*)=&(*)的范围，如：1-20; typeid=&导入到本站的栏目 addurl=&附加的网址(如有多个请用|分开)] 回车
　　按照这个格式在&多栏目通配规则&文本区填入相应的栏目通配规则，每个栏目之间用回车隔开。
　　比如这里就应该填：
　　[(#)=&feixiang/list_16; (*)=&1-5; typeid=&2; ]
　　[(#)=&/dongdong/list_15; (*)=&1-5; typeid=&3; ]
　　采集后在导入时，不用选择默认栏目，系统会自动导入到&多栏目通配规则&中所指定的栏目中，非常方便。
转载请标注：――热门关键字：
　　　　　
DeDeCMS采集的问题与技巧集锦！
maxjay:采集里怎么样过滤多个信息??
以下为引用的内容：mizuno:{dede:trim}1{/dede:trim}& {dede:trim}2{/dede:trim}& {dede:trim}3{/dede:trim}
tom111:网易财经频道-财经要闻的采集点分享
以下为引用的内容：{dede:comments}{!-- 采集列表获取规则 --}{/dede:comments}{dede:list source='single' sourcetype='list' & & varstart='2' varend='9'} & {dede:url value='[url]http://finance.163.com/special/00251OFM/cjyw_0[/url][var:分页].html'}{/dede:url} & {dede:need}/06/{/dede:need}{dede:cannot}{/dede:cannot}{/dede:list}{dede:comments}{!-- 网页内容获取规则 --}{/dede:comments}{dede:art sptype='full'}{dede:sppage}{/dede:sppage}{dede:note field='title' value='[var:内容]'isunit='' isdown=''}{dede:match}&title&[var:内容]&/title&{/dede:match}{dede:trim}_网易财经-中国的投资门户{/dede:trim}{/dede:note}{dede:note field='body' value='[var:内容]'isunit='1' isdown='1'}{dede:match}&!-- main --&[var:内容]&a href=&javascript:reply_allReply()& target=&_self&&&img src=&& alt=&网友评论& width=&34& height=&18& border=&0& /&{/dede:match}{dede:trim}_网易财经-中国的投资门户{/dede:trim} & {dede:trim}&iframe src=&[url]http://adclient.163.com/html.ng/site=netease&affiliate=stock&cat=article&type=tvscreen&location=1[/url]& width=&360& height=&300& frameborder=&no& border=&0& marginwidth=&0& marginheight=&0& scrolling=&no&&&/iframe&{/dede:trim}{dede:trim}&a href=&[url]http://finance.163.com[/url]&&{/dede:trim}{/dede:note}{/dede:art}
------------------5713090:采集的时候，把文章内容里的链接去掉，过滤要怎么写
以下为引用的内容：柏拉图:{dede:trim}&a ([^&]*)&([^&]*)&/a&{/dede:trim}
世界和平:([^&]*)什么意思，是不是代表任意字符！好想不是，能不能解释一下具体的意思，
以下为引用的内容：柏拉图:除 '&' 以外的任意字符
cooldgjk:哪里有NC采集入DEDE V3的教程哦？
以下为引用的内容：tomosak:
必须:不知老大在DedeCms 3.0.1版中解决采集内分页问题了吗!
以下为引用的内容：柏拉图:关于采集器和会员整合的问题都会在dedecms V3.1中处理，到时候会有很大的改进
上一篇：没有了
评论内容：不能超过250字，需审核，请自觉遵守互联网相关政策法规。
Powered bydedecms织梦采集规则_百度知道
dedecms织梦采集规则
果目标网址为x.com&#47.html，年份（2016）和日期（0909）以及页码（188）都不固定;a/188;/b&#47，如何写规则
我有更好的答案
只把网址写到2016就可以，/后面的月和日可以用通配符，织梦的通配符我忘了，后台应该有提示
采纳率：49%
为您推荐：
您可能关注的内容
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。服务器安全狗防护验证页面网站访问认证，点击链接后将跳转到访问页面

dedecms采集采集规则在哪个表里面

我要回帖

更多关于 dedecms文章采集规则的文章

随机推荐

dedecms采集 采集规则在哪个表里面

我要回帖

更多关于 dedecms文章采集规则 的文章

随机推荐

dedecms采集采集规则在哪个表里面

更多关于 dedecms文章采集规则的文章