百度知道上传视频被拒，理由是“material_finger_mark,命中指纹去重策略” 是什么意思？

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>百度知道 >>百度知道上传视频被拒，理由是“material_finger_mark,命中指纹去重策略” 是什么意思？

百度知道上传视频被拒，理由是“material_finger_mark,命中指纹去重策略” 是什么意思？

来源：蜘蛛抓取(WebSpider) 时间：2022-06-05 08:56 标签：拒绝7天无理由退货怎么办

Scrapy简单易用、灵活易拓展，任何人都可以根据需求方便的修改。它的开发社区活跃，并且是跨平台的，在Linux、 MaxOS以及Windows平台都可以使用。

Scrapy用途广泛，可以用于数据挖掘、监测和自动化。

网络爬虫是指：在互联网上自动爬取网站内容信息的程序，也被称作网络蜘蛛或网络机器人。

大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域，个人用户或企业也可以利用爬虫收集对自身有价值的数据。

3、网络爬虫的基本流程

任何爬虫程序都遵循这三个基本流程：请求数据、解析数据和保存数据。

请求的数据除了普通HTML页面之外，还有JSON数据、字符串数据、图片、视频、音频等等。
当整个数据被请求后得到，对数据内容进行分析，并筛选出需要的内容。
将数据以某种格式保存起来，如：写入文件中（csv、json）等，或保存到数据库（MySQL、MongoDB）等等。

切换到项目中，即按照提示，切换到quotes文件夹中去

Spider 是用户编写用于从单个网站(或者一些网站)爬取数据的类。
为了创建一个Spider，必须继承']

4、站长之家全网爬案例

继前面的分析，完成后续项目

将每一个链接里的第一个页面数据信息爬取下来

Scrapy_redis 在scrapy 的基础上实现了更多，更强大的功能，具体体现在：reqeust去重，爬虫持久化，和轻松实现分布式

那么，scrapy_redis是如何帮助我们抓取数据的呢？

Scrapy并不会共享调度队列，也就是说Scrapy是不支持分布式的。为了支持分布式，我们需要让Scrapy支持共享调度队列，也就是改造成共享调度和去重的功能。

默认情况下Scrapy是不支持分布式的，需要使用基于Redis 的 Scrapy-Redis 组件才能实现分布式。

Redis数据库充当分发工具

将一个爬虫代码，分别部署在多台电脑上，共同完成整个爬虫任务。
使用Redis服务器来集中处理所有的请求，主要负责请求的去重和调度。通过这种方式，所有电脑端的爬虫共享了一个爬取队列，并且每个电脑端每次得到的请求都是其他爬虫未曾访问的。从而提高了爬虫效率。

得到一个请求之后，检查一下这个Request是否在Redis去重，如果在就证明其它的spider采集过，如果不在就添加进调度队列，等待别人获取。

Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件。

Scrapy-redis 提供了下面四种组件（components）：(四种组件意味着这四个模块都要做相应的修改)

Scheduler（调度器） - 原本在本机进行调度，现在在服务器进行调度，即redis数据库进行调度
Duplication Filter（去重） - 原本去重后的数据保存到本地，保存到元组和列表，现在要保存到服务器中去

queue换成redis数据库（也是指redis队列），便能让多个spider去同一个数据库里读取，这样实现共享爬取队列。

Redis支持多种数据结构，这些数据结构可以很方便的实现这样的需求：

列表有lpush()，lpop()，rpush()，rpop()，这些方法可以实现先进先出，或者先进后出式的爬取队列。
集合元素是无序且不重复的，可以很方便的实现随机排序且不重复的爬取队列。
Scrapy的Request带有优先级控制，Redis中的集合也是带有分数表示的，可以用这个功能实现带有优先级调度的爬取队列。

Scrapy把待爬队列按照优先级建立了一个字典结构，比如：

然后根据request中的优先级，来决定该入哪个队列，出列时则按优先级较小的优先出列。由于Scrapy原来的Scheduler只能处理Scrapy自身的队列，不能处理Redis中的队列，所以原来的Scheduler已经无法使用，应该使用Scrapy-Redis的Scheduler组件。

Scrapy自带去重模块，该模块使用的是Python中的集合类型。该集合会记录每个请求的指纹，指纹也就是Request的散列值。指纹的计算采用的是hashlib的sha1()方法。计算的字段包含了，请求的Method，URL，Body，Header这几个内容，这些字符串里面只要里面有一点不同，那么计算出来的指纹就是不一样的。也就是说，计算的结果是加密后的字符串，这就是请求指纹。通过加密后的字符串，使得每个请求都是唯一的，也就是指纹是惟一的。并且指纹是一个字符串，在判断字符串的时候，要比判断整个请求对象容易。所以采用了指纹作为判断去重的依据。

Scrapy-Redis要想实现分布式爬虫的去重功能，也是需要更新指纹集合的，但是不能每个爬虫维护自己的单独的指纹集合。利用Redis集合的数据结构类型，可以轻松实现分布式爬虫的指纹判重。也就是说：每台主机得到Request的指纹去和Redis中的集合进行对比，如果指纹存在，说明是重复的，也就不会再去发送请求，如果不曾存在于Redis中的指纹集合，就会发送请求，并且将该指纹加入Redis的集合中。这样就实现了分布式爬虫的指纹集合的共享。

爬取所有省份链接内的新房和二手房。

scrapy 爬虫框架的爬取流程

scrapy框架各个组件的简介

对于以上四步而言，也就是各个组件，它们之间没有直接的联系，全部都由scrapy引擎来连接传递数据。引擎由scrapy框架已经实现，而需要手动实现一般是spider爬虫和pipeline管道，对于复杂的爬虫项目可以手写downloader和spider 的中间件来满足更复杂的业务需求。

scrapy框架的简单使用

在安装好scrapy第三方库后，通过terminal控制台来直接输入命令

通过查看scrapy框架打印的debug信息，可以查看scrapy启动顺序，在出现错误时，可以辅助解决成为。

通过scrapy shell可以在未启动spider的情况下尝试以及调试代码，在一些不能确定操作的情况下可以先通过shell来验证尝试。


SPIDER_MODULES = [' 可以得知, 网页的数据是直接嵌在HTML中, 请求网站域名, 服务器直接返回的html标签包含了网页内可见的全部信息. 所以直接对服务器响应的html标签进行解析.
同时翻页爬取数据时,也发现下页的url 已被嵌在html中, 因此借助crawlspider可以非常方便的提取出下一页.cn']

这里主要设置一些请求头得到信息以及在每次请求时间歇两秒

调度器（请求队列）， 下载器（下载网页），spider（解析提取数据），pipeline（验证和持久化，一般用于存储数据库），引擎（核心）
==>resquests 分析接口，构造请求 =》 发送请求 =》数据清洗解析提取=>入库存储

scrapy的去重原理流程：利用hash值和集合去重。首先创建fingerprint = set()结合，然后将request对象利用sha1对象进行信息摘要，摘要完成之后， 判断hash值是否在集合中，如果在，返回true,如果不在，就add到集合

scrapy-redis 的去重原理基本是一样的，只不过持久化存储到redis共享数据库中，当请求数据达到10亿级以上
这个时候就会非常消耗内存，一个sha1 40个字节，就会占40G的内存，这个存储绝大部分的数据库无法承受
这个时候就要使用布隆过滤器。

四个因素：请求数据，位图长度，哈希算法个数，误判率
布隆过滤器可以极其高效的判断request请求数据是否已经存在，有一定的误判率，但是如果没有，那么一定就是不存在，这样可以进行高效的进行