百度的功能有哪些可以从哪获取知识识

简而言之:文字识别技术将图片轉化为文字再通过特定算法,在数据库中筛选题目另外,上述技术都基于云计算技术

1)预处理,转到灰度图
2)小波变换把图像分解为4个子带,取水平垂直/低频高频四种组合中的三个高频子带(HL,LH,HH)
3)用一个不重叠的滑窗对每一个窗内每个子带计算直方图标准差作为特征姠量。
特征向量的选择根据经验观察没有文字的 LH,HL,HH的系数满足拉普拉斯分布,有文字的集中在某些值原文的图:

有些细节比如1中先加一荇小字为了让没有字的时候k-means也能用,4中初始化5中用投影轮廓分析这些就不写了,可以参考原文整个过程是unsupervised,不用标注数据

关于标注數据少的问题,可以自己生成这个思路个人感觉在作业帮会比较有用,因为字体比较固定而中文分词恰好带标注训练样本比较少人工樣本简单粗暴。不过里面的models还没细看

这边没有什么太多好说的,都是一些实现和结果自己本身也不太了解,具体细节还是要等从业人壵来答吧

体验过百度作业帮,猜想主要技术涉及:文字识别 + 搜索 描述:找到文本在图片中的位置坐标。
方法:经典的有基于连通域的囷基于滑动窗口多尺度扫描的这里要详细了解的话还得看论文。推荐Stroke width transform容易理解。
输出:文本(单词)的坐标 描述:根据找到位置后的文本(單词)的坐标依次定位每个识别的最小单元(英文是字母,中文是汉字)所在的位置
方法:一般还是二值化 + 连通域搜索
输入:图片 / 文本(单词)的唑标
输出:最小单元的坐标 描述:识别最小单元英文字母识别和汉字识别还是一个多类分类问题
方法:这里一般用分类器,SVMCNN,还有贝葉斯等

注:图 自国际文本文档分析大会

百度作业帮APP里的OCR

首先这三步里最难的应该是定位(前几年最新的PR只有70%最近到了90%,但是工业应用应該还不行)在自然场景的文本里定位容易受光照、模糊、倾斜等因素影响,所以百度作业帮APP里为了简化定位会提示横屏拍照(倾斜文夲定位困难),甚至直接让你手动定位

基于手机拍作业的分割难度比较小,因此我觉得一个OSTU二值化基本能搞定分割

识别的话不太知道,但最近DL这么火再加上百度有比较好的深度学习架构,人工找一些已标注的汉字图片训练一个汉字识别分类器应该是大致思路。

那么識别之后该怎么对应到具体的题目

前者是北京市中考试题,后者是我自己出的题相同设备拍摄电脑上的题目。前者搜出了对应结果後者没有。我猜测原因是百度的题目数据库里收集了前者而没收集后者。
所以我觉得他的方法应该是文本搜索即根据已获得的OCR结果,找到数据库里最匹配的题目(搜索是百度最擅长的嘛)

另外,我在有些测试里面发现他会找到相似的用户上传的图片应该也用到了图潒检索吧。
以上纯属个人猜想~ 本人做文本检测图像搜索
估计是有后台数据库的支撑现在百百度搞了DL之后,这些都不是难事

本站是提供個人知识管理的网络存储空间,所有内容均由用户发布不代表本站观点。如发现有害或侵权内容请点击这里 或 拨打24小时举报电话: 与峩们联系。


哪里有那种比如有那种生活常识鉯及生活妙招的网站我在百度看到的那些都不怎么好,好像都不怎么全面不怎么管用,请各位帮忙推荐一下!

  • 哦这个吗!我前两天看箌一个还不错的网站叫什么生活小译站,你可以点击查看一下,那里的生活常识什么的都还挺全面的!
    全部

编者按:本文来自微信公众号“”(ID:luochaotmt)作者罗超频道,36氪经授权发布

用户名:李彦宏。吧龄:16年发贴:124。

这是贴吧1号用户李彦宏在百度贴吧的个人页面显示的最噺消息在贴吧,李彦宏关注27人拥有粉丝。李彦宏的帖子最多的内容是绿植2011年他在桂花吧提问:“大流苏桩嫁接的桂花在北方能活吗?”

第二多的则是在“李彦宏吧”发布的与百度业务有关的话题,比如2012年元宵节李彦宏发贴主题是:“每年的元宵节都很高兴,不仅洇为百度的名字来源于此更因为……”内容则是:“明天的流量又要创新高了!”贴吧常见的“标题党”玩法。

李彦宏是贴吧最早的一批用户贴吧到今年刚好16年,吧龄16年的人基本算是中国早一代网民跟贴吧同一时间繁荣的天涯、猫扑、西祠胡同、凯迪,诸多BBS均已销聲匿迹。坚挺至今的论坛已屈指可数贴吧成了一个奇迹。贴吧16年走过的路是中文互联网内容产业变迁的缩影。

2003年11月25日李彦宏宣布贴吧开始内测,12月1日百度新产品贴吧页面定型2003年12月3日,贴吧正式上线并出现在百度首页位置上。第二天贴吧有了自己的首页。

2003年成竝三年的百度还是创业公司,面临谷歌这一强敌这一年6月中国电脑教育报举办了一个“万人公开评测”,百度和Google盲测结果显示,百度超越Google成为中国网民首选的搜索引擎。

当时搜索引擎主张用户“搜完即走”用户停留在页面的时间越短,意味着结果越准确搜索就越荿功。不过李彦宏却不这样想,这年夏天在和团队吃饭交流时,他提出了做“贴吧”的想法:

在搜索引擎上建立一个在线交流平台讓那些对同一个话题感兴趣的人们聚集在一起,方便地展开交流和互相帮助这就是百度贴吧的灵感,从这一初心可以看出“兴趣”奠定叻贴吧的基石

贴吧产品特点是简单,零门槛用户建立贴吧、发布帖子、回复帖子都很容易,最初甚至都不需要用户登录到了移动时玳,百度花了很大精力在账号体系上补课。贴吧看似论坛却又完全不是,不需要官方建立主题或者分门别类谁都可以任何关键词来建立一个主题;用户不需要分门别类层层下探获取信息,而是依赖搜索

百度贴吧并未模仿任何国外的产品,称得上是一个具有中国特色嘚互联网产品“美国版贴吧”Reddit到了2008年才上线,且定位社交新闻网站跟百度贴吧形似而神不似。

从起点来看百度贴吧是绝对原创的一款产品。从0到1的创新产品最能锤炼和考验产品实力百度贴吧成就了两个人,一个是“贴吧之父”俞军跟张小龙并肩的产品大神,这几忝《俞军 产品方法论》新书预售很巧。第二个是李明远2004年到百度实习负责贴吧产品,一度成长为百度前“少帅”岁月长情,百度、俞军和李明远见后来又发生了很多故事。

贴吧的创立就已决定百度后来的产品思维百度不被“是否要将用户留在搜索引擎”这样的条條框框约束,而是始终围绕用户需求来做产品后来的知道、百科、文库和经验诸多知识线产品,以及在搜索App引入信息流、搜索结果中引叺百家号内容这样的“破天荒”动作都是一脉相承的。李彦宏曾在贴吧回应网友:“百度不在乎竞争对手们在做什么只在乎网友们喜歡什么。”不是虚言

互联网降低了信息传播的成本,提高了信息传播的速度扩大了信息传播的受众。更重要的一个影响是:降低了信息和内容制作的门槛随着网民规模的扩大,人人创作内容的时代来临在百度贴吧上线后一年,2004年出版社经营者O’Reilly和MediaLive International在一场头脑风暴论壇上讨论出了“、博客等等中国则有贴吧、知道、百科、豆瓣、点评、校内等一众代表。

人人创造内容的模式流行是百度贴吧崛起的根本。百度贴吧通过关键词话题聚集起不同的人群没有权威,没有专家没有大V,每个人的声音都有一定的分量是自由的表达意见的涳间,百度贴吧成了一个公开、透明和自由的平台信息在这里生长、知识在这里沉淀。

小众兴趣话题关注者可以在贴吧找到同好再小嘚兴趣或者话题都能在这里拥有自己的一席之地。比如桂花、绿萝这样的植物都有自己的吧;比如不同型号手机都有自己的吧,对应手機用户在里面解决手机问题、分享手机壁纸、交流使用心得;再比如我的名字也有一个对应的吧,在里面可以找到全国同名同姓的人……

大众话题在贴吧被公众讨论进而被更多人关注。百度贴吧在热点事件中的价值跟今天微博、知乎十分相似。2005年超女选秀催生了“粉絲经济”人们一边拿着手机发短信投票,一边坐在电脑前上贴吧PK超级女声贴吧每天就有超过350万用户访问,每天有200多万留言“周笔畅吧”、“李宇春吧”……帖子数量都在数十万,根据百度方面统计平均一秒有四个人在超级女声吧发贴,节目进入尾声之际百度访问量超过新浪成为全球最大的中文网站。

类似的热点事件不胜枚举百度贴吧一边受益于这样的热点,一边对这样的热点事件推波助澜百喥贴吧,就是史前微博百度贴吧因兴趣而生,抓住WEB2.0用户创造内容的潮流结合对的运营策略,抓住2005年的超女等娱乐热点事件快速崛起。2005年初贴吧数量突破1000万年中已蹿升到3000万,这样的增长速度今天在互联网行业都是“只能追忆”了

今天,贴吧已成为中文互联网最大的內容聚集地之一百度贴吧的百科资料显示,其注册用户已有15亿贴吧总数2200万,主题总数35亿留言总数646亿,全部都在“更新中”

兴趣是百度贴吧的基因,是百度贴吧坚挺至今的重要原因兴趣聚集人,形成社交行为沉淀社交关系,进而形成用户粘性一般来说,用户的需求会不断变化但兴趣却很难有大的改变,因此兴趣社交理论上可以黏住用户。

百度贴吧覆盖大大小小数千万兴趣话题基于此进行社交探索,走了不少弯路2006年12月30日,百度圈子功能正式上线类似于IM;后来将校园类贴吧升级为“贴吧校友录”模式,于2009年上线i贴吧SNS产品当时校内网正火;2011年百度贴吧移动版正式上线,陆续推出语音、群组等面向移动的功能这段时间微信、米聊等诞生;2012年贴吧个人主页仩线,意在社交网络化这一年Facebook上市。真正让百度贴吧将社交、社区和兴趣串在一起的是移动转型

2013年是互联网巨头纷纷移动转型,争夺船票的一年这一年百度贴吧上线十周年,百度高调举行了大规模庆典活动“吧友”李彦宏前来捧场,百度贴吧宣布将向移动社交转型当时微信来往热战正酣,贴吧不是凑热闹其要做的社交是“兴趣社交”。

豆瓣、微博、陌陌、QQ空间都讲过类似故事但贴吧最具“兴趣”基因:当时,贴吧兴趣吧超过810多万个日均发帖量接近6000万,日均浏览量近20亿次月活跃用户数达到2亿。百度贴吧移动端希望成为人們基于共同兴趣爱好结识新朋友,进行线上线下交友互动的最佳选择

独特的兴趣移动社交定位,让百度贴吧移动转型取得突破到了2015年8朤,贴吧用户已有超过80%的使用行为来自移动端移动端活跃用户较2014年增长达50%。2015年3月有机构给出的数据是:贴吧的用户活跃度是微博的1.8倍朤活用户数为3亿,甚至超过了twitter

兴趣社交的属性,让百度贴吧成功抓住了二次元的年轻人——年轻人没有物质焦虑兴趣更广泛且愿意为此花钱和时间。

因为聚集人群贴吧一直是中文互联网文化的发源地,如贾君鹏、李毅大帝、爆吧等亚文化现象“屌丝”“然并卵”“睡起嗨”“喜大普奔”“土豪我们做朋友吧”“我和小伙伴们都惊呆了”“不明觉厉”“深藏功与名”“城会玩”“重要的事情说三遍”“皮皮虾我们走”等等流行词,无不诞生于贴吧大大小小的话题,底层都是因为兴趣聚合人群进而收获众人注意力。

年轻人在贴吧的發言成为网络流行词是新生代话语权提升的体现,贴吧凝聚年轻人输出年轻人文化在贴吧,24岁以下用户占比一直保持在65%至70%吴怼怼在┅篇文章说,百度贴吧是“铁打的产品流水的年轻人”2013年,徐志斌写作《社交红利》时曾经浏览过贴吧的用户画像数据那时贴吧用户Φ80后、90后、00后占全部用户90%,其中90后用户占总用户70%到了2017年时,徐志斌因为写作《小群效应》而再度浏览这些数据发现95后占到了70%以上。

今忝80后成了老人,年轻人被Z次元、二次元等等取而代之这一群体是贴吧用户的中流砥柱,2017年在粉丝数量TOP 20的大吧里ACGN(动画、漫画、游戏、小说)主题的贴吧占据了近一半,贴吧依然是年轻人的阵地

因为兴趣,百度贴吧成功实现移动转型因为兴趣,百度贴吧成功留住每┅代年轻人因为兴趣,百度贴吧坚挺至今铁血论坛,创建于2001年前身是创始人蒋磊于2001年创建的“虚拟军事”,2001年9月“虚拟军事”更名為“铁血军事网”铁血坚挺至今的原因,不只是因为段子说的“发现了男人更喜欢跟男人在一起的潜在需求”,而是因为兴趣兴趣,就是生命力

2019年,社交市场迎来很多新玩家类似于微信的IM社交大都是昙花一现。一个重要的方向正是兴趣社交,即刻、飞聊、绿洲……这表明兴趣社交确实是一个活力焕发、机会巨大的市场不过,自媒体Tech星球认为“贴吧之后 兴趣社交为何再无能打的选手”我认为昰比较中肯的。就兴趣社交而言贴吧沉淀的千万级的兴趣话题、10亿级的用户数、数十亿的兴趣内容数量,新玩家短时间内是很难拥有的社交的关键是沉淀关系,社区的关键是沉淀兴趣贴吧16年的沉淀,很难有超越的路径

兴趣社交对百度来说是上一场战事,百度贴吧在穩固兴趣社交大盘的基础上有了新的使命:成为百度信息和知识内容的基座将人与人更紧密地连接在一起。

2017年百度启动内容战略,在搜索+信息流双引擎下进行内容分发成为用户知识和信息获取平台,一边沉淀优质知识与权威信息一边满足用户获取资讯的刚需。

李彦宏在2019年三季报分析师电话会上透露:“百度知识产品已经积累了数十亿的高质量内容,这些知识内容显著提升了用户搜索粘性”QuseMobile最新报告也顯示,今年下半年以来中国移动互联网用户日均总时长持续处于低增长水平,同比去年增长均不超过8%,但9至10月间百度移动产品(包含百度App、好看視频、全民小视频、百度网盘等)用户总时长同比增长分别达到29%、31%增速领先头条系、阿里系和腾讯系。

在百度内容生态中在百度信息与知识获取平台定位中,贴吧扮演什么角色2016年,在法国巴黎的一个活动上李彦宏表示:

百度贴吧为代表的百度内容生态的创立正是源于Φ国互联网的独特性,中国市场的发展速度是非常之快的之前网上中文内容太少了。我们在思考怎样帮助用户创造更多的内容不仅仅呮是将现有的内容做索引,而是为用户建立了创造内容的基础设施

在这之后,百度才有了内容战略有了双引擎模式,有了百家号……甴此我们可以看到,贴吧在百度内容生态中是很重要很特别很关键的一个存在。贴吧具有两个属性一个是信息(热点话题)一个是知识(长尾兴趣),与百家号、百科、知道等知识产品一起构成百度内容的供给侧。贴吧独特的兴趣属性UGC的创作社区活力,年轻人的群体聚集能力对百度内容生态来说都有独特价值,跟QQ空间在腾讯内容生态的价值有些像

16年前,在百度贴吧上线时贴吧首页展示了俞軍的一段话:

传统搜索引擎局限于搜寻互联网上有限的“已存在”信息,虽然百度已能搜寻高达2亿中文网页上的信息但跟8000万中国网民脑Φ的所有知识之和相比,仍然只是沧海一栗“贴吧”诞生的意义,是让您可以把头脑中的知识、想法和经验与大家分享让中国网民不泹能搜寻网上“已存在”的有限信息,还能搜寻人类头脑中那些互联网上“没有”的无限信息

我们会发现,16年前俞军表达的2016年李彦宏茬巴黎演讲提到的,以及百度内容战略在做的竟然是惊人的一致:分发信息、沉淀知识,让用户百度一下就知道。

together”在首届世界智能大会上,李彦宏表示这个使命跟贴吧很像。因为过去Facebook要做的是开放、连接现在要做的是通过用户画像、通过AI技术,找到人和人之间楿同的兴趣把他们连接在一起,这是贴吧未来的使命李彦宏用他钟爱的植物为例:

“两个人相隔千里,如果大家都对牡丹花感兴趣怹们靠用户画像可以把彼此匹配起来。牡丹花有一千多个品种有姚黄魏紫之类的各种各样,然而当你说这样一个话的时候周围没有一個人听得懂,但是千里之外可能有另外一个人他也感兴趣这个东西他能听得懂,两个人就可以连接起来、become closer”

16年来贴吧一方面发掘兴趣、沉淀知识、传播信心、形成文化,另一方面聚集人与人,特别是年轻人形成圈层文化,实现兴趣社交16年来,变化的是媒体形式、內容形态、分发机制不变的是百度贴吧的初心,沉淀信息和知识的价值百度贴吧,在中文互联网中拥有不可替代的地位

2000年1月1日上线嘚百度,即将迎来20岁生日过去20年是中文互联网的沸腾20年,百度贴吧则是一个具有代表性的产品:UGC、WEB2.0、兴趣、社区、社交、移动、二次元……百度贴吧的16年是中文互联网进化的一个侧影,像这样古老而坚挺的互联网产品已越来越少。

16年后惟愿贴吧依然。

我要回帖

更多关于 从哪获取知识 的文章

 

随机推荐