请问是不是这个图片被点击得最多,所以被三大索引收录号是什么在搜索结果页面? 如果不是,规律是什么?

查看: 15|回复: 0
搜索引擎抓取页面的规律有哪些
积分 威望0 点
激情2612 点
主题帖子积分
D+ 开源站长, 积分 3029, 距离下一级还需 1971 积分
D+ 开源站长, 积分 3029, 距离下一级还需 1971 积分
社区主题帖达到100贴的时候,自动获得该勋章。
TA在日13时14分获得了这枚徽章。 []
社区在线时间超过10个小时后,即可获得此在线居民勋章。
TA在日14时39分获得了这枚徽章。 []
& && & 搜索引擎在互联网中它是起着为用户提供信息供给服务的媒介,但是它本身并不具备信息产生功能,所以它才需要不断的在互联网上进行收集信息以供用户查阅,来达到它特有的互联网生存盈利模式。
& & 站长们建设网站需要找寻用户,而同样的用户也需要通过搜索引擎来找到所需的网站,搜索引擎在其中不过是起到一个中介的作用,并非是信息产生器,所以它必须不断的抓取互联网信息。
& & 蜘蛛主要通过3种链接来抓取网站,1. url路径(站长们的域名);2. 锚文本;3. 超链接;
& & 笔者发现有相当数量的新手站长并不清楚url路径和超链接的区别,url代表仅仅是一个域名,它在页面上的体现形式是不能直接通过点击跳转进入另外一个页面,而超链接则相反,众所周知,它是一个链接,它是可以通过直接点击跳转进入另外一个页面,这便是url路径与超链接的区别。蜘蛛抓取页面时首先会对各位站长的url路径进行收集,然后对其分类,在这里就得涉及到域名的特性,那什么是域名的特性呢?没错,就是它的后缀,它分为,,,等,搜索引擎会把网站里的链接收集起来带到自己的服务器进行分析。
& & 那百度蜘蛛的抓取规律是什么呢?我一起来了解一下.
& & 一、稳定式抓取
& & 稳定式抓取,指的是每天24小时,每一个小时的抓取量相差不大。稳定式抓取往往是对新站才会出现,
& & 对于Baidu认为你站是成熟期的,如果出现了这种抓取方式,你可一定要小心了,这种抓取方式,你的站多半会被降权。
& & 第二天就能看出来,首页的快照日期,一定不会给你更新的。就好比一个人做任何事情时的,没有了激情,也就没有了爆发力,
& & 当然不会卖力干事的,不卖力干事,你说效果会有多好。
& & 二、确认式抓取
& & 什么是确认式抓取呢?就是指你网站更新一个内容过后,Baidu第一次抓取过后,一定不会给你放出收录来,
& & Baidu知蛛还要进行第二次抓取再运算、比较计算的,如果认为你这个更新内容有必要收录,Baidu知蛛会进行第三次抓取,
& & 正常情况下Baidu知蛛不会进行第四次抓取。第三次确认过后,Bai的u知蛛就会慢慢的给你放出收录。
& & 这种确认式抓取方式,就有点类似与谷歌的抓取方式。
& & Baidu知蛛机器人抓取首页的方式还是同原来一样,一天不知要抓取多少次首页,其它页面,如果Baidu认为有必要进行计算的话,就会进行第二次确认抓取。
& & 比如我的站吧,我每天更新的内容,只要是Baidu知蛛机器人抓取了三次的,基本上都会放出收录来。抓取两次了的,都不会放出来。
& & 抓取四次的基本上没有看到过。
& & 三、爆发式抓取
& & 不知Baidu知蛛是不是喜欢高效率的抓取,有时Baidu知蛛能在一两分钟内抓取几百次。因为知蛛机器人,它抓取一段时间过后,知蛛机器人再去运算程序,
& & 看是否是原来收录过的,是否是原创什么的,是否应该收录等等。毕竟这样的抓取不会经常出现,只是偶有现身。
& & 以上信息由图袋网
网站导航:
※ 注意:为了您更好更快的咨询,请直接跟我们在线客服留言问题!因为目前每日咨询量较大,可能回复会稍稍偏慢请谅解,但我们一定做到留言必回复。
※ 服务热线: ※
打开手机扫一扫
Powered by Discuz X3.2百度和 Google 的搜索技术是一个量级吗?
百度和Google的搜索技术是一个量级吗?
按投票排序
261 个回答
:不知為什麼這個答案下突然多了很多讚和評論,來補充信息答謝觀眾。 關於繁體字問題,我是廣東人,看香港電視長大,簡繁體對我閱讀沒有什麼影響,在我眼裡更無高下之別,我用繁體字寫這篇回答的唯一原因就是當時輸入法的狀態是繁體…… 為保持一致正文補充依然為繁體,盼見諒。前百度員工,現 Google 員工,在兩個公司做的都不是搜索相關項目。先一句話回答:在與搜索相關的基礎技術方面,百度距離 Google 仍有很大的差距,但今天是否還存在量級上的差距存疑。開頭先扯個不相干的領域,蘇聯 1960 年代裝備的 Mig-25 [1] 截擊機,這是世界上第一款能飛雙三(三倍音速,30000米升限)的戰鬥機。西方世界面對這變態的性能參數驚詫莫名,推斷蘇聯在航空技術上已全面超越西方。直到別連科駕駛 Mig-25 叛逃西方,他們終於有機會接觸真機,才發現它使用的技術其實沒那麼先進,變態的性能指標都是用普通的技術基礎硬幹上去的,飛機非常笨拙以至有「直線戰鬥機」的稱號,可憐的發動機要真飛一次三倍音速落地就得報廢。蘇聯的航空技術並沒有他們想象的這麼逆天。2009 年我在百度,面對 Google 公開的技術資料和百度的內部系統,我首先想起的就是 Mig-25. 就跟這臺戰機一樣,當時的百度,在中文搜索結果質量的各項指標上,對比 Google 還是有優勢。百度的工程師非常聰明,也非常努力,在某些點上也做得很細很出色,但是在與搜索相關的基礎技術上,百度還是全面落後。百度的搜索質量提高,有很大部分是依靠人工做大量細緻的策略調整硬拉上去的。用普通技術飛上雙三,Mig-25 本身是個了不起的工程成就。下一代戰機,不管是蘇聯的 Su-27 還是美國的 F-15, 乃至四代機 F-22, 都沒有能飛出雙三來的,但這些下一代戰機在技術水準和整體性能上,無疑遠勝 Mig-25, 這應該能算得上題主所說的量級差異。技術的量級差異不能拿某個特定指標或孤例評估(Mig-25 還曾擊落過 F/A-18 呢),也不能只比較某些技術點上的優劣,而往往是決定於基礎技術水平。在 2009 年,我可以很肯定地說百度搜索相關的基礎技術對比 Google 有量級差距。據我了解,這些年百度在基礎技術方面進步很快,當然同時 Google 也在快速進步。它們在今天是否有量級的差異,我不確定。下面列幾個重要的而且公開資料較多的基礎技術:大規模機群建設與管理。Google 的情況可以參見 [2] The Datacenter as a Computer: An Introduction to the Design of Warehouse-Scale Machines, Second Edition. Google 擁有世界上最大的計算機集群,論機器數量的話能在量級上超過所有其他公司。同時,它有一整套自動化管理軟件,以便工程師申請和使用這些硬件資源(大致可以理解成一套 Amazon EC2)。就我的了解,現在在普通工程師使用機群硬件資源的方便程度和可以使用的量上,百度還是遠遠不及。 大規模計算與存儲。Google 論文老三篇 GFS, MapReduce, BigTable 不再贅述,近年 Google 在這些方面的研發和進步沒有停滯甚至在加快。當然百度也在努力追趕,百度不僅使用 Hadoop, 而且基於 Hadoop 做了大量改進和擴展,並貢獻回 Hadoop 開源社區。百度在 SSD 存儲技術等方面也很有心得,比如 flash 存儲方面最近中了的一篇 ASPLOS '14
SDF: Software-Defined Flash for Web-Scale Internet Storage System.機器學習和人工智能。被吹得神乎其神的 deep learning 和 Google Brain 等等。在 deep learning 這個相對較新的領域,百度追趕的更快,水平也更接近。機群管理的技術水平決定你能擁有和有效使用多少硬件資源,大規模計算與存儲決定你能在這些硬件上做多大規模的事情 —— 而最後,搜索引擎本身就是一套大規模機器學習系統。在純技術之外,我想特別提一點極大影響技術進步,而至少在 2009 年百度與 Google 差距巨大的因素:普通工程師所能使用的工具水平。我在 Google 感覺最爽的事情是我可以很容易獲得大量的計算資源,做以前無法想象的大規模數據分析。要驗證一個想法,我可以基於一整天的搜索記錄做分析,只需幾分鐘就能得到結果(參見 [3]),進行調整和下一步分析;而如果沒有這套基礎軟件和可以隨意使用的硬件資源,我可能得等一整天才能有結果,或者只能分析小規模的抽樣數據。在我自己的知識和技術水平不變的前提下,Google 這套系統極大地提高了我的工作效率,讓我能做到以前完全無法想象的事情。我覺得作為一個技術人員,黑或者捧哪個公司毫無意義,技術的事情很直接的,身在哪個公司都無法影響基本判斷。還在百度的時候,我就經常想,Mig-25 的故事是個很好的警示,人很容易為類似「雙三」這樣的成就沾沾自喜,而對實打實的基礎技術差距視而不見,不圖進步,那前景就相當危險了。幸好據我所知的情況,百度可沒有這麼不爭氣。: 補充一個實際例子來說明不同技術條件下兩個公司做事思路的區別。評論中有朋友提到百度的分詞技術,這確實是「百度更懂中文」的一個集中體現。百度當年做分詞的時候很可能是這樣的:先從一個人工編輯好的字典開始,用這個字典跑一些網頁,觀察分析裡面的 bad case —— 可能是分詞過細,或者是中文人名沒分出來,然後就嘗試根據中文語法規律加入規則或添加詞表解決這些 bad case, 如此往復,直到有滿意的結果。上線應用,發現有新的 bad case 就再研究加規則,當然也有自動流程發現和確認如「人艱不拆」之類的新詞。Google 做分詞的話就是把問題看成一個概率問題:如果中文網頁中哪些字經常一起出現,那麼它們很有可能就是一個詞。看哪些詞後面會跟的地得,的地得後面有常跟哪些詞,語法結構也就出來了。(具體的模型參見吳軍《數學之美》)。解題思路就是把所有抓到的中文網頁往 MapReduce 裡一丟,參數算出來就好了。評估分詞質量的方法也很簡單,就拿新模型放到網頁檢索的模型裡,做個實驗看質量有沒提升就行。這套方法結果之好,基本把中文分詞做成了一個沒有多少懸念的簡單問題,而且基本不需要中文語言專家的參與(自然也沒有誰更懂中文的問題)。同時這也就是 Google 做 Translate 的思路。這裡面基本方法其實非常簡單,沒什麼祕密可言,但是你得先有這麼多的網頁數據,還得有大機群,有分佈計算框架,還有可復用的模型……我認為在技術受限的條件下,人工微調優化結果是一個恰當的產品思路,但這個產品思路會與技術發展路線相互影響。對於長尾頭部的一千個熱詞,完全可以用人工編輯的方法做出非常好的結果,而短期內改進通用的機器模型達到人工編輯的效果幾乎不可能。這時候,人工調整可能會受鼓勵,而通用模型的技術改進可能就得不到足夠的重視 —— 雖然即使以中國的人力成本,對所有搜索結果人工調優也絕無可能,但能搞定長尾頭部也不錯了不是?Google 的主流技術思路則是骨子裡不相信人工調整,什麼事情都非得弄出個自動通用可擴展的模型來不可,這種思路可能一開始在那一千個熱詞上怎麼都比不過勤勞接地氣的編輯,但通過積累數據調整模型,假以時日,整體結果質量就會顯著提升 —— 我就是這麼看 2009 年時 Google 搜索質量給我們的壓力的。這種思路在具體的產品運營上不一定對,不是人人都有 Google 的資源來花時間做通用技術,但 Google 確實就在這種「技術碾壓一切」的(錯誤?)道路上越走越快。[1] [2] [3]
很多答案是从使用上讲的,我加两个技术方面的。搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,保证存储和查询速度,保证数万台服务器内容一致的难度越来越高。Google于03至06年左右公布了三篇论文,描述了GFS、BigTable、MapReduce三种技术以解决这些问题。由于Google并没有公布算法细节,因此由雅虎牵头,在06年左右建立了开源项目Hadoop,目的是根据Google的三篇论文,实现一个大规模的管理计算系统。但直到08年,Hadoop同Google公布的一些关键指标仍有几倍的差距。百度曾经由王选院士的一个博士带领,想基于Google论文独立实现(金字塔计划)一个自己的系统,但开发难度过大项目夭折,最终也转向了Hadoop。如今,Amazon、Facebook、Yahoo包括百度都在大规模应用Hadoop,而Google已经从2010年开始迁移到新的三驾马车Caffeine、Pregel、Dremel上了。单就搜索技术而言,Google不是领先百度,而是领先全世界。年,Google公布了世界上第一个全球化的数据库系统Spanner,这套系统将分布在全球各地的数据中心连接到一起,利用原子钟和GPS,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。在Google之前,很多人认为这种系统不可能做出来,但Google做到了[1]。另外,除了搜索,Google在深度学习和机器人方面也是全球领先的,尤其是后者。尽管百度也有深度学习研究院,但在这两方面跟Google比起来完全是空白。事实上,让百度来和谷歌比是很不公平的,搜索只是Google的一个部门,但却是百度一整个公司。Google的竞争对手是Apple、Amazon、Facebook和Microsoft,百度的竞争对手是360、搜狗。Google没了搜索,还有Chrome、Android、Youtube,百度没了搜索,那就什么都没有了。[1]
仅从搜索结果质量的角度做一个对比。百度与
的眼球跟踪(Eye Tracking)对比图(07年,来源: ): 的结果体现了较好的「黄金三角」特征,很可能是因为用户在前几个搜索结果中就找到了要找的链接。而百度的结果较分散,很可能是因为用户不满意前几个搜索结果,继续向下浏览。
反驳 的回答。你为什么不提及这些结果?
百度和谷歌单就搜索技术而言,二者从来就不是一个量级的。想知道两者谁的技术更牛逼,那么我们看一下二者谁掌握的专利技术多就可以了。Google有一个专利检索引擎,我们可以在里面找到自一九七几年到二零一一年之间的专利技术点击左侧这个链接可以进入专利检索页面。注:语法inassignee:""是限制公司名称。因为搜索引擎只是Google公司众多业务的一部分,同时近几年苹果以及Google公司的专利大战等因素导致Google公司的专利技术激增。所以我在搜索条件中分别加入关键词“搜索”以及英文“Search”,用以更加精确的去检索出关于“搜索”以及“Search”相关的专利技术。同时使用英文与汉语同时进行检索,我们可以看到2者之间的差距。===================下面是百度的专利===================不过,就像其他答案中提到的一样,鉴于Google现在在大陆的状态以及中英文之间的差距(分词技术),在日常生活中,百度还是用起来比较顺手的。但是,既然提问者问的是技术,这个答案比上面的多数答案更有说服力(得意的笑)
楼上某些人的截图很不负责任啊,你们比较应该是用它们最擅长的语言好不好?应该是百度的中文搜索比较谷歌的英文搜索,我现在举几个例子。你不要用香港谷歌,用美国谷歌试试。而且语法尽量符合美国人习惯首先是冬奥会的湖人队,这个看各位排版喜好了湖人队,这个看各位排版喜好了然后是油价换算,这个百度根本不行,然后看看美帝的油价然后是油价换算,这个百度根本不行,然后看看美帝的油价然后是汇率然后是汇率地理,以日落时间为例地理,以日落时间为例位置搜索位置搜索行程,都有飞机,都很贴心的说行程,都有飞机,都很贴心的说城市中餐馆搜索城市中餐馆搜索人物搜索,以兵库北为例,谷歌显然内容更丰富,排版更漂亮人物搜索,以兵库北为例,谷歌显然内容更丰富,排版更漂亮公司搜索,谷歌提供了当日股市行情知识覆盖与理解:知识覆盖与理解:这个真是中国特色这个真是中国特色然后是航班查询5s发布日期5s发布日期一款汽车查询一款汽车查询动漫查询,百度给出了观看链接,非常人性化动漫查询,百度给出了观看链接,非常人性化世界杯相关,显然百度和谷歌各有偏好世界杯相关,显然百度和谷歌各有偏好空气质量指数,美国空气太好了,没人用的原因吗?空气质量指数,美国空气太好了,没人用的原因吗?问两地多远的问题问两地多远的问题生活查询,比如可口可乐的热卡生活查询,比如可口可乐的热卡科学计算科学计算外语翻译,百度还是很多语言没有收录,貌似只有几种,举个西班牙语的例子外语翻译,百度还是很多语言没有收录,貌似只有几种,举个西班牙语的例子简单的单位换算简单的单位换算看了这么多图,我认为,其实两家各有所长楼上各种喷子还是休息吧,我用谷歌只是觉得它更加美观而已。其实什么搜索技术最直接的表现不是在这些日常应用上面么?那些高精深的东西又有多少人会去用呢?鉴于国内网站含水量太高,我个人还是推荐谷歌的,毕竟在美国享受到了各种便利。
我是来反对大大 及其它部分网友答案的,如果觉得有道理请点赞帮忙顶起来,谢谢!:(提醒,多图长文)一.在搜索江湖的早期历史中,李彦宏的技术创新领先于谷歌1.我的理解,题主问题的语境是当下,就算是“曾经领先”并不能说明什么。2.到底是不是曾经领先呢?在搜索引擎的早期发展史中,李彦宏+威廉张,无疑是技术的领先者。在1998年的布里斯班世界互联网大会上,李彦宏是主讲台上的技术布道者,而谷歌的两位创始人仍是坐在台下聆听的学生而已。这一说法是有一些争议的,曾经有网友置疑过,我摘录如下:(完整链接:)以前我曾在很多地方看到,李彦宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过我一直没太搞清楚这事儿的先后次序,到底是李彦宏的启蒙在前,还是Page和Brin的实践在前。终于梁冬的书中,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身已经在斯坦福大学的网络上运行了两年多。我在上,找到了一些更有趣的信息。Larry Page和Sergey Brin著名的论文,《》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来。不过,在这个网站上,我没能找到,包含Page和Brin的网页,倒是。还有我找到的资料:李彦红的超链接分析技术专利,提交时间是日,批准时间是日,链接:; PageRank专利,提交时间是日,批准时间是日链接 :。Google成立的时间是1998年,百度成立时间是2000年。 Google的服务器还放在学校的时候,由于太火爆曾把斯坦福网络拖垮了,这从侧面说明了Google的PageRank技术强于infoseek的超链接分析技术。(此时infoseek还有没有用超链接分析技术有待考证,反正当时Google是秒杀一切其它引擎就是了)小结:从专利提交时间上来说超链接分析技术专利比PageRank要早,说的似乎在理。但是,离开了时间谈强弱是没有意义的!打个比方,我会上知乎码字,孔圣人不会,我比圣人牛逼?非也。要比技术的话,要么比同一时间的,要么比同一发展阶段的,而这两个,百度并不占优。另:这段话有点问题:同一年,谷歌推出自己的搜索引擎,以精准广告为商业模式,成功解决了持续成长的问题,在搜索江湖的较量中熬到了最后。谷歌今日引以为荣的网页评级机制pagerank技术,直到2001年才被授予美国专利,比李彦宏的1996年申请的超链分析专利技术晚了5年。Google 2000年才开始出售广告的,而不是Google成立的同一年。维基:PageRank专利提交时间比超链接分析技术晚了不到一年,批准时间晚了一年多,君临拿李彦红超链接分析技术专利的提交时间跟Google PageRank批准时间比是不科学的。二.百度从一开始就和谷歌走上了不同的发展方向这段话我基本同意,但是这也并不能说明百度的技术比Google强,Google并非不能而是不愿提供mp3搜索之类的东西,要知道这个是侵权的啊。——金钱还是底线?Google选择了后者,多么有节操啊!而且,为了跟百度竞争,Google甚至自己购买了一些音乐的版权,并把它们放在网上供网友下载,正版高质量音乐啊!三.2009年后,百度推出框计算,2013年推出轻应用,在一站式生活搜索方面,是超过了谷歌的。谷歌2006就开始做OneBox(链接),而百度的框计算是2009年推出的(链接:)。时间上Google比百度早了三年,技术上,不是专业人员,无法具体分析。-----------UPDATE------------君临大大更新了,再驳之:追求网页精度的就是技术,追求更好答案内容匹配的就不是技术?想起了当年联想乐应用的传言,用客服MM们根据用户提交的录音手工转换成文字内容然后反馈到手机客户端,这个比Siri的技术更强?(未经证实,只是举例)谷歌在李开复时代就打不过百度,被墙的也只是一些敏感词内容,难道你天天就只搜索敏感词啊,市场上百分之99%的搜索需求都跟政治无关的好不好。看来君临大大很少用Google啊!!!!当年搜个“胡萝卜”都会被墙啊!!!!只因为那个“胡”跟圣上冲突了啊!!!!一墙就是10分钟不能用啊!!!!手机时代的划分。一代手机:模拟技术二代手机:数字技术三代手机:智能技术君临大大按这个逻辑得出百度跟Google是一个量级的结论,于是我得出了另一个结论:我深圳大山寨厂跟苹果是一个量级的,你看,不都是智能手机么?百度所发展的框计算技术,在我看来,恰恰是更适合搜索引擎行业的“智能”发展趋势的。我倒觉得Google Now才是最适合搜索引擎行业的“智能”发展趋势,你百度还要个框,人家Google直接帮你把事儿安排好了。update:君临大大再次更新,再驳:很多人认为百度的搜索答案都只是人工干预的结果,没有技术含量,我感到很遗憾。或许早年是如此,但是现在应该已经有很大的改进了。我举个例子。前面的谢霆锋的身高的问题,为什么百度能够给我答案,谷歌给不了呢?百度该不会无聊到这么细节的问题都专门去优化一下答案吧,当然不是了,这些答案都是依托于百科里用户自行编写的答案,百度不过是把他们的知识有机的整合起来,通过程序的设计,巧妙的呈现到你的面前。用君临的例子,同的样问题,张柏芝儿子的爸爸,有结果,把“爸爸”换成“爷爷”就没结果了:换成“谢霆锋的爸爸”又有结果了,整合乎?人工乎?---------------------------上面是反对,下面是看法,中间是分割线--------------------------到底谁技术更强呢,我们来模拟一下日常使用场景:1.娱乐类的,最喜欢李安了,想了解一下:Google右边给出了简介,他的作品,其它用户的搜索推荐。简单的了解,扫一眼简介,想了解他的作品,点击他的电影后是这样的:又漂亮,又利于获取信息,有木有?正文链接,除了第二个都是相关新闻外,Google给出前三的答案分别为:维基、豆瓣、Mtime,百度的是:百度百科、知乎、百度贴吧,你觉得哪个消息源更可靠?小结:一般人在搜索李安时想得到什么样的答案?作为一位名导演,通常人们感兴趣的是:1.他本人的一些情况,2.他的作品,3.再延伸到他作品大概是什么样的。看看Google的,简介,看右边,作品,在右边下面的位置,详细情况:维基、豆瓣、Mtime。在国内,电影类的豆瓣和Mtime应该是相关度最高,资料最全面,质量最好的的网站吧?维基百科就不用多说了,准确、公正,比百度百科只强不差。想了解作品的用户呢?直接点作品,然后在页面上面出现了他所有的作品,你可以在一个页面内浏览它,又全面又方便。百度呢?光看搜索结果页,并不能了解他有哪些作品。再看具体结果:百度百科、相关新闻、知乎、百度贴吧、电影网、维基、百度视频、百度图片、豆瓣、追梦人李安(央视)、CNTV、百度知道,十二个结果,有五个是百度自家的,而且这样的排序,我想不出来背后的逻辑。下面有知友说『如果有百度百科作为这类承载为何不可』,事实上,很多Google的搜索的结果会指向百度的产品(百科、知道、贴吧),比方说同样作为娱乐人物的周杰伦,Google结果第二个就是百度贴吧(除去新闻那一个),而Mtime和豆瓣放到第二页去了,说明对于想了解周杰伦的用户而言,贴吧的权重更高,这也更符合事实,不是么?所以,我的结论是在这方面Google做得更好。2.有道题不会算,搜一下:两个都能达到目的,不过,Google的要漂亮一些,不是吗?小结:功能都没问题。百度的计算器默认未展开,想再次计算不太方便,界面采用类似IOS6的拟物化设计,跟整体风格不太搭配。Google的计算器默认展开,扁平化设计,风格跟网页统一。个人更喜欢Google。3.再来看汇率:都能达到目的,不过Google给出了汇率波动的折线图。(最好的搜索方法是在两个币种之间敲空格,根本不用打那么一堆的,例:“1美元 人民币”)小结:两者差不多,Google给出了汇率波动折线图,稍胜。3.路线搜索:百度似乎胜一筹,但是我们再看看具体内容,百度前三结果:携程(广告推广)、去哪儿(百度旗下)、百度地图,Google前三:去哪儿、携程、火车票网(火车时间表),在网页最下面显示了Google地图。再换一个短一点行程的:百度,第一个是去哪儿,第二个是百度地图。Google,第一个是地图,第二个是火车票网(火车时刻表)。规划行程最好的还是地图吧?,再来比较一下:Google默认展开最佳路线,路线相当详细,收费路段用红字标明,而且界面比百度漂亮,有没有?而且,最最最厉害的是,如果你在用Google Now,当你在google上搜索过行程后,无需任何设置,到了时间,Google Now会自动提示你,第一次使用的时候,我那个惊喜啊。。。。小结:百度是能满足需求的,框内应用质量也非常高,只是我觉得百度有推自家产品之嫌。再来看Google,我举了两个例子,一个长途,一个短途,从广州到上海,很少人开车去吧?最常见的交通方式应该是飞机和火车,所以Google优先放的是这两个。地图放最下面,说明它的权重不够(哪怕是自家产品),还可以满足部分想驾车的用户。短途,东莞到深圳,驾车的就多了吧?所以Google把地图放在第一位了。我觉得这说明Google理解了搜索背后的那个用户。而且如果你开通了Google Now的话,那百度跟Google的差距就大了。个人觉得两个都不错,相对而言,百度可能更适合国人的味口,毕竟,对于旅行来说,去哪儿和携程是个不错的选择。但是我觉得谷歌更理解搜索背后的思维。所以技术上来说还是Google更胜一筹,如果加上Google Now的话,Google可以直接甩掉百度了。(国内没开通Google Now,不过可以通过某些方法达到,需要的请自行Google^_^)4.刚需,看片:百度是生怕你找不到,Google是生怕你找到了,百度让人“心神不宁”,Google让人火冒三丈。当然对于成人而言,这些都没问题,但是,如果是你未成年的子女在用呢?Google默认开启了安全搜索,在你搜索某些内容时会过滤。小结:
看片要种还是找度娘吧。5.图片搜索:印象中这个功能是Google先推出的这个功能,其实两都都不算太强。百度提供了“文件格式(常见的图片格式都有了)、尺寸、分辨率、是否收费”四个筛选器。Google提供了大小(分辨率)、颜色、类型(脸部特写相片、剪贴画、素描画、动画)、时间这四个筛选器。(日多了版权这个筛选器)Google更丰富,百度更符合国人习惯。以图找图:印象中这个功能是Google先推出的。Google提供了拖动找图的功能,百度没有。再看结果:百度识别为周杰伦,Google识别为魔杰座。(另:一次复制链接找图,百度无结果&下面的推荐中出现了一堆让人心神不灵的图片&,Google准确识别,本想截图的,忘记链接了未能再现。)小结:百度更符合国人习惯,经常找素材的设计师应该会喜欢。Google提供了颜色分类,人个觉得更有技术含量一点。以图找图,Google更方便,结果也比百度稍准(这里可能会有不同看法,显示周杰伦好还是周杰伦的魔杰座好,个人偏向后者)。还有一些其它的,我就不一一比较了,再分享一些Google实用技巧,这些掌握了才算是真正的会用Google啊:(转自知乎,链接:)如何用好 Google 搜索引擎? 崔凯,搬砖工。求工作!搜索引擎命令大全!1、双引号把搜索词放在双引号中,代表完全匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有的词,连顺序也必须完全匹配。bd和Google 都支持这个指令。例如搜索: “seo方法图片”2、减号减号代表搜索不包含减号后面的词的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。Google 和bd都支持这个指令。例如:搜索 -引擎返回的则是包含“搜索”这个词,却不包含“引擎”这个词的结果3、星号星号*是常用的通配符,也可以用在搜索中。百度不支持*号搜索指令。比如在Google 中搜索:搜索*擎其中的*号代表任何文字。返回的结果就不仅包含“搜索引擎”,还包含了“搜索收擎”,“搜索巨擎”等内容。4、inurlinurl: 指令用于搜索查询词出现在url 中的页面。bd和Google 都支持inurl 指令。inurl 指令支持中文和英文。比如搜索:inurl:搜索引擎优化返回的结果都是网址url 中包含“搜索引擎优化”的页面。由于关键词出现在url 中对排名有一定影响,使用inurl:搜索可以更准确地找到竞争对手。5、inanchorinanchor:指令返回的结果是导入链接锚文字中包含搜索词的页面。百度不支持inanchor。比如在Google 搜索 :inanchor:点击这里返回的结果页面本身并不一定包含“点击这里”这四个字,而是指向这些页面的链接锚文字中出现了“点击这里”这四个字。可以用来找到某个关键词的竞争对收,而且这些竞争对手往往是做过SEO 的。研究竞争对手页面有哪些外部链接,就可以找到很多链接资源。6、intitleintitle: 指令返回的是页面title 中包含关键词的页面。Google 和bd都支持intitle 指令。使用intitle 指令找到的文件是更准确的竞争页面。如果关键词只出现在页面可见文字中,而没有出现在title 中,大部分情况是并没有针对关键词进行优化,所以也不是有力的竞争对手。7、allintitleallintitle:搜索返回的是页面标题中包含多组关键词的文件。例如 :allintitle:SEO 搜索引擎优化就相当于:intitle:SEO intitle:搜索引擎优化返回的是标题中中既包含“SEO”,也包含“搜索引擎优化”的页面8、allinurl与allintitle: 类似。allinurl:SEO 搜索引擎优化就相当于 :inurl:SEO inurl:搜索引擎优化9、filetype用于搜索特定文件格式。Google 和bd都支持filetype 指令。比如搜索filetype:pdf SEO返回的就是包含SEO 这个关键词的所有pdf 文件。10、sitesite:是SEO 最熟悉的高级搜索指令,用来搜索某个域名下的所有文件。11、linkdomainlinkdomain:指令只适用于雅虎,返回的是某个域名的反向链接。雅虎的反向链接数据还比较准确,是SEO 人员研究竞争对手外部链接情况的重要工具之一。比如搜索linkdomain: -site:得到的就是点石网站的外部链接,因为-site: 已经排除了点石本身的页面,也就是内部链接,剩下的就都是外部链接了。12、relatedrelated:指令只适用于Google,返回的结果是与某个网站有关联的页面。比如搜索related:我们就可以得到Google 所认为的与点石网站有关联的其他页面。 这种关联到底指的是什么,Google 并没有明确说明,一般认为指的是有共同外部链接的网站。上面介绍的这几个高级搜索指令,单独使用可以找到不少资源,或者可以更精确地定位竞争对手。把这些指令混合起来使用则更强大。inurl:gov 减肥返回的就是url 中包含gov,页面中有“减肥”这个词的页面。很多SEO 人员认为GVM和学校网站有比较高的权重,找到相关的GVM和学校网站,就找到了最好的链接资源。下面这个指令返回的是来自.,也就是学校域名上的包含“交换链接”这个词的页面:inurl:. 交换链接从中SEO 人员可以找到愿意交换链接的学校网站。或者使用一个更精确的搜索:inurl:. intitle:交换链接返回的则是来自 域名,标题中包含“交换链接”这四个字的页面,返回的结果大部分应该是愿意交换链接的学校网站。再比如下面这个指令:inurl:*register返回的结果是在. 域名上,url 中包含“forum”以及“register”这两个单词的页面,也就是学校论坛的注册页面。找到这些论坛,也就找到了能在高权重域名上留下签名的很多机会。下面这个指令返回的是页面与减肥有关,url 中包含links 这个单词的页面:减肥 inurl:links很多站长把交换链接页面命名为links.html 等,所以这个指令返回的就是与减肥主题相关的交换链接页面。下面这个指令返回的是url 中包含 以及links 的页面,也就是GVM域名上的交换链接页面:+links最后一个例子,在雅虎搜索这个指令:linkdomain: -linkdomain:返回的是链接到点石网站,却没有链接到我的博客的网站。使用这个指令可以找到很多连向你的竞争对手或其他同行业网站,却没连向你的网站的页面,这些网站是最好的链接资源。高级搜索指令组合使用变化多端,功能强大。一个合格的SEO必须熟练掌握这几个常用指令的意义及组合方法,才能更有效率地找到更多竞争对手和链接资源。找外链的时候你可以用这几种命令组合,例如site:.com inurl:blog “post a comment” -”comments closed” -”you must be logged in” “输入你的关键词“,site:.com 是 指, 只显示.com的网站。 如果你想要 org的链接,就换成 site:.org,inurl:blog 是指博客。“post a comment” -”comments closed” -”you must be logged in” 是指, “能够写评论的” 减去“ 关闭评论的” 再减去“ 必须要登录才能写评论的”。总结:搜索技术上,我觉得Google是领先的,如果你肯花点时间学习一下,Google能给你的肯定会更多更好。(搜索跟使用的关键词有关,或者说跟用户有关,如果你找不到你想要的结果,请考虑一下是不是关键词使用不当?百度是够用的,由于人工调整和资源整合的缘故,它可能在某些方面更符合国内用户习惯(比方说看片这个宅男刚需,还有快递查询之类的合作)。Google的结果更公正,百度明显偏向自家的产品,但因为这些产品(百度知道、贴吧、音乐等)占据了很大的市场份额,跟国内公司的合作也比较深入,导致就算这样结果也还算理想,造成“百度更懂中文”的假像(这句话应该改成“百度更懂中国人”才对啊)。搜索只是个工具而已,在某种意义上,够用的就是好的,但是我相信把两者结合起来用才会发挥“搜索”的最大威力。
我从2001年第一次用google,作为程序员,直到现在,每天都用,我一直认为百度搜索水准远低于google,直到我开始为搜索引擎写代码,看了N多query 评测报告之后,才改变这个想法。搜索引擎程序员每天都会收到N多bad case,日常工作就是case by case的修case:分析问题-归纳-找到原因-提出策略-评估策略对其他query的影响。这个过程是没有终点的,每天都有新的网页新的内容出现,这个月的策略下个月可能就不能用了,某个策略对这批网页有效,对下一批网页可能就是负作用了简单的说,搜索质量和网游一样,好的搜索体验需要长期的运营积累,不要指望突然发明一个算法,搜索质量马上提高50%,如果可能,那一定是你之前做的太差从技术细节角度,影响搜索质量的因素很多,最重要不是外行以为的中文分词,而是 query意图识别,什么机器学习,deep learning,NLP之类,全都是为意图识别编造数据总之,搜索质量是个长期的活,你每天都得修。它和市场份额是正相关的,百度每天搜索uv 6亿+,差不多 60%的市场份额,百度确实是最懂中文,而google,因为被xxx,市场份额逼近0,这将导致google的中文搜索质量越来越差(google中文搜索目前已经是4家中最差的)网上认为google搜索质量比百度明显好的原因如下1. 天天用google的码农在这个技术问题上话语权高,而他们搜索的大部分都是英文单词,实际上中文技术网页不够多,高质量的page大部分是英文 ,而国内搜索引擎以采集中文网页为主,文档不全2.google本来因为中国市场份额减少,投入修case的码农不够多-导致中文搜索质量下滑,但是他在英文搜索上一直高强度投入,这会让搜索英文单词的为主的码农觉得满意搜索引擎技术并没大家想的那样高大上,如果某家国内搜索引擎要提高码农心中美誉度集中力量修技术类query的case就行,很快可以搞定
是百度知道、贴吧把百度的关键词准确率拉高了从搜索结果出发,看我举个例子
搜索:美国总统是谁?google结果:百度结果:百度结果:百度告诉我是布什。。。。。结论:谷歌比百度强
关于百度,周鸿祎说过一句话,我觉得特别有道理:百度不缺狼性,缺的是人性。的确如此,无数次惨痛的百度搜索经历让我明白,百度真没人性,娱乐至上,屏蔽网页就不说了,有色成分也不说了,搜索不准确让人头痛无比也不说了,百度地图界面杂质太多也不说了,强行安装软件什么也不说了……我对百度已经无话可说。我现在只有在谷歌用不了的时候才用百度。百度不缺竞争力,他的框计算很厉害,但全都用在明星绯闻上了,什么三围什么私生子,完全在秀下限。当然,也有一些便民功能,我不否认,但看问题要看主要矛盾的主要方面。真正让人郁闷的是:百度其实可以做的更好,有能力做好,这一点我们清楚百度也清楚,但是他不做,因为做了收益也不会增加,至少短期内不会盈利。没有人性的百度,在中国绝对垄断,他现在在过一种“过一把瘾就死”的生活,试想一下,如果谷歌再入中国,百度拿什么来竞争?而你那些百度影音、百度支付之类拾人牙慧的玩意,能让你保持今日之风光吗?
不是一个量级。Google的准确率真不是盖的,一般不用滚动页面即可看到所需的结果。而百度,排在前面的时常是些不明所以的页面。非中文的搜索就更不用说了。个人感觉,百度的优势在于对诸如”百度知道“”百度贴吧“之类的信息渠道有更好的掌控。拜中国庞大的网民基数所赐,很多需要搜索的问题都已经有人问过,这样即使用户输入的关键词很”搜索引擎不友好“,也能通过简单的模型得到比较正确的结果。举个例子,同样是搜索”章鱼和八爪鱼是不是一个东西“(不要吐槽这个查询,这个是我同学刚刚去搜的orz...),百度的前三条结果是:而Google的前三条结果是:可以看出,百度只是将用户查询进行了简单的分词、停用词剔除等操作,然后基于出现的字词去查询结果;而Google对于查询语句明显有一定语义理解。从中可以管窥两公司的技术差异。
简要概括一下大家的思路:谁专利多谁就牛逼;谁框计算做得好看谁就牛逼;谁会算加减乘除谁就牛逼;谁能告诉我明星生日谁就牛逼;谁能搜IT开发相关的文章谁就牛逼;谁搜图搜得准谁就牛逼;。。。。。。360的周老板在GeekPark的演讲里说,“当时我的技术比Google屌,你们都不信吧。。。”所以,我觉得,不是业内人士,没做过搜索,可能连Lucene都没玩过,就开始在一个题目叫“就搜索技术而言,百度和谷歌 (Google) 是一个量级的吗?”的问题下互喷,实在是。。。对吧?完全可以把题目细分成:“就[中文/英文][生活类/技术类][用户体验/检索数目]而言,百度和谷歌 (Google) 是一个量级的吗?”
当年卖山寨机的时候,我也说Nokia和我们是一个量级的,都有一样多的按键和屏幕,我们有些地方,nokia都不如,比如我们的灯多,声音大。。。。
该题本就没有答案,因为评判标准注定夹杂着许许多多的主观。例如《我是歌手》的选手,真的第一名就最好?未必。评判搜索引擎的体验只有一条标准——返回结果是否合你胃口,但这个本质上是靠猜你的主观意图,这注定是猜不准的。这跟歌手选秀比赛是一样的,到了一定水平后,你就很难去说谁谁更好。不过我倒是想到从技术角度可以如何去评价两个搜索引擎的优劣:1、新建一个站点,充满千万页面,每个页面title只包含1个词,需要性能足够优秀,支持高并发,假定不宕机2:百度和Google同时对这个站点进行索引,限时5分钟3:选出100个页面的标题在两个搜索引擎中进行搜索结果对比,看返回数,看目标页面是否排第一但是……这样的对比,是完全无实际指导意义的~~只是技术宅的游戏而已,最终,我们还是看,市场占有率。
最近正值《变形金刚4》热映,笔者用百度搜索“变形金刚”,发现结果页瞬间变成一个“擎天柱”,并最终演化成一句文字:“变形金刚三十周年,百度搜索为你而变”。显然,这是一款为广大“刚丝”定制的另类创意,只不过,掀开技术之上的“人文关怀”面纱,百度搜索近年真的在上演“变形记”吗?上个月,一则Google支持西部教育的新闻引发“重返中国”的猜想,在知乎上,更是出现一个热门话题,“百度和Google的搜索技术是一个量级吗?”作为一名Google粉,我一直在思考一个问题:如果Google重返中国,还能够击倒百度吗?不一样的进化理念在Google退出中国之后,笔者被迫逐步减少了Google的使用,既有稳定性的原因,也有搜索体验潜移默化的影响。但在我看来,即使Google重返中国,不只没有机会击倒百度,追赶百度恐怕都是难以完成的任务了——因为百度中文搜索进化了4年,Google却止步不前。除了文头提到的“变形金刚’之外,在前几天我用手机百度搜索“越位”结果则直接是关于越位解释的示意动画。用单个CASE来对比百度和Google并无意义,因为CASE无法穷举,搜索又主要在做长尾需求与长尾内容的对接。但不妨对比回溯一下Google百度近年来的进化理念。从百度历史看,一次具备里程碑意义的创新始于09年的框计算和阿拉丁计划。“所见即所得”,是框计算的核心理念,如今已经成为搜索引擎的标配,在最早却也是Google效仿的对象,也正是自09年以来,百度在一站式生活搜索方面,开始超越Google。2013年,自百度发布寓意着下一代搜索引擎的“知心搜索”之后,阿拉丁被再次升级,同时,更加强调“即搜即得”,它通过对大数据的挖掘,从数以亿万级的知识库数据中挖掘出各种知识碎片、形成答案,直接将高质量搜索结果在大搜索中进行聚合和展现优化,以知识图谱的方式把答案直接呈现给用户,还可以和用户实现智能交互,有问必答。比如,在搜索框中输入母婴相关关键词,如“怀孕”,左侧搜索页面即会显示“怀孕”相关的百度百科内容,会为用户推荐相关“怀孕手册”,聚合展示孕妇在备孕、孕早期、孕中期、孕晚期、分娩、月子个阶段注意事项,同时,在搜索页面右侧将显示相关信息如“育儿指南时间线”,这被百度在内部称为“母婴知心”。类似基于用户体验的知心搜索,涵盖了人物、小说、影视、音乐等等十余种,这种搜索结果页,有图片、地图、表单、贴吧、知道、百科等内容的直达,左侧智能交互,右侧推荐更丰富。而在商业层面,百度靠传统搜索推广这“一招鲜”已吃了十几年,但是,在引领下一代搜索引擎进程中,百度也引入中间页的新理念来自我颠覆,尤其在最近一两年,在去哪儿的典型案例之外,医疗、教育、游戏等每个大行业的垂直搜索中间页都在暗自发力。相对的,这种整合垂直搜索领域,建立最庞大生态链的信号,在Google,乃至任何一家中文搜索引擎,都不可见。纵向比搜索同样的结果今日的结果页与5年前、10年前都相差甚远;横着比,与Google搜索对比一组关键词会发现百度结果丰满、好用很多。这是为什么我说Google重返中国已无法超越百度的原因,其搜索体验甚至都赶不上搜狗。百度和Google技术谁最强?近日的热门话题“百度和Google的搜索技术是一个量级吗?”,这是一个不算专业的问题,因为技术发展并不是线性的,往往是理念改变引发革命性的进步。其实,回到搜索引擎的技术原点,Google今日引以为荣的网页评级机制pagerank技术,直到2001年才被授予美国专利,比李彦宏的1996年申请的超链分析专利技术晚了5年。于是,当下来讨论技术问题更是饶有趣味,不少非专业的回答大多是一边倒认为Google更牛逼,最典型的说法便是,Google有无人驾驶汽车、Google Glass、Android,有甩开Hidoop几条街的Caffeine、Pregel、Dremel,还有GFS文件系统和全球数据库Spanner,百度却只有搜索。这很可能是关于搜索引擎技术非常大的误区,我个人感觉,Google的创新能力毋庸置疑,但在搜索引擎技术和用户体验上,最近4-5年并没有明显进步。对于今天的Google究竟是什么,将走向何方?近日Google CEO拉里-佩奇的公开信中似乎也曝出“回归搜索”端倪——他强调搜索和信息是Google的核心,也坦言“从许多方面来看,目前距离创造我梦想中的搜索引擎还有十分遥远的距离。”相对的,百度搜索引擎技术近年来的创新是否有干货呢?过去,在底层架构上,外界容易视Google比百度先进,不过,近几年却不能忽略百度在基础架构上的默默创新。年初,百度被曝光正在秘密研发“极速搜索”,它可以通过大数据计算能力,比普通搜索节省80%时间,打开瞬间最快只用0.04秒,其实,这项技术的意义并不止于用户感知,背后蕴含的实际是架构的重构、优化,在性价比、响应速度等各方面都在加分。如今,在对于搜索引擎技术发展走势上的判断,Google和百度似乎也走到了分水岭。个人认为,“自然语言人机对话+智能化逻辑思考”,也就是,让搜索更能理解你的问题,给你更准确的答案,是百度正在践行的方向。7月7日,在37届信息检索领域世界顶尖学术会议SIGIR会议上,百度副总裁王海峰做了题为“ChineseSearchEngine-'s Practice”报告,这场演讲引起了广泛关注,很多人问及关于深度问答、知识抽取、智能交互等这些技术百度是如何实现、如何应用的,即使是Google,也尚且未将这类前沿技术大规模应用于搜索产品,外界惊讶于百度在搜索引擎产品中的应用,并已提升了用户体验。曾经有一个颇为争议的案例,在百度搜索“谢霆锋儿子的母亲的前夫的父亲”是不是人工干预的。因为百度可以直接显示”谢贤“,但Google不行。Googl e也提出知识图谱概念,但是,凭借对中文的理解以及百度拥有的自主知识库,对知道、贴吧和百科现成的SNS知识可以有机整合,通过逻辑思考,a推出b,b推出c,c推出d的结论,将答案d直接回答给你。但Google就做不到,他只能给你答案b,c之后的结论就只能由你自己去寻找了。当然,搜索“谢霆锋儿子的母亲的前夫的父亲”是个极端案例,不过,以知识库为基础的逻辑推理等会让搜索越发智能。比如,最近汤唯结婚消息一出,百度搜索结果右侧出现了一组“那些年汤唯爱过的男人们”智能推荐,有意思的是,连“16岁花季相识短暂初恋”等人物关系都能标注出来。另外,值得关注的是,百度在知识库上探索的样式已经比Google更宽广,比如,搜索“北京的景点”,左侧结果页有多种类型的景点推荐,包括亲子、情侣和家庭游,乃至毕业旅行的景点推荐,右侧推荐中,包括北京度假热卖排行榜,以及相关地名。其他基于知识库的创新例子也并不鲜见,搜索“不掉毛的狗”、“开黄花的树”,用户都能发现今日的搜索已大不同,而这种长尾效应必将体现在百度搜索流量增长乃至营收拉升上。从2010年初百度成立了自然语言处理部至今,词法分析、语法分析、语义分析、机器翻译、query理解等一大批技术已经处于世界领先水平,并在深度问答、情感分析、智能交互、知识挖掘与推理等前沿方向上迅速进步。6月底,在全球自然语言处理顶级学术会议ACL上,6位百度人赴美参加。2013年初,王海峰更是出任ACL五十年历史上第一位华人主席。无疑,如今的百度已经走在NLP最前沿。再看,对技术的投入上,百度与Google更是大相径庭。自2008年左右,当Google将研发重点投向其他领域的时,百度仍将资金和人才聚焦在如何让搜索更智能。未来,用户对这些技术的感知将愈发明显,好比之前不断走红的:百度翻译实物拍照卖萌又高级黑,人脸识别“明星脸”,百度语音助手的拍花识花……除此之外,去年,在离苹果总部不远的加州库比蒂诺,百度发布了专注于深度学习研究的前沿实验室。在全球范围内,目前除斯坦福大学等高校研究机构外,唯有百度、IBM、Google、微软四家企业设立了DeepLearning专门研究机构。而且,在跻身深度学习研究的第一阵营之后,今年,百度更是将“Google大脑”的负责人、人工智能行业的资深科学家吴恩达挖至新建立的美国研发中心,主抓“百度大脑”项目,这势必将为百度在技术和人才上保持领先埋下伏笔。最后,再次声明笔者是Google粉丝,但我不得不承认的是,百度在中文搜索技术上已经甩开Google一大截,就算Google重返中国,也已不再是百度的对手,时间不等人。
搜索引擎的量级你要考虑到以下二点覆盖区域 覆盖人数 谷歌的覆盖区域是全世界百度的覆盖区域主要是国内谷歌的覆盖人数是抛出中国 朝鲜等的所有能上网的人百度的覆盖人数是中国+部分海外华人好了请你告诉我单就技术而言 这两种规模下的搜索引擎会是一个量级么
好吧,既然大家都一致鄙视百度,为谷歌欢喜鼓舞的叫好,我就来插一脚,为百度打抱不平一下吧。声明立场:我承认谷歌在很多方面很强,这里只是说一些百度也不错的地方。给大家提供一些新的思维,希望能够对大家有启发。1,在搜索江湖的早期历史中,李彦宏的技术创新领先于谷歌。1994年,infoseek公司成立,其后推出搜索引擎服务,很快成为了市场上最受欢迎的搜索技术提供商。作为技术的领先者,这家公司的产品被网景浏览器设置为默认的搜索引擎。要知道,在那个年代的美国市场上,网景浏览器占有了90%以上的市场份额。于是,在网景春风得意的岁月里,搜索引擎=infoseek。——infoseek的CTO是威廉张,曾经以“次线性文本匹配算法上的突破性成果获得了美国加州大学的计算机博士学位”,其后于2006年加入百度成为首席科学家。——infoseek的核心研发工程师是李彦宏,其首创的“超链分析”技术是现代搜索引擎的基础发明之一。这个技术率先解决了如何将基于网页质量的排序与基于相关性的排序完美结合的问题,并获得了美国专利。在搜索引擎的早期发展史中,李彦宏+威廉张,无疑是技术的领先者。在1998年的布里斯班世界互联网大会上,李彦宏是主讲台上的技术布道者,而谷歌的两位创始人仍是坐在台下聆听的学生而已。infoseek的衰落,不是因为技术,而是因为商业模式,他仅仅是隐藏在网景浏览器背后的技术提供者。随着网景在与微软IE浏览器的竞争中失利,infoseek无可避免的出现了大幅亏损,贱卖给迪士尼后不适应于传统企业的官僚管理作风,更加加速了自己的末日到来。同一年,谷歌推出自己的搜索引擎,以精准广告为商业模式,成功解决了持续成长的问题,在搜索江湖的较量中熬到了最后。谷歌今日引以为荣的网页评级机制pagerank技术,直到2001年才被授予美国专利,比李彦宏的1996年申请的超链分析专利技术晚了5年。注意:我以上这段要说的是,李彦宏的技术水平并不输于谷歌的两位创始人。看轻百度那你就无知了。2,百度从一开始就和谷歌走上了不同的发展方向。谷歌在2000年就已经建立了搜索行业的统治地位,而在这一年,李彦宏才回国创业,无论在资金还是人才上都处于绝对劣势地位。百度如果要跟谷歌比拼搜索精度,那是飞蛾扑火,李彦宏当然不会犯下这种蠢事。从一开始,百度所选择的就是一条农村包围城市,侧翼攻击的路线。在早期的网页搜索上,百度的原则是能用就行。所以,你在百度上搜到的,几乎都是网站的首页,而谷歌的都是内页。百度的真正重点是,提供谷歌不能提供的服务。2002年,百度率先推出mp3音乐搜索,2003年推出图片,贴吧,新闻,搜索风云榜服务。正是这些多元化的垂直服务,让百度实现了在中国市场上的后来者居上。如果你了解百度的历史,你就知道,在早期的百度流量中,mp3盗版音乐的搜索和下载,一度贡献了40-50%的用户来源。贴吧同样获得巨大成功,在2004年的超级女声热潮中,大量的音乐粉丝涌入贴吧为他们的偶像加油,这个产品一度为百度带来了超过20%的流量。mp3,图片,贴吧,是百度早期最重要的三项服务,他们的流量贡献加起来甚至超过了网页搜索。3,百度真正在搜索技术上开始发力,是在2009年后。这一年,百度推出框计算,在一站式生活搜索方面,开始超越谷歌。举个例子:——————判断百度和谷歌在搜索技术上是不是一个量级的标准是什么?技术是不是一个量级,不是由一堆玄而又玄的技术名词决定的,而是由行业发展过程中对实际需求的满足变化决定的。举个例子,飞机时代的划分,一代机:喷气发动机二代机:高空高速,2倍音速三代机:中低空机动敏捷性四代机:隐身性能二代机比一代机性能更好,飞的更高,速度更快,但是到了三代机的时代,即使你的飞行能够去到3万米高度又怎么样?这个时代更讲究的是低空的格斗性能。到了四代机的时代,隐身性能才是决定性的,你机动性再好也没用了,你发现不了敌人。到了今日,智能无人机技术又是起决定性作用的技术,其他的都不重要了。技术的发展并不是线性的,而是理念的改变,带来了更革命性的进步。一架性能差点的隐形机,比一架没有隐形性能的三代机,谁的作战效果更好?什么,你认为隐形技术不是技术,发动机性能才是技术?别脑残了好不好。说回搜索引擎技术的发展,无非就是为了让人们更好的找到自已需要的信息,是搜索结果的准确性,而不是收录的网页数量,拥有的专利数量决定的。第一代搜索引擎:以雅虎为代表,目录式结果呈现。第二代搜索引擎:以谷歌和百度为代表,网页引用评级技术呈现结果,至于权重设置的不同考虑不能体现差距。第三代搜索引擎:不知道各位的划分标准是什么,是什么gps和原子钟技术么?实际使用中差别有革命性变化么?反正我是感觉不出来。谷歌的技术创新能力很强,在安卓系统、无人驾驶汽车、谷歌眼镜这些技术上都有很多创新,但在搜索引擎技术上,我的感觉是,最近5年来并没有明显的进步。相反,百度从2008年到2013年这5年,我的使用体验感觉是进步很明显的。在我看来,搜索引擎发展到今天这个时代,更重要的趋势是智能化的语义理解,而不是一楼答案所说的“gps和原子钟技术,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。”收录的网页多一些,搜索的速度快0.001秒,这些微不足道的区别,就相当于IPHONE4和IPHONE4S的区别,或许是挑战了新的技术极限,但是对于普通用户的实际体验来说,区别不大。而三星的大屏智能手机,在很多人看来并没有什么高深的技术,但是偏偏是更满足用户的使用体验和需求的,于是三星的市场份额就不断壮大了。百度所发展的框计算技术,在我看来,恰恰是更适合搜索引擎行业发展趋势的。让你的搜索更能理解你的问题,给你更准确的答案,——不用跳转就将答案直接呈现在你的面前。什么?你认为百度这样违背了搜索的公平公正精神?别脑残了,搜索就是为用户服务的,谁能够在最短的时间内让用户得到最正确的答案,对于用户来说就是最好的搜索体验。将来语音搜索技术成熟了,你说告诉我王菲唱过什么流行歌?百度直接就将歌曲列表呈现出来,按热门度排列供你选择播放,谷歌先问你,我这里有**,**,**,音乐公司提供的服务,请选择,进了音乐公司的链接,音乐公司又说,请先登录会员,登陆会员后……如此一番下来,谁的服务更好,自己考量吧。——通过知道、贴吧、百科、第三方网站的接入,综合满足你的多方位搜素需求,而不是只提供一个单一的网页。你想去某个地方,告诉你汽车、火车、飞机不同交通手段的通行方式,告诉你花费的时间,购买的费用,直接购买的入口,而不是只有一个冷冰冰的第三方链接。你输入一个名人的名字,呈现给你相关的照片、影视作品、最新的新闻、粉丝讨论的社区、与名人存在社交关系的名人链接,所有这些服务,都是非常直观的,而不是只像谷歌一样给你一个维基百科了事。——搜索的问题不止于“等于”,而是“相当于”等类似问题都能听懂。所谓智能,不就是即使我语法用错了,也能听懂么?在这一点上,或许谷歌在英文上也有一些应用提供,但是百度做的更加深入、更加完善,从这个角度来说,他们不但是一个量级的,百度也有领先谷歌的地方。很多人认为百度的搜索答案都只是人工干预的结果,没有技术含量,我感到很遗憾。或许早年是如此,但是现在应该已经有很大的改进了。我举个例子。前面的谢霆锋的身高的问题,为什么百度能够给我答案,谷歌给不了呢?百度该不会无聊到这么细节的问题都专门去优化一下答案吧,当然不是了,这些答案都是依托于百科里用户自行编写的答案,百度不过是把他们的知识有机的整合起来,通过程序的设计,巧妙的呈现到你的面前。是的,谷歌的搜索技术很先进,但他的所有答案都是依托于外部链接的,他没有自己的知识库。这就像一个人,他的逻辑思维和知识是割裂的,可以给你答案,但这答案必然是生硬的,无法做到水乳交融。百度不同的是,他是有自己的知识库的,知道,贴吧,百科,这三个社区的知识可以跟他的思维进行有机整合,将得票最高的热门答案很直观的呈现到你的面前。…………正是因为有前面这些有机整合为基础,百度可以通过逻辑思考,a推出b,b推出c,c推出d的结论,将答案d呈现到你的问题结果里。但谷歌就做不到,他只能给你答案b,c之后的结论就只能由你自己去寻找了。这就是为什么我问张柏芝的儿子的爸爸的身高,百度能够告诉我的原因。所谓深度学习,不就是人类知识库的有机整合嘛,谷歌的思维和知识库的割裂,导致了在这方面的进步必然要慢于百度,原理就像是一个人的头脑指挥自己的手脚必然比两个人的合作效率更高。因此在未来的搜索技术竞争中,我认为百度的路线是正确的。有朋友问,为什么你问谢霆锋的身高就能搜到答案,我问陈冠西或者毛泽 东就搜不到呢?请记住,这些类似问题的答案完全取决于用户在社区里的编写。在张柏芝的百科里有提及,儿子是谢振轩,在谢振轩的百科里有提及,老子是谢霆锋,在谢霆锋的百科里有提及,身高是174,那么你就能搜到这个答案。如果其中任何一个环节出现了缺失,你就无法得到答案。答案的正确与否,取决于知识库的自我完善和纠错。就像你问百度是个大SB吗?百度知道的高票答案告诉你百度就是个大SB。这能说明这个答案是百度的人工干预吗?很明显不能嘛,这只能说明SB用户太多了而已。就像知乎的答案一样,开始问题提出的时候,高票答案是错误的,没有关系,慢慢的新的正确答案会被顶上去,错误答案会被折叠或者报错。人类的知识库是在不断的自我完善和丰富的,百度的算法也是在不断改进的,目前这些技术仍然处于起步阶段,请以发展的眼光来看待他。PS:那些说我偏袒百度的朋友们:在这个提问下面,为谷歌敲锣打鼓,大声赞美的答案还不够多么?难道你们的心里就不能容忍一个不同的声音,非要我也来高呼,谷歌千秋万代,一统江湖,你才满意么?!说我不懂谷歌关键字搜索技巧的朋友们:我怎么会不懂呢?但是一定要懂关键字,搜索引擎才能听懂,换个字眼,换个语法,他就不懂了,这语言理解水平也太烂了吧?你确定你不是在黑谷歌?!搜索引擎行业的技术发展方向,一定是“自然语言人机对话+智能化逻辑思考”。 不要跟我说,百度是给你答案,谷歌是给你思考,人永远是懒惰的动物,希望产品适应人的需求,而不是人去适应产品的要求。在这个方面,百度的技术发展水平与谷歌的差距是越来越接近的。须知,技术的研发来自金钱的投资和人才的聚集,百度在2008年后才逐渐拥有一定的家底,开始加大在搜索技术的研发投入;而谷歌,她的研发重点已经转移至其他的领域了。这就是百度与谷歌在搜索技术的发展水平越来越接近的主要原因。update:刚刚看了百度发布的2013Q4财报——百度2013年度总营收为319.44亿元,同比增长43.2%;净利润为105.19亿元,同比增长0.6%。 之所以会出现,营收高速增长,而利润停滞不前的状况,主要的原因是着眼于未来的研发投资在以更高的速度增长:2013年全年,百度研发投入达人民币41.07亿元,相比2012年增长78.2%,占全年总营收的比例接近13%,2012年这一比例为10%,单单在第四季度,百度的员工就增加了5300人,其中绝大部分是研发人员。与之相比,谷歌的营收规模虽然更高,但是营收增长速度只有12%,研发投入占营收比例在12%左右。在分析师会议上,百度强调,目前的研发重点在:移动端搜索、云服务、LBS(基于位置的服务)三个方面。引用一篇新闻报道:2013年,百度多项创新技术取得突破,如人脸搜索、图像识别、语音识别等。如今,百度已经拥有业界领先的人脸检测、特征点定位、性别判断、身份识别以及大规模人脸检索等常规的人脸识别技术。并且,很大一部分已经被广泛用于图像搜索、贴吧、百度知心、百度框、云相册、媒体云等重要产品线上。同时,百度的图像识别技术也已成功产品化,如凭借趣味性和无穷创意走红网络的百度“实物翻译”,用户只需打开实物翻译功能,对着物体拍张照,软件就能迅速识别并翻译成英文。百度翻译凭借实物翻译功能受到用户欢迎,成为一款同类软件根本无从模仿的应用,这不仅是百度在交互模式领域的一次具有跨时代意义的探索,更显示其背后的巨额科研投入的努力。提到语音识别技术,百度在经历了摸索期之后同样迎来了开花、结果,其语音识别准确率已经超越竞争对手。不仅如此,在“2013百度世界大会”上,百度还宣布向开发者免费开放整个语音识别平台,致力于打造一个听得懂人类语言背后隐藏意图的“大脑神经系统”。除此之外,百度在2013年更是将Deep Learning提到核心技术创新地位,建立公司历史上第一个研究院Idl(Institute of Deep Learning,深度学习研究院)。在全球范围内,目前除斯坦福大学等高校研究机构外,唯有百度、IBM、谷歌、微软四家企业设立了专门研究机构,形成深度学习研究的第一阵营。通过Idl,2013年百度在多个前瞻性科研项目上取得丰硕果实。比如,自然场景OCR,其作用是在自然场景拍摄的图像中准确检测并识别出其中的文字内容,它在信息搜索、地理位置信息服务、文字翻译、盲人辅助阅读、图像标注、人机交互等众多场合下有着广阔的应用前景。
我不懂搜索技术,我是来反驳@君临的。
首先,搜索引擎只是获取信息的一个工具,不必要回答问题的时候就上来给各位知友扣上“用谷歌用出优越感”的帽子吧?其次,题主问的是:就搜索技术而言,百度和gooogle是一个量级吗?这其中的比较主体是百度和google,比较的内容是搜索技术。
好了,现在开始逐条反驳。
1.李彦宏的搜索技术再牛逼,就必然百度的搜索牛逼吗?举个栗子:我们球队队长,职业球员退役,拉出来单练基本功和技术,秒我们几个友队的任何人。那又怎样?我们球队的成绩也只是中游偏上而已。再从我个人的使用上来说,在我开始做销售的时候,我需要大量有效的潜在客户信息,百度出来前两页几乎是竞价排名,google能精准地满足我的需求。
2.单独拉出来mp3,图片搜索,贴吧比较。贴吧是社交平台,正在这个问题下就不讨论了。图片搜索,百度比google牛?这个真没有,小米拍照作弊,墙纸大赛都是google图片搜索的功劳吧?再说mp3搜索,这个有点不公平了,原因大家都懂得。我们国家只能一夫一妻,某个国家一夫多妻,只有一个老婆的我被人说泡妞能力比不上娶了好几个老婆的某人,我不福气啊。
3.“谷歌追求的是最快找到你需要的网页,然后离开;百度追求的是在百度上找到你所需要的所有东西,然后留下来。”这是君临的原话,恰巧@和菜头刚刚在微信写过一篇文章“为什么我不去百度”,其中有关于搜索引擎价值的判断“百度是搜索引擎公司,搜索引擎的天生八字就是:拿了就跑。用户飞快地跑来,找到内容转身就走。一个搜索引擎公司越是成功,用户单次访问的时间也就应该越短---这意味着用户可以在最短时间内找到自己想要的内容,也就体现了公司的最大价值。”我个人很认同这样的判断方法。这不正说明google的搜索价值是大于百度吗?
反驳完结!扯个蛋:作为一名工具使用者,google让我更喜欢,我相信这背后是有强大的技术支撑。
另外,这是由MX2完成,很辛苦,求赞。
update =========说google强没人否认,但是个别指标百度并不弱。而且百度走的是完全不同的路,既引导用户贡献有价值的内容,比如百度知道,文库,贴吧,百科,还有框计算引入第三方贡献的内容。google强调的是作为工具的中立公正和高效。发展思路不同而已,说baidu技术一无是处的也没有什么有说服力的证据。仅仅是因为baidu人为干扰排序结果就完全否定baidu的技术吗?恐怕太片面了吧。============================================看不到任何有实际内容的答案。我不是业内人士,但据我有限的知识和观察。百度对于非中文的搜索,排序比起google几乎毫无战斗力。对于中文,百度并不弱于google。就分词来说百度还略强于google。这也不奇怪,中文收索和英文区别不是一星半点。只是google得益于强大的研发实力,现在已经几乎平手。google强大的是在维护收索结果的公平公正方面的技术实力,包括网页相关性,去除排名干扰(反作弊)。百度这方面差距较大。最后差距更大的其实不是技术层面。google的理念是“让使用者找到自己想找的”;百度是“让使用者看到百度想让他看的”。

我要回帖

更多关于 三大索引收录号是什么 的文章

 

随机推荐