怎样如何理解如何制作搜索引擎擎

魏则西事件后 搜索引擎该怎样监管?|搜索引擎|魏则西|百度_新浪科技_新浪网
魏则西事件后 搜索引擎该怎样监管?
  魏则西事件后,相关部门的调查整改要求和《互联网信息搜索服务管理规定》相继出台。搜索引擎的特殊之处在于,它无法向左侧的用户收费,而只能依赖于对右侧内容提供者的广告收入。既然潜在的利益冲突不可避免,充分、及时地披露应当成为一种底线要求。
  赵鹏/文
  “你认为人性最大的恶是什么?”,青年魏则西的提问、自答及其随后离世,激起了强有力的舆论反应。监管部门亦迅速行动,短时间内,调查整改要求和《互联网信息搜索服务管理规定》(下称《规定》)相继出台。
  这一系列反应,也是围绕搜索引擎法律和伦理长期争论的集中爆发。从更广的视角,相关争论已触及我们需要什么样的信息传播环境这一重大命题。因此,如何看待搜索引擎的力量,如何回答魏则西的问题,又如何评价最近的监管动向,这一系列问题值得广泛、深入的公共讨论。
  “被搜索引擎收录的才是存在的”
  在前互联网时代,信息传播依赖出版、电台和电视等大众传媒。因此,对于社会所珍视的获取信息、发表意见等基本价值,其实现既在规范层面取决于法律的态度,又在事实层面受制于这些渠道的稀缺性。互联网的出现曾经产生了显著的去中介效果:它使得传统意义上的渠道不再是一种稀缺资源,展现出一个所有人都拥有无限发言和信息获取机会的美丽新世界。这促成了信息获取、传播、记录和解释的方式的革命性变化,也造就了信息在供给端的爆炸式增长。
  但是,受制于生理极限,个体对信息的吸收能力无法同步增长,巨大的信息量日渐使注意力成为一种稀缺的资源。于是,在解决了传统瓶颈之后,互联网在相反的方向遇到了自己的瓶颈,“每一个观点和表达在启发一些人的同时,都可能构成对另外更多人的噪音”。
  这种瓶颈日益凸显出对信息进行组织、分类、过滤的重要性,以及更为重要的,谁来行使这种权力。在这个意义上,信息的过滤者,而非信息本身,才是真正的王者。搜索引擎显然是这种权力的代表:面对体量庞大、分布零散的信息,人们越来越依赖搜索引擎去寻找所求,内容提供者也越来越依赖搜索引擎被潜在的读者发现。于是,无论对于信息供给侧还是需求侧,“被搜索引擎收录的才是存在的” (to exist is to be indexed by a search engine),或者更准确的说,被搜索结果排序较高的才是存在的。
  由此,互联网时代的信息过剩,使得无需中介即可有效发表意见和获得信息的观点再次成为乌托邦的幻想。面对以去中心为特征的互联网,搜索引擎以另一种方式获得了控制信息流通的力量,从而在事实上扮演起信息传播中看门人(gatekeeper)的角色。
  凸显与遮蔽的力量
  尽管搜索引擎一直试图将自己描述为帮助用户寻找所需信息的中立的、消极的工具。但实际上,通过影响信息结构、分类、排序,它可以凸显一些信息和遮蔽另外一些信息,从而拥有了建构意义的力量:当你在搜索栏中输入“细胞免疫疗法”,如果排在前几位的是大量宣称治愈率的医院网站或者诸如《某某优势让你选择免疫疗法》的软文,那么它可能影响你将其定义为一项成熟的方案;相反,如果排在前几位的是《癌症免疫疗法的“神话”》或者《DC-CIK 细胞免疫疗法是真的吗》,它可能影响你将其定义为一项正在开发的、疗效存疑的技术。
  从本质而言,搜索结果不可能“平等”地对待所有内容,它必须排序,其算法设计必然体现一定的偏好。然而,这种力量的运用终有一个善与恶的界限。就好比报刊的编辑根据自己真实的喜恶采用一篇观点也许片面的文章和根据不可言说的利益采用一篇故意设计的软文,两者一定具有伦理和法律上的差异。我们担心的,正是这种力量滑出底线,服务于有意识的信息操纵。
  实际上,回到魏则西留下的文字,便可看出,他试图描述的这种“恶”,在很大程度上指向了信息操纵:并未如期待的那样中立、客观地帮助他们寻找准确、完整的信息,相反,它基于商业利益将魏则西和家人导向了自己的客户。
  与此同时,医生也没有客观描述治疗成功的概率和伴随的风险,相反,他们利用知识优势操纵了魏则西和家人的期待,使他们基于错误的信息做出了治疗决策。
  本次事件中,信息操纵因利用了患者的绝望,并影响了事关生死的决策而极具恶性。 然而,即使在后果不那么明显的领域,信息操纵所产生的问题也不容忽视。它首先侵犯了个人的自治这一重大价值。当操纵者根据自己的利益,隐秘地控制用户知识摄入过程,影响他们的偏好和决定时,试问,生活在一个大多数事情已由他人决定的世界里的我们,是否能够容忍这几乎最后的私密空间被恣意入侵?此外,就社会而言,信息操纵也会扰乱信息供应一方的竞争秩序,削弱言论的多样性,并限制公众对公共问题的理解。
  政府监管需要回答的问题
  上述关涉构成了政府干预的正当基础,但是,如何监管并非显而易见。面对互联网这一技术复杂、演化迅速、生态多样领域,不必要的管制措施不仅会阻碍技术的进步、商业的创新,更会对法律需要保护的其他价值形成伤害。就此而言,监管体系的设计至少需要对以下问题进行深入的讨论:
  其一,是否确有必要建立一套独立的监管体系。透过《规定》,网信办明确自己是搜索服务的执法主体,并试图建立一套整合的监管体系。这一模式将是开创性的,其他国家大多通广告法、竞争法等方面发力来解决类似问题,而我国这两个领域亦有针对搜索引擎的初步回应——虽然无论是规范的清晰度,还是执法的力度均大量的改进空间。当然,由于关涉信息传播、言论发表等基本价值,上述分散化的回应是否足够,不无讨论的空间。但是,在仓促采取甚至强化新的监管体制之前,我们至少需要充分的公共辩论。
  其二,如何平衡多元的、相互竞争的利益。互联网有复杂的生态,为保护某一方而设计的监管措施,可能形成对另一方形成潜在的侵害,并反过来影响最初意图保护的对象。搜索引擎对搜索结果的排序和展示类似于报刊对新闻内容的编排,当我们基于用户利益为搜索引擎设定行为准则时,已经在一定程度上限制了搜索引擎的“编辑裁量权”,这种限制一旦超过零界点必将影响向用户提供高质量答案的能力。与此同时,当政府根据公共利益要求搜索引擎屏蔽违禁内容,而是否违禁的标准又相当概括、模糊时,内容提供者的权益也已经受到影响,而削弱内容提供者的创造力,并不符合公众的长远利益。类似的例子,不胜枚举。
  其三,如何面对复杂、多变的技术环境。网络空间造就了复杂而多变的技术环境,这使得监管挑战巨大。例如,《规定》要求搜索引擎应当提供客观、公正、权威的搜索结果,用心固然良好,但是,如果不能充分了解复杂的搜索算法,并将这种理解与技术革新相同步,如何监督执行这一要求?
  以提高透明度为监管重心
  在对上述问题获得有信心的答案之前,或许,监管部门可以尝试在提高搜索结果的透明度这一争论最小的方向上投入更多的精力。
  采取这一路径首先是因为它有更为明确的法理基础。我们向搜索引擎提出问题,是因为它们发现信息的能力远较于我们自身出色。但硬币的另一面是,这种知识上的鸿沟使我们无法有效评价其服务质量。这种关系类似于我们与律师、医生等专业顾问的关系。为防止这种知识优势被反过来用于榨取它的信任者,传统的信托义务要求专业人士以客户利益行事,避免自身利益与客户利益的冲突。搜索引擎的特殊之处在于,它无法向左侧的用户收费,而只能依赖于对右侧内容提供者的广告收入。既然潜在的利益冲突不可避免,充分、及时地披露应当成为一种底线要求。
  同时,通过提高透明度,用户可以有效评估搜索结果和自己意图之间的相关性,这可以在使他们在相当程度上避免信息操纵,也可以更有效地选择最适合自己问题的搜索引擎。这使市场机制发挥作用,并避免了过度干预。
  实际上,《规定》也体现了这一点,它要求“醒目区分自然搜索结果与付费搜索信息,对付费搜索信息逐条加注显著标识”。只是,这样的规定可能并不充分。搜索引擎的商业模式一直处于变迁之中,特别是当下互联网领域的并购热潮使一些搜索引擎运营者同时也是重要的内容提供者,或者控制了一些内容提供者。这使得他们有充分的利益将更多读者导向自己的战略伙伴,而这种导向不一定以付费为对价。监管应当对所有潜在的利益冲突保持关注,并适时设定信息披露的准则。
  作者为中国政法大学法治政府研究院副教授、哈佛大学法学院访问学者
汽车之家易主的调子被起的这么高,接下来舆论媒体会拿放大镜来关...
很多PR都会遇到没有市场预算、或预算很少又想把公关做好的创业公...
央行的这个规定,目前来看,仅仅是粗放式的额度控制,还没有配套...
谷歌将站立的Android雕像放置在一块牛轧糖上,下一代系统被正式命名为Nougat。
陈大年坦称,学会忍受公司处于亏损,是这几年反思后的领悟之一。更多公众号:BigWise大数据世界,你我同观察。这里是陈书悦对大数据产业、应用及方法论的专业观察,持续思考、坚持原创,精彩转帖、开拓视野。最新文章相关作者文章搜狗:感谢您阅读搜索引擎和知识图谱那些事.基础篇,本文由网友投稿产生,如果侵犯了您的相关权益,请联系管理员。博客访问: 130133
博文数量: 50
博客积分: 2691
博客等级: 少校
技术积分: 527
注册时间:
IT168企业级官微
微信号:IT168qiye
系统架构师大会
微信号:SACC2013
分类: 项目管理
本文先引用几句话:1.“确解用户之意,切返用户之需。”2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”4.“只是优秀还不够,最好的方式是将一件事情做到极致。”()5.“做搜索引擎需要专注” “对于一项排到第四的业务,门户很难做到专注。”6.“用户无法描述道他要找什么,除非让他看到想找的东西。”7. “所谓楔形,其实就是个倒三角,倒三角的尖端部分代表搜索技术,中部是基于技术的产品应用平台,最上端是对整个搜索引擎用户人群文化的认识和理解,以及现代公司竞争最关键也最捉摸不定的所谓品牌。” “楔形”蕴涵的另一个意义是:楔子要打到墙里,尖端是否锐利很重要,但楔子的破坏性有多强,究竟能在墙面挤压出多大的空间,其中端、后端的沉稳与厚重才是关键。
搜索引擎的技术和理念都是需要时间和经验的积累的,更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。着急不得。原因是因为搜索引擎太复杂,而且“用户无法描述他要找什么,除非让他看到想找的东西。” 一切都需要摸索,尝试,问题需要一个一个解决,用户的需要得一点点的挖掘。搜索引擎是一个产品,给用户提供服务的产品,需要长期的不断的改进升级调整才能持续不断的提,需要满足用户不断增长并且变化的需求、需要不断适应网络的变化。这是因为网络环境是不断变化的、网民的需求也是不断变化的。千万不要把搜索当成项目来做,做完了撂那让用户去用那你肯定没戏。在搜索引擎领域是讲体验的、新的引擎如果用户体验一旦整体上有领先一年以上的差距并且持续2年,那前期的领先者的优势就荡然无存,因为搜索引擎的用户转移成本相对而言是比较低的而且口碑是最佳的传播方式。如果一个搜索引擎不能持续不断的技术创新理念创新,那对于这个搜索引擎来说就等于死亡。我们一般形容搜索引擎的领先是以时间计算的。比如:中搜离百度整体差距×年,百度离google的整体差距×年,……只要你能在用户体验上保持一年的领先优势持续2年,不需要炒作,一切纷至沓来。在用户体验面前,任何的炒作都显得很渺小。作,麻雀虽小,但是五脏俱全。无论理念文化、产品管理、应用、技术都和搜索引擎的楔形理论没有什么区别。所以要做好一必须解决这几个方面。
楔形的尖:。垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别。搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对以前而言更加成熟,但是竞争也更加激烈了。垂直搜索大致需要以下技术:1.&信息采集技术2.&网页信息抽取技术3.&信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等4. 语意相关性分析5.&6.&索引信息采集技术,垂直搜索引擎和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……<BR技术,模拟IE浏览器的显示方式,对网页进行解析。根据人类视觉原理,把网页解析处理的结果,进行分块,再根据需要,对这些块进行处理,如:采集定向、介绍抽取和一些必要的内容的抽取……<BR技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是,另外就是对网页不依赖web抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实web结构化信息抽取在百度、google早已经广泛应用了,如:MP3、图片搜索、google的本地搜索就是从网页库抽取出企业信息,添加到其地图搜索中的,google通过这种技术正在颠覆做内容的方式。同样的技术应用还在qihoo、sogou购物、shopping等各种应用中体现。简单的语法分析,简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容……信息处理技术,信息处理包括的范围比较广,主要包括去重、聚类、分析……,这根据需要相关的技术就非常多。数据挖掘,找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。分词技术,面向搜索的分词技术,建立和您的行业相关的词库。注意这是面向搜索的分词,不是面向识别和准确的分词。就这个工作安排十几个人不停的维护也不会嫌多。索引技术,索引技术对于垂直搜索非常关键,一个网页库级的搜索引擎必须要支持分布索引、分层建库、分布检索、灵活的更新、灵活的权值调整、灵活的索引和灵活的升级扩展、高可靠性稳定性冗余性。还需要支持各种技术的扩展,如偏移量计算等。其它技术,略。
垂直搜索引擎的技术评估应从以下几点来判断1.&全面性2.&更新性3.&准确性4.&功能性
锲形的中和尾:产品应用平台和对搜索引擎文化理念的理解对于任何一个产品来说,产品的模式是最重要的,技术只是手段、工具、途径。用户不会关心你的技术是如何实现的、更不会关心你的技术水平是什么样的,只要用户感觉:这就是我需要的东西,很好用,而且是最好用的。那么你的产品就OK了。考虑一个产品的模式需要考虑的东西很多,如:用户需要什么?需求有多大?能不能完整的实现用户的需求?需要什么资源?怎么做到?竞争分析?差异化?根据自身情况能做到什么程度?怎么样保持领先优势?能否收到钱?怎么样收钱?怎么样推广?需要多少时间?如何保证在时间窗口期内有效完成进度?如何分步分期优先完成用户最需要的需求?如何建立有效的反馈机制让我可以了解用户的需求变化和挖掘用户自己也无法表达的需求?如何进一步改善?分期需要多大的投入?如何降低整体成本和前期成本?如何分期投入?投资回报比?周期?……1.&确解用户之意任何应用最难的就是了解用户的需求,甚至是用户自己都不知道的需求。建立完善的、快速的用户意见反馈机制和用户需求调查机制,所有人都应倾听用户的牢骚、建议。不断的分析、修改。2.&切返用户之需满足用户的需求,一切纷至沓来。不需要炒作,请把您的资源多多花费在为用户提供良好的体验上来。3.&不要干扰用户的意图,培养用户的使用习惯和技巧有一个故事是这样的:还在yahoo使用google的搜索的时候,华尔街的几个分析师来评估这两个搜索哪个好用,去掉logo。结果一致评价yahoo的检索效果好。因为yahoo是使用的google检索结果,并且对热点关键词进行了人工调整。但是一转身这些分析师回到自己的电脑边查询东西,不约而同的打开了google。4.&细节决定成败信息不是越多越好,在海量的信息时代,如果不能妥善的整理信息,那就等于没有信息。每个页面的每个字,每个像素、图片的放置都值得花费时间去琢磨。把用户最需要的放在最显眼的位置,次需要的放置到更多页面,不需要的扔掉。5.&将一件事情做到极致不仅仅要关注80%的用户的80%的需求,20%的用户的20%的需求是您成败关键所在。6.&专注这么多需要你解决的问题,你还能干其它事情?对于一个排在第四的业务你是没有机会的。所以垂直搜索引擎的成功肯定不是具备良好资源的行业门户、也不会是大搜索的公司,必然是专注于某一行业的搜索引擎公司。因为只有专注,才能将一件事情做到极致。7.&创新失败不要紧,但是如果搜索引擎公司没有创新,那这个搜索引擎公司必然面向的就是死亡。8.&需要完全掌握主要技术。一个核心业务不可能通过外包手段来解决技术问题。虽然找个大公司外包技术看起来很美丽,很快速,甚至成本比较低。但是这是在毁灭你的将来。因为这是产品,不是项目。产品是需要不断完善调整的,用户的需求也是变化的需要挖掘的,互联网也是变化的,你外包技术绝对不可能做到灵活、及时满足各种变化。在和竞争对手竞争的时候您如何保持您的领先优势?(前文说了,如果被对手保持领先一段时间,那么你之前的领先优势就荡然无存)。这里还没有考虑竞争问题,购买其它搜索引擎公司的技术,对方会不会把真正的技术毫不保留的卖给你。再说,卖你你你能搞懂吗?技术再困难也要自行解决。否则你注定失败。最好的办法就是购买核心技术缩短研发周期、成本、风险,再在这个核心技术进行自主研发。这是垂直搜索的技术门槛,看似不高,其实很高。对于技术问题可以迂回解决,用最简单的技术满足用户最迫切的需求。用户是不会关心技术实现的。模板方式可以是网页结构化信息抽取技术的补充。对于可行的应用早期采用模板技术也是不错的选择。比如chinabbs就做的很好,用户的主要需求是要浏览到好的帖子,所以加强内容的建设,找高水平的编辑做推荐,而且在界面和易用性上也很不错。领先qihoo。技术方面他们初期采用的应该是模板自动生成方式采集论坛信息,比qihoo技术水平差,但是这目前不是用户需求的关键,而且qihoo技术水平层次虽然高但是如果不成熟,体现给用户的东西未必就强。Chinabbs接下来再解决技术难点,在技术上有提升,那么他就能持续保持领先优势了。(但是话又说回来,招聘好的编辑很容易,技术要提升一个层次并且成熟很难,而且很耗费时间,当然用户习惯和知名度也是需要很长时间培养的)9.&用最简单的技术实现用户最迫切的需要技术重要,但是技术的使用得当更重要,技术是为用户体验服务的。只要能满足用户需要,什么技术都可以,简单不代表不行,用最简单的技术实现用户最迫切的需要。百度的整体技术我认为离google中文至少有1年以上差距,很多方面差距更大,但是百度的效果比google好,原因就是将简单的技术用于实现用户迫切的需求。举个我身边的例子来描述简单的技术实现需求:我把我们的演示给一好友看,好友看后说:我们也实现了。我大惊,他们不是做搜索的,居然也实现了! 他告诉我他们实现的方法后,我再次吃惊,深感简单的技术也可以很好的解决问题,虽然不完全解决,但是能满足自己的需求就好。他们的解决方法是:对网页的html进行分析,将整段文字中没有html代码的文字提取出来,这就是正文。(惊叹!!如此简单!!注:他们的信息源都是这样的格式)10.&根据中国本土互联网特点,强力的antispam,对信息进行清洗。11.&很多人误解就是把相关的行业网页做一个采集,进行正文抽取,实现搜索,完成信息册查询。其实并非如此。如果这样无法和网页搜索竞争,网页搜索很容易就可以将网页库按行业分类、按地区分类。&&& 垂直搜索应该是对垂直行业信息进行深度的加工,有效的整合,为用户提供网页搜索无法做到的专业性、功能性,为用户提供深一步的服务和完整的体验,而且不仅仅是提供信息的检索。垂直搜索是和信息搜索有本质的差异化的。12.专注用户体验的改善,任何的宣传炒作都是空乏无意义的,搜索引擎的核心在于用户体验,你只要改善用户体验,比别人强一点点,那么其它人的炒作和宣传都在为你打工
阅读(2223) | 评论(0) | 转发(0) |
相关热门文章
给主人留下些什么吧!~~
请登录后评论。

我要回帖

更多关于 如何优化搜索引擎 的文章

 

随机推荐