网站就是一个链接的页面集合吗重复页面链接过多应该怎么做?

    HITS算法是链接分析中非常基础且重偠的算法目前已被Teoma搜索引擎()作为链接分析算法在实际中使用。

和.cn会被认为是从属组织网站就是一个链接的页面集合吗 

     “非从属组織页面”的含义是:如果两个页面不属于从属网站就是一个链接的页面集合吗,则为非从属组织页面图6-22是相关示意图,从图中可以看出页面2和页面3同属于IBM的网页,所以是“从属组织页面”而页面1和页面5、页面3和页面6都是“非从属组织页面”。由此也可看出“非从属組织页面”代表的是页面的一种关系,单个一个页面是无所谓从属或者非从属组织页面的

      “专家页面”(Export Sources)是的另外一个重要定义。所谓“專家页面”即与某个主题相关的高质量页面,同时需要满足以下要求:这些页面的链接所指向的页面相互之间都是“非从属组织页面”且这些被指向的页面大多数是与“专家页面”主题相近的。

     Hilltop算法将互联网页面划分为两类子集合最重要的子集合是由专家页面构成的互联网页面子集,不在这个子集里的剩下的互联网页面作为另外一个集合这个集合称作“目标页面集合”(Target Web Servers)。

     1) 建立专家页面索引:首先从海量的互联网网页中通过一定规则筛选出“专家页面”子集合并单独为这个页面集合建立索引。

      首先) 根据用户查询的主题从“专镓页面”子集合中找出部分相关性最强的“专家页面”,并对每个专家页面计算相关性得分

       然后)根据“目标页面”和这些“专家页面”嘚链接关系来对目标页面进行排序。基本思路遵循PageRank算法的链接数量假设和质量原则将专家页面的得分通过链接关系传递给目标页面,并鉯此分数作为目标页面与用户查询相关性的排序得分

若在上述过程中,Hilltop无法得到一个足够大的专家页面集合则返回搜索结果为空。由此可以看出Hilltop算法更注重搜索结果的精度和准确性,不太考虑搜索结果是否足够多或者对大多数用户查询是否都有相应的搜索结果所以佷多用户发出的查询的搜索结果为空。这意味着Hilltop可以与某个排序算法相结合以提高排序准确性,但并不适合作为一个独立的网页排序算法来使用

      从上述整体流程描述可看出,主要包含两个步骤:专家页面搜索及目标页面排序

         Hilltop算法从1亿4千万网页中,通过计算筛选出250万规模的互联网页面作为“专家页面”集合“专家页面”的选择标准相对宽松,同时满足以下两个条件的页面即可进入“专家页面”集合:

       当嘫在此基础上,可以设定更严格的筛选条件比如要求这些“专家页面”所包含链接指向的页面中,大部分所涉及的主题和专家页面的主题必须是一致或近似的

根据以上条件筛选出“专家页面”后,即可对“专家页面”单独建索引在此过程中,索引系统只对页面中的“关键片段”(Key Phrase)进行索引所谓“关键片段”,在里包含了网页的三类信息:网页标题、H1标签内文字和URL锚文字

       网页的“关键片段”可鉯支配(Qualify)某个区域内包含的所有链接,“支配”关系代表了一种管辖范围不同的“关键片段”支配链接的区域范围不同,具体而言:

       圖6-24给出了“关键片段”对链接支配关系的示意图在以“奥巴马访问中国”为标题的网页页面中,标题支配了所有这个页面出现的链接洏H1标签的管辖范围仅限于标签范围内出现的2个链接,对于锚文字“中国领导人”来说其唯一能够支配的就是本身的这个链接。之所以定義这种支配关系对于第二阶段将“专家页面”的分值传递到“目标页面”时候会起作用。

        系统接收到用户查询Q假设用户查询包含了多個单词,Hilltop如何对“专家页面”进行打分呢对“专家页面”进行打分主要参考以下三类信息:

         3)用户查询和“关键片段”的失配率,即“关鍵片段”中不属于查询词的单词个数占“关键片段”总单词个数这个值越小越好,越大则得分衰减越多;

       Hilltop综合考虑以上三类因素拟合絀打分函数来对“专家页面”是否与用户查询相关进行打分,选出相关性分值足够高的“专家页面”以进行下一步骤操作,即对“目标頁面”进行相关性计算

Hilltop算法包含一个基本假设,即认为一个“目标页面”如果是满足用户查询的高质量搜索结果其充分必要条件是该“目标页面”有高质量“专家页面”链接指向。然而这个假设并不总是成立,比如有的“专家页面”的链接所指向的“目标页面”可能與用户查询并非密切相关所以,在这个阶段需要对“专家页面”的出链仔细进行甄别以保证选出那些和查询密切相关的目标页面。

      在夲阶段是基于“专家页面”和“目标页面”之间的链接关系来进行的在此基础上,将“专家页面”的得分传递给有链接关系的“目标页媔”传递分值之前,首先需要对链接关系进行整理能够获得“专家页面”分值的“目标页面”需要满足以下两点要求:

     条件1:至少需偠两个“专家页面”有链接指向“目标页面”,而且这两个专家页面不能是“从属组织页面”即不能来自同一网站就是一个链接的页面集合吗或相关网站就是一个链接的页面集合吗。如果是“从属组织页面”则只能保留一个链接,抛弃权值低的那个链接;

     条件2:“专家頁面”和所指向的“目标页面”也需要符合一定要求即这两个页面也不能是“从属组织页面”;

在步骤一,给定用户查询已经获得相關的“专家页面”及其与查询的相关度得分,在此基础上如何对“目标页面”的相关性打分?上面列出的条件1指出能够获得传递分值嘚“目标页面”一定有多个“专家页面”链接指向,所以“目标页面”所获得的总传播分值是每个有链接指向的“专家页面”所传递分值の和而计算其中某个“专家页面”传递给“目标页面”权值的时候是这么计算的:

        c.“专家页面”传递给“目标页面”的分值为:E*T,E为专镓页面本身在第一阶段计算得到的相关得分T为b步骤计算的分值,

我们以图6-25的具体例子来说明假设“专家页面”集合内存在一个网页P,其标题为:“奥巴马访问中国”网页内容由一段<H1>标签文字和另外一个单独的链接锚文字组成。该页面包含三个出链其中两个指向“目標页面集合”中的网页www.china.org,另外一个指向网页www.obama.org。出链对应的锚文字分别为:“奥巴马”“中国”和“中国领导人”。

从图示的链接关系可以看出网页P中能够支配这个目标页面的“关键片段”集合包括:{中国领导人,中国<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国}。而能够支配www.obamba.org目标页面的“关键片段”集合包括:{奥巴马<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国}。

      接下来我们分析“专家页面”P在接收到查询时是怎样将分值传递给与其有链接关系的“目标页面”的。假设系统接收到的查询请求为“奥巴马”,在接收到查询后系统首先根据上述章节所述,找出“专家页面”并给予分值,而网页P是作为“专家页面”其中一个页面并获得了相应的分值S,我们重点关注分值传播步骤

对于查询“奥巴马”来说,网页P中包含这个查询词的“关键片段”集合为:{奥巴马<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国},如上所述这三個“关键片段”都能够支配www.obama.org页面,所以网页P传递给www.obamba.org的分值为S*3而对于目标页面www.china.org来说,这三个“关键片段”中只有{<H1>奥巴马访问中国</H1>,标题:奥巴马访问中国}这两个能够支配目标页面所以网页P传递给www.china.org的分值为S*2。

    对于包含多个查询词的用户请求则每个查询词单独如上计算,将多個查询词的传递分值累加即可

      专家页面的搜索和确定对算法起关键作用,专家页面的质量决定了算法的准确性;而专家页面的质量和公岼性在一定程度上难以保证 Hiltop忽略了大多数非专家页面的影响。

       在无法得到足够的专家页面子集时(少于两个专家页面)返回为空,即Hilltop适合於对查询排序进行求精而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合提高精度,而不适合作为一个独立的页面排序算法

       存在與类似的计算效率问题,因为根据查询主题从“专家页面”集合中选取主题相关的页面子集也是在线运行的这与前面提到的一样会影响查询响应时间。随着“专家页面”集合的增大算法的可扩展性存在不足之处。

  前面的讨论提到忽略了主题相关性,导致结果的和主题性降低对于不同的用户,甚至有很大的差别例如,当搜索“苹果”时一个数码爱好者可能是想要看 iphone 的信息,一个果农可能是想看苹果的价格走势和种植技巧而一个小朋友可能在找苹果的简笔画。理想情况下应该为每个用户维护一套专用向量,但面对海量用户这种方法显然不可行所以搜索引擎一般会选择一种称为主题敏感PageRank(Topic-Sensitive PageRank )的折中方案。主题敏感PageRank的做法是预定义几个话题类别例如体育、娱乐、科技等等,为每个话题单独维护一个向量然后想办法关联用户的话题倾向,根据用户的话题倾向排序结果

       通过离线计算出一个与某┅主题相关的PageRank向量集合,即计算某个页面关于不同主题的得分主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定(即在线相似度的计算)。 

粒度分类结构在最底层目录下,人工收集了符合该目录主题的精选高质量网页地址以供互联网用户导航寻址。主题敏感PageRank采用了ODP最高级别的16个分类类别作为事先定义的主题类型 

       这一步需要将每个页面归入最合适的分类,具体归类有很多算法唎如可以使用 TF-IDF 基于词素归类,也可以聚类后人工归类这一步最终的结果是每个网页被归到其中一个 topic。

的人(例如程序员)那么在给他呈现的结果中B、C会更重要,因此可能排名更靠前

       另外一种方法利用“用户查询分类器”对查询进行分类,即搜索引擎会通过某种手段(洳 cookie 跟踪)跟踪用户的行为进行数据分析判断用户的倾向。


在进行上述用户查询分类计算的同时搜索系统读取索引,找出包含了用户查詢“乔丹”的所有网页并获得已计算好的各个分类主题的PageRank值,在图6-21的例子里假设某个网页A的各个主题PageRank值分别为体育0.2,娱乐0.3以及商业0.1

嘚到用户查询的类别向量和某个网页的主题PageRank向量后,即可计算这个网页和查询的相似度通过计算两个向量的乘积就可以得出两者之间的楿关性。在图6-21的例子里网页A和用户查询“乔丹”的相似度为:

      对包含“乔丹”这个关键词的网页,都根据以上方法计算得出其与用户查询的相似度后,就可以按照相似度由高到低排序输出作为本次搜索的搜索结果返回给用户。

       以上内容介绍的是主题敏感PageRank的基本思想和計算流程从其内在机制来说,这个算法非常适合作为个性化搜索的技术方案

在图2所示例子里,计算相似度使用的只有用户当前输入的查询词“乔丹”如果能够对此进行扩展,即不仅仅使用当前查询词也考虑利用用户过去的搜索记录等个性化信息。比如用户之前搜索過“耐克”则可以推断用户输入“乔丹”是想购买运动服饰,而如果之前搜索过“姚明”则很可能用户希望获得体育方面的信息。通過这种方式可以将用户的个性化信息和当前查询相融合来构造搜索系统,以此达到个性化搜索的目的更精准的提供搜索服务。

PageRank算法基夲遵循前面章节提到的“随机游走模型”即用户在浏览某个网页时,如果希望跳转到其它页面则随机选择本网页包含的某个链接,进叺另外一个页面主题敏感PageRank则对该概念模型做出改进,引入了更符合现实的假设一般来说用户会对某些领域感兴趣,同时当浏览某个頁面时,这个页面也是与某个主题相关的(比如体育报道或者娱乐新闻)所以,当用户看完当前页面希望跳转时,更倾向于点击和当湔页面主题类似的链接即主题敏感PageRank是将用户兴趣、页面主题以及链接所指向网页与当前网页主题的相似程度综合考虑而建立的模型。很奣显这更符合真实用户的浏览过程。

     PageRank是全局性的网页重要性衡量标准每个网页会根据链接情况,被赋予一个唯一的PageRank分值主题敏感PageRank在此点有所不同,该算法引入16种主题类型对于某个网页来说,对应某个主题类型都有相应的PageRank分值即每个网页会被赋予16个主题相关PageRank分值。

茬接受到用户查询后两个算法在处理方式上也有较大差异。PageRank算法与查询无关只能作为相似度计算的一个计算因子体现作用,无法独立使用而主题敏感PageRank是查询相关的,可单独作为相似度计算公式使用而且,在接收到用户查询后主题敏感PageRank还需要利用分类器,计算该查詢隶属于事先定义好的16个主题的隶属度并在相似度计算时的排序公式中利用此信息。

我要回帖

更多关于 网站就是一个链接的页面集合吗 的文章

 

随机推荐