这个专利涉及几个定义。种子页面、链接长度、链接距离。
种子页面
关于种子页面的几个要素:
种子页面显然是优质的页面,专利里举的例子是谷歌目录和纽约时报。
种子页面需要与其它非种子页面有非常不错的连通性,有比较多的导出链接指向其它优质页面。
种子页面需要稳定靠谱,有多样性,大范围覆盖各类主题。
链接长度
种子和非种子之间有些离得近,有些离得远。如种子页面106通过链接132直接连向非种子页面112,非种子页面118则没种子页面直接连向它,要通过两层链接。
链接距离并非简单地数链接层数。每一个链接谷歌会计算一个链接长度,链接长度取决于链接本身的特点和链接所在页面的特点,譬如页面上有多少链接,链接的地方,链接文字所用字体等等。
所以,同样是一个链接,链接长度是不同的:
页面导出链接越多,链接长度越长。这和原始PageRank思路是一样的,导出链接越多,每一个链接分到的网站权重越少。
链接所在地方越要紧,譬如正文中,正文靠前部分,链接长度越短。
链接锚文字字号越大,或者在H1中,可能链接长度越短。
我记得Matt Cutts很长时间以前在谈到PageRank可能的修正时提到过,正文中的链接和页脚的链接被用户点击到的概率显然差距非常大,所以不同地方的链接获得的PR和网站权重应该是不同的。这种说法非常符合这个专利的意思。
链接距离
链接距离就是页面与种子页面集合之间的最短链接长度之和。种子页面和非种子页面之间一般不止一条链接通路,如示意图中,页面118可以通过链接132、136从种子页面106到达,也可以通过链接134、142、140到达,还可以通过链接134、140到达,还可以通过其它链接从其它种子页面到达,所有这类从种子集到页面的链接通路中,链接长度之和最短的那个被概念为链接距离。
假如一个页面没办法从任何种子页面出发访问到,也就是种子页面集合到这个页面完全没链接通路,那样链接距离是无限大。
然后谷歌算法依据链接距离计算出一个页面的排名能力分数,也就是新PR值,最后的排名算法中,这个新PR值作为排名原因之一。也就是说,链接距离越短,离种子越近,谷歌觉得页面越要紧,排名能力越高。
链接距离的计算无需迭代,所以比原版PageRank的计算要快得多,而在代表页面重要程度上,我相信谷歌做过对比,准确性差不多,所以就用来代替原来的PR了。
专利最后面提到了另一个定义:简化链接互联网图,不过没再说明这个定义有哪些用,用一个段落说了简化链接互联网图这个定义后专利就结束了。不过简化链接互联网图大概和链接水平判断、Penguin算法更新等有关。
所有页面之间的所有链接组成一个完整的链接互联网图,其中只由最短链接距离通路组成的链接被叫做简化链接互联网图,也就是用来计算新PR值的那些链接。显然,简化链接互联网图是完整链接互联网的一个子集,不过每一个页面的链接距离都已经保留在简化链接互联网图中了,去掉的那些链接对页面链接距离和新PR值没影响。在简化链接互联网图中,每一个页面获得的链接网站权重来源都是可以回溯到近期的种子页面的。
假如一个页面从种子集合完全没链接通路可以到达,也就是前面说的链接距离为无限大,这个页面将被排除在简化链接互联网图以外。假如一个页面得到的链接都来自简化链接互联网以外,虽然链接总数可能非常大,但其链接距离依旧是无限大。
换句话说,在简化链接互联网以外的链接是被忽视掉的,无论有多少链接。联想到Penguin 4.0算法更新,其中一个特点就是,垃圾链接是被忽视掉的,不被计入链接的流动中,这和基于链接距离的页面级别很相似。