“HillTop”论　-　探索Google排名新算法(二)--钉子-Exchange　MVP

:: Blog List ::

“HillTop”论 - 探索Google排名新算法(二)

钉子发表于 2004-8-31 22:52:07

来源:奕天科技

编译：Karen

此外，若两个站点均为相同IP地址下的宿主，则认为其中一个是另外一个站点的成员站点。(即：若ww.abc.com和www.ibm.com均为相同IP地址下的宿主，则认为www.abc.com是www.ibm.co.uk的成员站点)

Hilltop算法的一个极其重要的特征在于：若没有找到搜索引擎认为数量足够的“专家文件”(要求至少需有两票)，则该算法失效，即返回结果为零。换言之，对于高度明确化的查询条件(查询词语)，Hilltop算法的结果很可能为“0”。这是该算法的一个独特特性。如此一来，造成了SEO一族中的大部分人都深信Google的确在用“商业词”过滤名单来过滤掉商业网站。

事实上，在Hilltop算法无法奏效时，将显示“旧”Google的搜索结果。这些查询条件的集合就是SEO一族所收集并称之为的“商业词名单”。这一效果无意中却提供了一个强有力的证据，表明Google确是采用了Hilltop算法。2003年11月15号，Google基于新算法的更新之后，某分析家就指出：在进行查询时，若对某一查询条件加上一些“不包含”的无意义字符，如“car rental – ghjkl”，则Google将会显示以往(算法变化前)的搜索结果，而绕过所谓的“商业词”过滤名单。

例如，若查找“real estate –hdfkdhgk”，则Google将试图返回所有关于“real estate”，同时内容中又不包含“hdfkdhgk”的页面。又由于包含“hdfkdhgk” 这种字眼的网页几乎没有，所以按道理来讲，Google返回的查询结果应该和“real estate”的查询结果是相同的。然而结果却出人意料：Google所显示的查询结果和采用新算法之前的搜索结果的排名是相同的。事实上，Scroogle.org这个网站就是捕捉Google的搜索结果在排名上的不同，并以此得出一个所谓的“商业词”过滤名单。

在所谓的“商业词”背后到底是什么？

我们相信，“商业词”过滤式效果只是Hilltop算法的一个衍生症状。每当用户进行类似“real estate –hdfkdhgk”的查询时，Google都会对整个查询词语进行Hilltop运算，当无法找到足够的包含这种查询词语的“专家文件”时，该算法将返回一个零值(即零效果)。这就意味着我们通过这种多少有些滑稽的特殊排除词语绕过了Hilltop算法，这时候Google的其它算法就该出头发挥作用了，而它们所提供的查询结果明显地和算法更新前的查询结果是一样的! 后来Scroogle.org的声名鹊起让Goolge发现了这个bug。后来Google为了防止此类漏洞，索性把查询分成两步走，先把排除条件词语放一边，将查询条件送至Hilltop进行运算，如此一来，由于Hilltop不再同时对排除条件进行解析，所以可保证其正常发挥效用，并提供相应的搜索结果，然后再将此结果传递给Google算法，Google根据最初查询中的排除条件从Hilltop提供的结果中将符合排除条件的网页剔除，然后再将结果显示给用户。这也就是为什么我们现在用上面的法子再也无法看到“旧Google”的搜索结果的原因了。

Google新算法意义何在

Hilltop算法与Google的页面等级算法及页面相关性算法的结合看起来是超佳组合，几乎无懈可击。其联姻对于链接流行度/页面等级和来自专家文件(LocalScore)的链接对你网站的排名的影响程度有着深远的意义。
我列了一个简单的公式来说明新算法的效果和影响 (谨供参考)：

“旧”Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)}

“新”Google排名公式 = {(1-d)+a (RS)} * {(1-e)+b (PR * fb)} *{(1-f)+c (LS)}
其中：

RS = 相关性得分：基于网页标题(Title)。元标识(Meta tags)，正文标题(Headlines)，正文(Body text)。URL，图片Alt文字，锚文字(Anchor Text)等元素中出现的关键词得出的分数。

PR = 页面等级：(基于链接至你网站的网页数量及其PR值得出的分数。原始公式为PR (A) = (1-d) + d (PR (t1)/C (t1) + …+ PR (tn)/C (tn))，其中D为阻尼因子，一般设为0.85; 公式可描述为：A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。

LS = 行业得分(LocalScore)：根据专家文件计算得出的分数。

a，b，c = 调节控制比重：Google用于精工调整查询结果

d，e，f = 阻尼控制：Google用于精工调整查询结果。目前“f”值可能为“0”。

fb = 因子基数：Google工具栏山所显示的页面等级得分范围从1到10，但它实质上并不是一个线性函数，而是一个指数/对数函数。经过分析，我们认为它有一个趋近于8的基数。即PR为5的网页的值比PR为4要多8倍之多(PR5=PR4X8)，同样，一个PR值为8的网站比一个PR值为4的网站的值要高出4000多倍(PR8=PR4X8X8X8X8)。

Google新算法的优势/优点

页面因子极易被人利用和控制，例如最早被用作排名因子的META TAGS，就由于很多网站无度的关键词充斥泛滥而不得不被搜索引擎喊停。此外，在开始的时候，由于顾忌到真实来访者的感受，对网站内容一般作手脚的并不多，但后来亦难免诱惑，过度优化，甚至页面上放上许多“隐形”的内容已是屡见不鲜的伎俩。页面因子确实无形中赋予网站管理员太多“恶意”控制权。而在Google的新算法中，各排名因素所占比重分别如下：

总“排名”得分由三部分组成：相关性得分(页面因素)，页面等级得分(非页面因素)和行业得分(非页面因素)：
相关性得分(RS)= 20%，页面等级值(PR) = 40%，行业得分(LS) = 40%
其中：

RS (相关性得分：页面相关度) --是所有SEO努力的转换结果；

PR (页面等级得分：外部链接度) --是所有建立链接的努力的转换结果；

LS (行业得分：专家文件链接度) --是得自专家文件的链接的转换结果；

从上述结果不难看出，页面优化的得分只占到20%，Google显然已将重心转至非页面因子上，而把排名控制权越来越多地从网站管理员手中夺回来。假若一个水平一般般的优化专家可以拿到RS中的10分，而一个水平很高的优化专家最高也不过能拿到18，19分，大家可以看到：这两个水平悬殊的优化专家之间的差别仅仅只有8分而已!

Hilltop算法是否以实时方式运行

Google所拥有的服务器体系架构就是网络上分布的一万台奔腾级服务器。而一旦了解了Hilltop算法后，我们很难相信这样的奔腾服务器能够具备如此的处理能力：试想一下，首先要从成千上万的主题性文件中找到“专家文件”，然后计算目标网页自这些专家文件的链接的得分，然后再将数值返回Google算法的其它排名系统，并做进一步处理—而所有这些要在大约0.07秒内--这个让Google举世闻名的搜索速度内完成。确实使人难以置信。

Hilltop算法的运行频率及涵盖范围

我们认为，要保证Google一贯的“闪电般”搜索速度，Google会对搜索频率较高(热门)的查询词(即所谓的“商业词”黑名单)定期运行批处理，并将结果存储起来供日后使用。Google的数据库拥有数目庞大的高查询频率的查询词，收集自实地搜索和其AdWords自助广告系统中所使用的关键词。Google很可能对关键词搜索次数设置了上限值，凡搜索频率高于此阈值的查询词都将被纳入Hilltop系统，然后Hilltop系统再对收集的所有高查询频率关键词定期运行批处理，可能一个月一次。增量级的稍小规模的批处理可能会频繁一些。同时，每个月将对Hilltop系统运行批处理后的结果对Google的万台服务器的数据库进行同步更新，但稍小规模的批处理的数据库更新会更加频繁一些。

对于那些用户查询频率不算高，因而无此“荣幸”被纳入Hilltop算法的查询词语，Google仍将使用原来的算法并显示原来的排名结果。因而对于那些高度明确或专业化的关键词，由于它们被排除在新算法的范围之内，因而有望保持原来的排名。

Hilltop算法为何经过如此长时间才投入使用

Google早在2003年2月就获得了该专利，但在实际投入使用前，需要首先保证新算法和Google当时所使用的页面等级和页面相关性系统的完全兼容性，所以需要对其兼容性做大量测试，然后再评估算法整合后所提供的结果，再做精工调整，然后是进一步的繁复测试…我想所有这些都需要大量时间。

Google新算法的不利方面/瑕疵

经过进一步分析，我们发现了该算法存在着的若干缺陷和不足：

Hilltop的前提是每个专家文件都是完全公正的，且无欺骗和人工操纵成分。然而情况可能并非如此理想。专家文件的一个小小污点就可以对排名产生极大的负面影响。

Hilltop意图通过“权威性”专家文件的链接来确定一个网页的行业可信度，但又不能够明确保证这些所谓的“专家文件”的”“量”确是名副其实。

运行Hilltop算法需要大量的计算机处理能力，因而我们猜测Hilltop算法(可能)是每个月对收集到的全部高频率(热门)查询词运行一次批处理。由于Google算法将40%重心转移至Hilltop，且Hilltop算法运行后的得分会保持至下一次批处理，因而在此期间搜索结果很可能不会有太大变动。此外，由于“专家”网页的投票方式往往不会有太大变动，因而在某段时期内我们可能只会看到一些“陈旧”的搜索结果。这一点悖离了搜索引擎的“提供最新、最好”的查询结果的宗旨。除了“权威网页”，用户同样希望看到一些新鲜的内容，然而对“新”Google而言，用户只有寄望于那些查询频率不太高，从而未被纳入Hilltop系统的查询词语上看到“新鲜”的查询结果了。

新站点对热门查询词的排名的难度将越发加大。看来对于那些特别热门的查询词，Google对新网站或新内容的排名的门槛是越来越高了。

商业性站点要链向网络分类目录，贸易协会，政府贸易机构，教育机构，公益性组织的站点并非难事，故而这样的站点会占据搜索结果的前十名位置。

哪些站点是Google新算法最可能的殃及者？

成员站点/域群集/运行于相同服务器下的MLM(多层营销系统程序)程序。

过度依赖“页面”优化因子的网站。

依赖高度竞争性的查询词语来获得访问量的网站。

对网站拥有者的若干建议：

排名规则已发生重大改变，网站的成功推广需从提高PR值及获得更多来自“专家文件”的链接着手；

尽可能为更多主流网上分类目录(DMOZ，Yahoo，About，LookSmart等)，贸易目录，黄页，贸易协会和资源页等所收录；

避免使用域群集/成员程序或带有成员性质的系统；

避免来自可疑的FFA站点及链接工厂的互惠链接。

若干需要澄清的传言：

关于“过度优化会受到惩罚”之说--过滤优化本身就是一种SPAM，因而受到惩罚也是理所当然的事情。然而当前大多数商业网站所受到的排名冲击并非由于受到惩罚，而是由Google将重心从页面因子转至非页面因子而造成的。网站的良好优化仍必不可少。

关于“建立外部链接不再重要”之说--建立链接流行度还是和从前一样举足轻重，甚至还有可能会更加重要。Google专利的页面等级算法仍旧占据举足轻重的地位。

关于“Google开始使用‘商业词’过滤名单”之说--Google并没有使用任何“过滤名单”来惩罚商业站点。Google也无意去“惩罚”或“筛掉”任何东西，它所力求的只是建立一个能够识别最具备相关性网页的系统。

站点收录进DMOZ，Google目录和商业目录收录会让Google认为该站点属商业性网站，从而对其进行惩罚--正相反，由于这些目录都是质量非常之高的“专家文件”，因而得到这些目录的链接不但不会受到惩罚，反而会带给你较高的收益。

随着Google对其算法的大更新，我们不得不承认，要想让网站得到好的排名真是越来越不容易了。若只采用简单的优化技术，如元标识(Meta)或页面优化，几乎没办法得到理想排名。我们需要顾及很多的算法变量，而不仅仅是一个Meta Tags。搜索引擎优化会更为专业化。老式的优化伎俩已经不管用或收效甚微了。现在需要计划和实施的是全方位的SEO策略。为保证成效，SEO专家现在需要做的是投入更多的智慧、研究、分析、计划和时间。这样的话，SEO的优化“成本”亦将逐渐增高。

PPC(付费点击)的价格会继续攀升。PPC广告方式不但会成为网上营销策略的一个主要组成部分，而且需要保证相应的搜索引擎访问量。现在，网站的外部链接和页面等级愈加重要。它对排名的影响更加重要。搜索引擎优化和建立链接的结合已势在必行。此外，搜索引擎排名算法的更新不仅会越加频繁，而且幅度会越来越大。现在，定期的搜索引擎优化维护变得尤为重要。对网站的搜索引擎优化不仅是必须的，而且大有裨益。

很多网站都丢掉了它们原来的好排名，因而尤其需要搜索优化专家。每一次更新算法都是对搜索引擎优化人员名单的一次缩水。搜索引擎的优化和排名生意变得愈加困难，然而也愈加重要了。

阅读全文 | 回复(0) | 引用通告 | 编辑

| 更多分享链接

发表评论：

Best view with 1024 x 768 pixel & IE 6.0.

About Me

Archives Categories

Replies List

My FriendLinks

Blog Info