<b>TF-IDF框架与其可以衍生到的SEO知识</b>

作者:Lgo100 来源:未知 2012-03-14 23:58:11 阅读 我要评论 直达商品

  这是一篇关于搜索引擎排序基本TF-IDF框架的普及文章,并非网上偶然可见的一些泛泛而谈甚至断章取义的内容,而是连系搜索引擎的理论,和自己不雅察看到的较多实例所总结的切实的常识。虽然可能相对斗劲难以理解,但相信我,这些用来理解的侍旧锁对是值得的。

  写这篇文章主若是为了对后面一篇《seo实践》系列的文章中要提到的一些内容先写好基本理论,就不放到正篇琅缦沔去占用篇幅了。

  本文先引用一段张俊林的《这就是搜索引擎》中对于TF-IDF框架的概述。因为原文较长,这里概述下我所认为的重点,或许会有概述不足之处,所以更具体的内容举荐看原书。

  (注:“TF-IDF”或“TF*IDF”是写法习惯问题,书赌暌姑的是TF*IDF,不意味着两者之间有区别)

  TF-IDF事理概述

  当用户在搜索引擎搜索一个辞书时辰,它会将词去和索引库内的文档去进行匹配计较,将和词语最相关的必然数目的文档掏出,介入后续的排名计较。此处“最相关”的量化指标被成为“权值”,而对于绝年夜年夜都搜索引擎,权值的计较中TF*IDF框架都是斗劲主要的一部门。其中被首要考虑到的因子为:词频TF和逆文档频率IDF。

  词频因子(TF)

  TF计较因子代表了词频,即一个单词在文档中呈现的次数。一般来说,词剖ё俳高越显得文档和该词相关,就应该给以这个单词更高的权重。

  具体计较词频因子的时辰,基于分歧的起点,可以采纳分歧的计较公式。最简单的体例是直接操作词频数,好比一个文档中某单词呈现5次,它的TF值就是5。

  一种词频因子的变体计较公式是:W = 1+log(TF)

  即将词频数值TF取Log值来作为词频权值,好比单词在文档中呈现4次,其词频因子权值为3,公式中的数字1是为了滑腻计较之用。因为如不美观TF值为1的情形下,取Log后值为0,即原本呈现了一次的单词,按照这种体例计较会认为这个单词年夜来没有在文档中呈现过,为了避免这种情形,采用+1的体例来进行滑腻。之所以要对词频取Log,是基于如下考虑:即使也述单词呈现了10次,也应该在计较特征权制瘫,比呈现1次的情形权值年夜10倍,所以插手Log机制按捺这种过年夜的差异。

  还有种斗劲主要的变体计较公式将文档的长度也纳入考虑。因为与短文档对比的话,长文档内所有单辞书TF值会普遍比短文档的值高。这边不详提了。

  逆文档频率因子(IDF)

  IDF代表的是文档集结规模的一种全局因子,它只和给定的文档集结有关,与具体文档无关。所以IDF考虑的不是文档自己的特征,而是特征单词之间的相对主要性。

  计较公式如下:IDF = log(N/n)

  其中N代表文档集结中总共有若干好多个文档,而n代表特征单词在此鱿父多个文档中呈现过,即文档频率。由公式可以,当越多的文档包含某个单词时,则其IDF质ё俳小,意味着这个词区分分歧文档的能力越差。

  TF*IDF框架

  TF-IDF值的计较公式为:

  Weight = TF * IDF

  当这个质ё俳年夜时,文档就与该词越相关。

  百度所现实运用的

  对于百度,TF-IDF框架自然是被运用到的。但对于单个索引词排名时,TF-IDF不是关头词排名的抉择性身分。百度的排名素质是概率检索模子。

  按照我以前对百度上做过的简单统计剖析,百度对于TF计较至少运用了上述的Log滑腻计较体例。除了前面提到的之外,当一个关头辞书呈现次数跨越必然阈制瘫,其TF值会跟着呈现次数的增多,而继续以Log形式使排名下降。

  因为有这个机制存在,所以一个页面膳缦沔每个辞书TF-IDF值是有各自分歧的上限的,这对于seo是一个很主要的概念。

  可以自己用来现实体验TF-IDF计较的最简单体例

  虽然不很切当,但先将一篇文章中某关头词呈现的次数记为TF值,此外到Google搜索该词,将该辞书搜索结不美观总数目作为DF值。然后将TF除以DF,就可以获得最简单的TF-IDF值了。

  尽管这样的计较很是粗略可能没什么现实意义,但照此现实计较一次往后就会对TF-IDF轻易理解得多。

  seo衍生

  举个实例,好比“喷码机价钱”一词,它会被百度分成“喷码机”和“价钱”二词。(题外话,分词与否也应该是取决于数据而非自己直觉的,如不美观往后有机缘我会写写自己比滥暌姑过的一些体例。但有些人常用的年夜百度快照来看关头词高亮部门来判定分词,是没有任何事实基本的,没什么价值。)

  到Google去分袂搜索下“喷码机”和“价钱”二词,“喷码机”的结不美观年夜约是20,600,000个,“价钱”则对应年夜约1,850,000,000个搜索结不美观,后者的DF值年夜约高前者百倍。(之所以不到百度去搜索,因为百度显示搜索结不美观数目上限为1亿个)

  在这种情形下,哪怕“喷码机”和“价钱”二词都在一篇文档中呈现不异的次数,后者也会因为IDF因子的影响,而导致权质ё俣远低于前者。

  是以,一般情形下只有当“喷码机”这个词权值高的页面,才有机允ё仝“喷码机价钱”这个辞书排名上获得好的默示,和“价钱”此词权值的关系很小。因为无论若何,“价钱”此辞书权值是不成能经由过程TF-IDF轨则获得太多的。

  所以至少对于百度而言,想零丁做“喷码机价钱”这种辞书排名的话,一般要用“喷码机”排名本就很高的着陆页来做,否则相对会难的多。

  最后

  限于自己的seo水平,无法妄论seo是否应该去对搜索引擎进行很深切的体味,而且至少主不美观角度上,我认为seo在搜索引擎事理琅缦沔钻太深是意义不年夜的工作。但前面提到的,我想只应该算是必需把握的基本,如不美观连对搜索引擎最经典的基本算法都没有花过任何精神去体味的话,又谈何与搜索引擎打交道呢?

        原文:http://semwatch.org/2012/03/tf-idf/


  推荐阅读

  <b>SEO诊断:为客户网站带来准确的顾客</b>

A5站长网seo瘴幌团队(http://seo.admin5.com)经常会碰着一些客户咨询为何网站流量不少,天天也都有年夜量的用户咨询,为什么最终没有成为自己的顾客此类的问题,其实,这样的问题是最常见的,也就是站长们天天都在津>>>详细阅读


本文标题:<b>TF-IDF框架与其可以衍生到的SEO知识</b>

地址:http://www.lgo100.com/a/34/20120314/40638.html

顶一下

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度