唐山SEO网站建设
河北唐山专业网站建设制作SEO优化诊断百度搜狗谷歌等搜索引擎网络推广外包公司,服务10年,客户500+

张家口SEO:“TF-IDF”算法的的概念与网站SEO运用

文章分类:网站SEO技术 来源:张家口SEO 作者:SEO顾问 时间:2018-06-05 05:32:35 阅读:


[导读]:张家口SEO顾问在本文用简单的网站SEO实例说明,谈谈我对“TF-IDF”算法的的概念与网站SEO运用的一些见解。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

“TF-IDF”算法的原理

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

张家口SEO:“TF-IDF”算法的的概念与网站SEO运用

如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。

但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处. 在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)

“TF-IDF”算法的的概念与网站SEO运用

一、TF词频的概念与SEO建议

TF是指词频,查询的关键词在文档中出现的次数统计。相关文档是这样介绍的,假设查询关键词在同一个文档中出现的次数越多,代表这个关键词越重要,越能代表文档的主题意思,文章主题与关键词意思越接近,那么做SEO如何运用这个知识点呢?

假设有一篇文章的标题是:“SEO服务外包”,从字面上理解,文章主要是以SEO服务为核心,“外包”为拓展词。假设文章内容里SEO服务出现20次,服务出现25次,外包出现10次,按照TF词频的规则,那么SEO服务是文章主题,这个很好理解。

实际上有些时候写文章时,在意思很明确的情况下,会省略主词。比如SEO服务外包价格、SEO服务外包流程、SEO服务外包公司介绍,会缩写成:外包价格、外包流程、外包公司介绍。这样会导致外包出现的次数大于服务,TF词频则会认为外包是主题,出现错误的判断。

那既然是这样,做SEO关键词布局的时候,应该要适当考虑主关键词的出现频率大于副词。当然搜索引擎判断网页主题有很多维度,这里只是单从TF词频的角度考虑,个人认为这样做会缩短搜索引擎判断网页主题的时间,对SEO来说是有利的。

第二、如何快速理解“IDF逆文档频率”

这个概念如果看文档的话有点难理解,当初笔者看百度百科好几次才明白。涉及到复杂的公式在这里就不讲,结合TF一起来理解,TF-IDF的意思是,一篇文章中某关键词出现的次数越多,且在搜索引擎的资料库中包含该关键词文档数越少,则说明这个关键词越能代表此网页的主题。

举个例子来说明,假设有一篇文章,有两个关键词:“SEO优化”和“SEO服务”,在文章中,这两个关键词出现的资料都是20次,但是在百度的资料库中,包含SEO优化的文档总共有一千万个,包含SEO服务的文档有五百万个,那么则说明,SEO服务越能代表这文章的意思。或者搜索引擎资料库中包含关键词的文档数量一样,文章中出现次数越多的关键词越能代表网页主题。

从SEO的层面讲,IDF这个值是客观存在的

不必去深究,只要明白不同关键词之间的文档数多少就行,以百度为例,搜索任何一个关键词,在搜索框下面会有一个:“百度为您找到相关结果约XXX个”的这样句子,里面的数值可以作为文档数参考。每个搜索引擎的包含关键词的文档数可能不一样,但是整体的相对比例值应该是差不多的。而且随着时间的推移,文档数也会不断发生改变。

关于TF-IDF相似度计算规则的讲解,就分享到这里,唐山新讯科技SEO顾问专注SEO整站优化服务,爱钻研搜索引擎算法,欢迎与我交流学习。

标题:张家口SEO:“TF-IDF”算法的的概念与网站SEO运用
地址:http://www.webrui.com/news/jq/267.html唐山新讯科技-SEO顾问
声明:如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理!

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!

合作流程

合作流程

唐山网站建设制作优化SEO流程从提出需求到报价,再到网页设计或者网站优化,每一步都是规范和专业的

常见问题

常见问题

网站建设费用多少钱?提供SEO优化服务?哪家好哪家专业联系方式?等网站制作、网站优化SEO常见问题

常见问题

售后保障

网站制作不难,难的是一如既往的热情服务及技术支持。我们知道:做网站就是做服务,就是做售后