唐山SEO网站建设
河北唐山专业网站建设制作SEO优化诊断百度搜狗谷歌等搜索引擎网络推广外包公司,服务10年,客户500+

网站SEO工作站长浅析搜索引擎预处理索引(上)

文章分类:网站SEO资讯 来源:河北SEO 作者:SEO顾问 时间:2018-04-25 20:09:51 阅读:


[导读]:预处理是搜索引擎中较复杂的一部分,本文讲述搜索引擎预处理索引上部分基础知识,对于网站设计以及SEO都会有帮助。

搜索引擎预处理相信大家都不会陌生,很多站长或者其它SEO资料中被称作“索引”。索引是为了加速对表中数据行的检索而创建的一种分散的存储结构。索引是针对表而建立的,它是由数据页面以外的索引页面组成的,每个索引页面中的行都会含有逻辑指针,以便加速检索物理数据。

搜索引擎预处理索引

在数据库关系图中,可以在选定表的“索引/键”属性页中创建、编辑或删除每个索引类型。当保存索引所附加到的表,或保存该表所在的关系图时,索引将保存在数据库中。

搜索引擎预处理基础知识

对于搜索引擎来说,索引是最重要的一个步骤,和网页的爬行抓取以及排名都有着直接的关系。河北SEO搜索引擎抓取的页面并不能被用于排名,因为互联网上的数据是巨大的,所以当用户在搜索的时候不可能实时地从所有网页中进行检索并返回,而是从搜索引擎自己的数据库中返回给用户结果。这个数据库是事先经过处理的,所以就有预处理的说法。

第一、提取文字

现在的互联网资讯还是以文字为主,所以搜索引擎的重点还是文字,平时我们从网页上看到的包括很多图片、视频以及JS技术等都无法用户排名的内容。所以对于搜索引擎而言,首先要做的就是提取网页中的文字。除了一些body中常见的文字,还会提取包括Meta标签中的文字以及图片的ALT标签等等。另外一个就是锚文字,锚文字在网页排名中的作用非常重要。

第二、中文分词

分词其实对于Google而言也存在,不过通常讲的都是中文分词。对于英文而言,只需要根据单词进行拆分就行,而中文的情况往往比英文要复杂的多,所以对于中文搜索引擎,特别是百度,要考虑中国用户的使用情况,所以对待分词上也有自己独特的地方。在网站优化上,我们对于分词能做的很少,只能加粗或者利用H标签等告诉搜索引擎哪些字连在一起是属于一个词。

第三、消除停止词

现实生活中我们时常会带有一些感叹词或者助词来表达语义,互联网上同样也是如此,无论是中文还是英文,都会存在一些出现频率很高,但对内容没有实质影响的词。常见的有“的”“得”“地”等助词,也有“啊”“哈”“呀”之类的感叹词,还会有“却”、“以”之类的副词以及介词。在搜索引擎中,这些没有实质性的词语统称为停止词。搜索引擎在抓取网页时会去掉这些停止词,从而使主题更加突出,也会减少大量的计算。

第四、噪声消除

大家可能不理解什么叫噪声,在互联网中,噪声指的是对网站的主题没有实质性帮助的页面元素,比如很多版权声明文字、导航条还有广告内容。很多博客中的文章分类页面、历史归档页面都属于噪声元素。互联网的内容是巨量的,所以,搜索引擎不可能把这些无实质性的内容都一一抓取并且索引,会在抓取时先消噪,他会根据HTML页面中的标签来进行区域区分,把剩下的主体内容进行抓取。从这一点上来看,我们应该尽量展现足够多的文字内容提供给搜索引擎而不是其它因素。

到这里,河北SEO顾问通过提取文字、中文分词、消除停止词、噪声消除等四个方面和大家分享了搜索引擎的预处理,这里只是给大家简单的罗列了以下,其实情况要复杂的多,细节性的东西也更多。这里只是抛砖引玉,希望有更多的深入了解的站长SEO朋友也进行分享,让大家共同进步。搜索引擎的预处理总共有九个阶段,本文先总结其中前四个,下五个阶段请阅读《网站SEO工作站长浅析搜索引擎预处理索引(下)》。

标题:网站SEO工作站长浅析搜索引擎预处理索引(上)
地址:http://www.webrui.com/news/fa/250.html唐山新讯科技-SEO顾问
声明:如本站文章和转稿涉及版权等问题,请作者及时联系本站,我们会尽快处理!

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!

合作流程

合作流程

唐山网站建设制作优化SEO流程从提出需求到报价,再到网页设计或者网站优化,每一步都是规范和专业的

常见问题

常见问题

网站建设费用多少钱?提供SEO优化服务?哪家好哪家专业联系方式?等网站制作、网站优化SEO常见问题

常见问题

售后保障

网站制作不难,难的是一如既往的热情服务及技术支持。我们知道:做网站就是做服务,就是做售后