搜索引擎的数据分析系统

作者:Lgo100 来源:未知 2012-07-12 14:31:21 阅读 我要评论 直达商品

  数据分析系统,是搜索引擎整个工作流程的第二个系统,也就是既搜索引擎蜘蛛抓取系统的后一个系统,搜索引擎的数据分析系统主要用来处理蜘蛛抓取回来的网页,今天呢,小强会给你详细的讲解,搜索引擎的数据分析系统的工作流程及几个重要的知识点。我们刚刚说了,数据分析系统主要是分析蜘蛛抓取回来的内容,那么怎样分析呢?主要涵盖以下几点。

  网页结构化

  什么是网页结构化呢?我们要知道网页,是由html组成,搜索引擎蜘蛛最后抓取回来的,也都是html的代码页面,简单的说,网页结构化,就是删掉html代码,然后留下其中的内容,如下图,图1是网页结构化之前,图2就是网页结构化之后。

  

网页结构化之前

 

  网页结构化之前

  

网页结构化之后

 

  网页结构化之后

  网页的内容消噪

  在网页结构后之后,依然存在着一些搜索引擎不需要的内容,比如说导航栏的菜单文字,底部的版权信息等,这些呢,都是搜索引擎不需要的,搜索引擎只需要内容,那么在这个时候就会对网页结构化之后的内容进行消噪处理,简单的说,消噪就是把内容之外的文字全部删掉,比如菜单上的文字,底部版权的文字等等。

  那么搜索引擎的数据分析系统怎么判断哪些是菜单文字哪些是版权信息呢?

  其实很简单,就是对比,比如一个内容页,除了内容不一样,其他的内容几乎一样,比如导航,每个页面都有导航,而且文字也一样,版权也是,当然也会根据html的源码去分析。

  对页面的查重

  对页面的查重其实很好理解,就是搜索引擎蜘蛛在抓取你这个网站所有的页面中,用你这个页面去对比抓取的页面,看看内容是否有重复,如果有,那么就删掉。

  分词

  分词是什么东西呢?简单的说,就是把一句话切割成N个词语,分词又分为中文分词和英文分词,搜索引擎有一本自己的数据库字典,里边有好多词语,然后对照着字典进行分词;其中还有一点,就是在分词的时候,会把一些无用的字去掉,比如,的、啊等等。

  页面对应URL的分析

  这个是网页分析系统的最后一个步骤,主要是根据一些外在因素、内在因素对这个页面对应URL的权重值的判断,比如外链、内链等,这个影响到这个页面关键词的排名。

  本文地址:http://www.shizhanqiang.com/2012071065.html


  推荐阅读

  招聘类欺诈网站泛滥 360网址云安全全面拦截

会打字能上网就行,兼/全职均可,日结200-300高薪,伴随着暑假的到来,近期类似的各种虚假招聘信息开始泛滥。360安全中心提示,这些形同天上掉馅饼式的美差,大多是不法分子精心布置的陷阱,建议广大同学警惕网络招聘>>>详细阅读


本文标题:搜索引擎的数据分析系统

地址:http://www.lgo100.com/a/34/20120712/75213.html

顶一下

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度