蒋鑫鹏再次补充说明一下,百度其实很累的,它对用户的每一次搜索行为都要进行统计(当然是机器程序记录的方式):一般主要记录搜索的关键词、到访的页面及 到访方式(一般都是链接)、各页面停留时间(之前不容易读取到,现在百度通过浏览cookis、百度账户、IP记录、百度统计【如果网站装了百度统计的程 序,实际上百度很聪明,用各种方式想尽办法进入到网站,比如最近流行的百度分享按钮,这个工具实际上就是最大的间谍】等大量辅助工具来统计),一般测算是 根据搜索后到访的百度提供的快照页面的浏览行为(先打开哪个,然后打开哪个,在哪里停留的时间长,最后从哪里离开百度来实现,百度对于一个网页对用户是否 有用的观点:在该页面停留时间最长,并最终在此页面浏览完毕后离开百度为首要标准,其次还有在这些页面的互动程度所起的因素。
二、关于语义分析:
其实这段要说的在上一段已经都提到,列出来无非是将“语义分析”这一检索行为与“分词”区别开来,语义分析与分词是相辅相成的,语义分析更多的建立在分词 与用户浏览行为习惯数据的研究结论基础之上,如前所述,百度通过各种方式大量统计用户的行为并针对这些行为及所用的关键词及输入方式索索的统计数据进行分 词的支撑与分词的匹配。
毕竟,再怎么算,那么多网页、每天数十亿次的检索行为,百度还是难以计算出来的(百度正在通过不断改进方式及完善机器算法来努力实现这一浩大工程),目前 主要采用的是针对热门搜索的抽样统计与其他搜索的随机统计来实现搜索语义分析(此为SEO顾问蒋鑫鹏根据实战中的观察做的假想推断)。

百度最难以捉摸透的与其说是排名算法,不如说是语义分析算法,因为与SEO搞不懂百度算法一样,百度同样搞不懂搜索用户的搜索意图(所以百度一直在研究, 一直在调整,一直在完善,就像SEO一直在研究,一直在调整,一直在完善一样的道理)。捉摸不透是一个原因,更重要的是这些计算不仅仅是对于文字及分词、 匹配度的研究,更是通过统计学、线性数学、逻辑学、行为学、心理学等众多的学科的精华计算方法结合在一起设计出的算法结构,并不断修补完善的,说到这个算 法,百度有一个形容“海量基础算法”,更不用提每种算法的学科本身的难度了,这就是苦逼的SEO迟迟不能搞懂百度算法的根本原因,当然,作为苦逼的 SEO,蒋鑫鹏同样也是搞不懂的,如果能搞懂的,大多都是数学或计算机天才或顶尖人才,早都去搞自己的研究或者发明去了,还至于追在百度后面吹毛求疵?
更何况,百度本身对于搜索结果的“人为干涉”及“垄断”都带来各种斥责,更何况SEO为了一己之利不断刷排名给用户推荐低质量的信息,那就更遭懂得并理解 搜索算法的牛人看不起了……所以看到这里,如果你觉得你很牛,就不要做SEO了,如果作为SEO你明白了作者蒋鑫鹏写此篇文章的意图,那你就站在SEM或 者网络运营、网络营销的高度来看待SEO,而不是为了半夜趴在电脑前发外链混营生而SEO。
扯远了,回归正题,做不到像百度一样设计算法的那个能耐,如果说还能从语义分析中挖掘点对SEO有帮助的东西,那么蒋鑫鹏建议可以去研究研究你正在做的优 化的相关词的用户搜索习惯,比如,蒋鑫鹏最近给上海智宝美规车www.zhibaosuv.com做网络运营服务期间,发现“美规车”这一词正在受到越来 越多的关注,而做这个词优化的很多SEO或者说站长都顶住“美规车”一个词做,而这个词用户搜索的时候,有可能衍生为&ldqu右,蒋鑫鹏建议不要超过160字符,因为这样不仅稀释关键词匹配 度,而且百度最近的算法调整,对description超出快照显示的部分将不再做关键词匹配。同样以智宝美规车www.zhibaosuv.com来说 明,蒋鑫鹏将美规GMC放在描述摘要最好,最近算法调整后不做显示了(当然可能是个案,仅供参考)。
5.keywords关键词匹配度:
keywords对于百度来讲,貌似本身不作为匹配,但是有一点百度很在意:不要将页面没有的关键词加到keywords中,如果这样,有可能会被认为是在作弊,这点对于Google来说更是如此,Google对于keywords作弊比百度严格的多。

keywords一般公认的不超过100字符,这点,蒋鑫鹏的理解是,对于Google来讲:keywords一定不要过多,要与页面匹配,一般页面能容 忍的关键词也就十多个到头;对于百度来讲,建议keywords的设计根据百度权重(可用站长工具或爱站网测试)关键词来设计,有权重的词,可以加到 keywords中。
对于企业网站而言,因为Title和description限制而字数有限,无法容纳公司全称,这个时候可以考虑将公司全称及简称在keywords中体现一下,因为页面版权信息中一般会包含公司名和简称。
6.页面内容中的关键词匹配度:
页面内容不做分词计算,但标签中的分词和快照中存档的分词在页面所占比列计算中会对页面中包含的关键词进行匹配并计算次数及在整个页面字符中所占比例。
页面的关键词重要程度首要的是H标签和其他重要的标签,当然在百度快照中主要是按照页面世家显示的文字为标准,一般链接锚文本中包含的关键词、页面突出位 置出现的关键词、以突出的方式(字体、颜色)展示出的关键词会比较重要,这点要根据具体页面作分析,SEO朋友们可以在检索关键词结果中直接查看百度快照 中显示的关键词匹配程度,黄色最高,其次为红色和蓝色、绿色。
快照是存放在百度数据库中的静态网页,不是真实的网页,所以就有快照更新一说。从快照页面源代码中可以看出,百度快照中只是记载了页面的基本代码及文本文件,并为存储照片及其他文件,现实中的快照中的图片是从页面文件收录快照时记录的文件地址调用过来的。
百度快照的存在,才是大家都关心百度快站更新的根本原因,因为如果快照不跟新,获得排名的机会就会变少,这个时候的你的网站的快照在百度快照数据库中就像 一个弃婴……写到此,作者蒋鑫鹏再次将自己的观察提醒一下:以前大家都认为静态页面更受搜索欢迎,随着2.0的不断发展及互联网社交化的趋势,似乎这点正 在被改写并朝着相反方向发展,静态页面、伪静态开始被搜索程序嫌弃……蒋鑫鹏是这样理解的,如果页面是静态的,那么搜索引擎更容易认为你的页面内容更新会 比较慢,这样自然影响收录频率,蜘蛛到访的频次也就降低了……
推荐阅读
大家好,我是哈尔滨虚实网站设计,最近一直在给客户做优化,感觉以前用的一些方式,好像有点过时吧,过不过时大家帮我看下吧,我主要就是在标题和关键词描述中作弊,另外就是关键词的锚文点,还有不自然的加一些关键>>>详细阅读
本文标题:蒋鑫鹏:百度搜索算法总结—关键词分词算法
地址:http://www.lgo100.com/a/34/20120513/59571.html

网友点评
精彩导读
科技快报
品牌展示