此文接上文百度算法总结详细请点击:蒋鑫鹏:百度算法总结
一、关于中文分词:
1.中文分词难度分析
首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量。在开头赘述 这一点是蒋鑫鹏为了表达其对于百度搜索算法中的中文分词的重视。因为,对于百度google这样的第二代搜索引擎来说,采用的检索技术主要是依靠关键字来 匹配的,而用户对于关键词的理解与机器程序对于关键词的理解是有很大距离的。
在中文分词方面百度胜过了Google,这是baidu取胜google的关键因素之一,中文的分词比英文要复杂得多(同样与中文分词一样麻烦的重要语言 还有日语、韩语、俄语,这也是Google没办法在这几个地区取胜的原因之一),蒋鑫鹏在这里因为篇幅不做赘述,有兴趣的朋友可以研究一下拉丁语系(以英 文为例)的造句与中文造句的区别,中文造句不仅近义词很多,而且语序变化无常,副词太多(主谓宾之外的定状补,叹词等等)。

简单举个例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度靠什 么排名”“百度的搜索是怎么排位的”……这几个短语短句至少都包含一个意思“百度搜索结果的排名是什么规则(原理)”,除此之外,每个句子都有其他的含 义,如这些句子还包含有“怎么做百度排名(实现这个目标的方法)”“百度是怎么进行搜索排名的(原理实现的过程)”……
拿上面的例子来说:当用户输入以上短句时(大多数情况下,普通用户把百度当做是万能的,所以才搜索SEO开来这么不符合规则的搜索行为),百度要迅速的响应出用户需要的结果,这个时候,百度面临的核心问题是:
A.首先要知道用户是要搜什么(语义分析,见“二”);
B.其次因为百度的检索方式目前仍然以关键词匹配技术为主,所以要对用户的搜索进行分词(下一段将分析百度如何分词);
C.然后百度要通过分词分出的结果,去数据库中检索匹配的快照;
D.上一步只是检索出来,还要进行第四部的排名,这个时候已经不是挑战百度的难题了(虽然在SEO看来,这一步确实是非常艰难的)
E.第五步要将得到的结果返回到搜索页面给用户使用,并且要完成其广告的投放(百度竞价广告),并要适当推广自己的产品(百度知道、百度文库……)写的有点乱,SEO顾问蒋鑫鹏在此致歉,没找到更好的陈述方式,望朋友们整理发扬光大。
2.百度中文分词方式:
百度对于中文的分词不仅是大量的用户搜索(这点不同于Google,百度毕竟是植根于中国文化的,对中文更了解),而且还有庞大的中文词典数据库作支撑, 并且动态加入了搜索热词,搜索行为造词等技术,【从近期百度算法的调整看,百度比以前更加尊重用户的搜索行为,就是用户的输入为首要,百度纠正次要,这点 那很重要哦】下面以实例来说,用户搜索“百度如何排名?”时的分词:
A.自然分割:包括标点符号、空格引起的分割,这是首要因素,比如或者“百度 如何排名”这样的搜索行为会被百度首先划分为“百度”、“如何排名”,这一点是肯定的,要理解用户搜索的行为意图,首先是要尊重用户的搜索行为;(这是 SEO顾问蒋鑫鹏根据实战中的观察总结出的,做SEO的很多朋友可能没注意到,在此提个醒)
B.中文词库分割:不难理解,“百度如何排名”将被分为“百度”“如何”“排名”这几个词,因为这是中文词典里存在的词,百度有庞大的中文词典库支撑,这个不是难度;
C.分词组合分词:B中的分词显然是不够的,要更能理解用户意图,必须保证语义连贯,那么那三个词可以组合成“百度如何排名”;“百度如何”+“排名”; “百度排名”+“如何”;“如何排名”+“百度”以及这几个词颠倒的组合,重要程度按照顺序优先原则,紧接着是倒序和双向序列的分词组合,分析切分有个基 本的原则就是最少的切分。
以上三点是通常意义上的分词,除此之外,还有更麻烦的分词需要百度处理,见后几点。
D.分字:如果用户搜索“百 度 如 何 排名”的时候,百度也是无可奈何的,因为你不能判断出来用户就是在搜索“百度 如何 排名”,还得尊重用户搜索行为,所以,不得不进一步将中文词进行分字:“百”“度”“如”“何”“排名”,然后在进行组合分词,组成不同的词组去数据库中 匹配。
E.别音字/错别字:如有人搜索“白度如何排名”实际上是误将“百度”打成“白度”,那么百度还要纠正这种错误,但近期的调整看,百度不像以前通过词库近 义匹配来进行纠错【而更多的是以用户搜索后浏览的行为积累的数据来为纠错做准备】(如搜索“白度”的很多用户最后花更多时间在“百度”关键词页面上,那么 百度以后对于“白度”的搜索纠错会偏重到“百度”上!
当然,这个词是蒋鑫鹏举例说明,实际上百度搜索“白度”不是这样的,例子可以参看百度的“美规车”查看,百度会提示或者说试探你“您要找的是不是: 美规车”),此外,百度对于纠错通过搜索下拉框相关词推荐、搜索页面底部“相关搜索”、百度知道(用户量很大,是百度搜索的重要补充)来进行纠错数据的统 计与纠错引导。
F.新词:新词的来源一般有两种:a.近期流行语造成,这个百度的数据库会根据用户搜索行为积累的数据以及网络热词监测数据来进行调整补充到词库;b.语言新词/用户造词,这个主要是靠搜索行为累积的数据调整,也针对部分语言新词人工作补充。
推荐阅读
大家好,我是哈尔滨虚实网站设计,最近一直在给客户做优化,感觉以前用的一些方式,好像有点过时吧,过不过时大家帮我看下吧,我主要就是在标题和关键词描述中作弊,另外就是关键词的锚文点,还有不自然的加一些关键>>>详细阅读
本文标题:蒋鑫鹏:百度搜索算法总结—关键词分词算法
地址:http://www.lgo100.com/a/34/20120513/59571.html

网友点评
精彩导读
科技快报
品牌展示