虚子雨:百度分词技术研究与猜测

作者:Lgo100 来源:未知 2012-06-04 09:35:40 阅读 我要评论 直达商品

  而我们搜索“片子下载”,百度就会将这些词拆分为“片子”、“下载”和“片子下载”,如下图:

  

  百度搜索引擎在中文规模市场据有率第一的地位,严酷来说是他有了一套很是好的分词手艺。当然高深的分词手艺我们是无法探知的。但我们可以年夜一些概况的一些“管”来窥其琅缦沔的“豹”。今天杭州seo就为巨匠谈一谈关于百度分辞书一点点根基的猜测。

  首先我们要体味百度分辞书前提,并不是所有的词城市有分词发生,例如我们搜索“年夜学生”,返回的结不美观,我们会看到精准匹配,那么百度就对这个词没有进行了分词措置,看下图:

 

  

 

  于是有伴侣猜测会不会百度以三个中文字为限,起头实施分词呢?巨匠可以多次测试一下,这种说法是相当有市场的,可是后面我又搜索关头辞书时辰发现一个问题,如不美观一个词已经被百度词库收为一个零丁的词,那么不管他何等长,百度也灰馊举荐精准匹配网页,然后举荐分词匹配网页。

  例如巨匠搜索“不管你们信不信”,一般来嗣魅这样的句子必定是要被分词措置的,可是因为去年动车事务,这个句子已经成为巨匠常用的词语,百度也已经对这个词斗劲认可了,将他收入词库中,那么它就可以实现精准匹配。如下图,网页问题中都是精准匹配,未见分词匹配:

  

 

  结论猜测:用户搜索某个关头词,百度会按照自己词库前进前辈行精准匹配,如不美观这个词是很常用的词,在自己词库中已经成立词条的词,那么百度就会挪用相关的网页结不美观,如不美观词库中不存在就进行分词措置,得出的搜索结不美观也会发生一些分词措置情形,至于结不美观排名影响身分斗劲多,好比网站的权重会影响到搜索的结不美观排名,具体的需要深切剖析,这里就不布鼓雷门了。

  本文由杭州seo(http://www.soxunseo.com)网编揭晓,接待巨匠转载,转载时请保留此链接,感谢合作!


  推荐阅读

  网页标题标签优化 想说爱你不容易

在浩如烟海的收集上,网友必需经由过程网页标问题问题览选择方针网页,搜索引擎也要以问题加内容简介体例索引举荐网页给网友,是以网页问题(Title标签)建造对于所有网站都十分主要。 对于网页问题(Title标签)的主要性>>>详细阅读


本文标题:虚子雨:百度分词技术研究与猜测

地址:http://www.lgo100.com/a/34/20120604/65336.html

顶一下

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度