探访百度:技术创新者的乐园

作者: 来源:IT新闻网 2011-12-31 05:34:26 阅读 我要评论 直达商品

越是看似简单的应用,背后越需要经得住严峻的考验:每天数十亿次检索、全球数亿网民千变万化的需求和表达方式,考验了百度这家中国互联网公司过去十余年所做的技术积累。而百度的突破性理念——“框计算”,正在用充满想象力的技术创新改变数亿网民的生活,立足中文互联网,引领全球搜索的革新。  精彩推荐

美国曾经做过一次网络调查,“如果是砍掉一个手指,或者被终生剥夺使用搜索的权力,你会选择哪个?”近1/3的网民选择了前者。越来越多的人已经离不开搜索,他们将自己的衣食住行、求医问药、教育求职等诸多需求向搜索框求助。千变万化、纷繁复杂的请求,用户用最习惯的语言告诉搜索,而搜索负责将最简单、可依赖的内容反馈给用户。

越是看似简单的应用,背后越需要经得住严峻的考验:每天数十亿次检索、全球数亿网民千变万化的需求和表达方式,考验了百度这家中国互联网公司过去十余年所做的技术积累。而百度的突破性理念——“框计算”,正在用充满想象力的技术创新改变数亿网民的生活,立足中文互联网,引领全球搜索的革新。

突破性的框计算

图书馆学,全文检索技术,倒排技术和互联网技术的发展,推动了搜索引擎的诞生。互联网的内容不断的扩充和网民数量增长,使覆盖率,检索粒度和语义等因素逐渐被考虑到搜索引擎中。基于对用户需求的把握,以及对搜索相关性、精准度等衡量搜索引擎最重要的技术指标的提升,2009年8月,在百度的年度技术盛会“百度世界”上,百度CEO李彦宏前瞻性地提出了“框计算”这一技术理念,以推动最优质的内容和服务,与用户需求实现精准匹配,从而引发业界强烈关注。

“框计算是百度自己跟自己赛跑,因为整个世界上没有跟我们做同样东西的人。”百度框计算技术相关负责人李盈这样评价。

在“框计算”理念指引下,百度在网民需求上改进了小小一步,而这,却是搜索引擎进步的一大步。

随着“框计算”的问世和逐步实现,早上起床,百度一下“今天限行号码”,网民可看到北京市公安交通管理局发布的一周机动车尾号限行贴心提示;开车去上班时,百度一下“实时路况”,选一条车辆畅通的道路以免迟到;到了公司准备工作,百度一下“豆瓣电台”,即可在搜索框内播放音乐,还可以选择华语、欧美、粤语等不同频道或者不同的音乐风格;一天工作结束,搜索一下晚上吃什么,百度一下“宫保鸡丁”,图文并茂的菜谱立即呈现在眼前,不会做饭的人也可以烹调出一顿美味菜肴;而担心怕胖的白领朋友还可以百度一下“宫保鸡丁的热量”,一个简单清晰的营养成分表可以告诉你这道菜中有多少热量、碳水化合物、蛋白质和维生素;吃过晚饭,休闲一下,搜索“天龙八部”,你可以下载《天龙八部2》游戏,也有不同版本的电影电视剧供你在线观看……在百度框计算的架构之下,网民任何对互联网的需求,几乎都可以通过搜素引擎得到满足。而每一次需求的满足,对百度而言都是“大海捞针”的任务,百度不仅要在200毫秒之内读取人脑,还要调用最优秀的资源,以最好的方式呈现在用户面前。

“目前已经有超过1400家产业合作伙伴对接我们的框计算开放平台。框计算所覆盖的搜索流量,根据本月最新的评估,在百度每天接受数十亿的用户查询中,框计算已经影响了57%的搜索结果,平均不到两次搜索就有一次包含框计算的结果。”李盈告诉记者。

“框”后面的技术战

框计算下,百度中文搜索已全面领先于世界。在“框计算”为网民勾勒出的美好前景背后,带给百度工程师们的,是一项项艰深的技术挑战。

李盈介绍,框计算背后有四个核心技术难点,包括“需求识别和解析”、“用户行为分析”、“检索技术”和“特效展现”,而这是搜索引擎最具技术难度的领域。

“需求识别和解析”的核心在于自然语言处理和语义识别,即机器要判断用户关键字搜索背后真实的需求。一个简单的天气查询需求,用户也许有94种不同的表达方式;无论用户搜索的是人民币兑美元还是英镑、日元,结果出现的都将是“汇率换算器”。机器如何识别千变万化的用户需求,是自然语言处理团队面临的最大挑战。据框计算语义分析团队负责人春光介绍,他们将用户需求与资源提供方建立联系,一方面分析用户行为习惯,一方面让机器模拟人类认知学习的过程,去理解用户表达的内涵。

识别用户需求之后,要通过检索来调用最精准的信息或资源也并不容易。对于一般的信息需求,传统大搜索技术中的“倒排检索”即可实现,但对于更复杂的需求,就要引入单一数据值检索、数据库检索、交互操作等特殊检索方式。例如用户搜索“计算器”时,并不想找到文本中包含“计算器”的链接,而是想直接进行计算,搜索“三个火念什么”时,是想找 “焱”字的读音。

检索完成后,框计算检索策略团队就要分析资源的质量、用户的历史行为习惯等复杂的影响因素。例如“天龙八部”这一需求,百度的搜索结果是把电影排前面,还是把游戏排前面,就要根据搜索用户的历史行为进行匹配;又如“2012”,以往它可以直接指向一趟南宁至张家界的火车,而《2012》电影出现之后,搜索结果排序就要发生相应的变化。

结果展现方面,框计算的展现团队要保证用户从点“百度一下”到他看到结果,一定不超过0.5秒。为了保证用户最顺畅的浏览,展现团队还会定期到全国各地进行用户行为调研,不断优化各种技术细节。

框计算的每个技术点背后都有一个专门的团队:包括测试、自动化运维、自然语言处理、排序、架构、产品、用户行为评估、展现等,这可以将责任落实到每一个具体环节上,也能够发挥“专注”的效力。此外,还有一个由各技术团队派出专人组成的技术决策团队,每个团队中的任何人有任何新的想法,是否适合做成产品,都可以拿到这里来讨论做决定。

框计算,正引领着互联网产业进行一次彻底的技术革命。 上一页1 2 下一页进入论坛>>


  推荐阅读

  网购行骗再出新招 压缩文件转走账号资金

网购行骗再出新招,犯罪分子利用网民信任支付宝的心理,开发了一种被包装成“压缩文件”的木马病毒,能自动替换支付宝页面,卖家点击“替身网站”后,卡里的现金就会被转走。今天,浙江省舟山市市民小黄在网购时就中>>>详细阅读


本文标题:探访百度:技术创新者的乐园

地址:http://www.lgo100.com/a/01/20111231/229916.html

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度