腾讯研究院刘海龙:当模式识别遇上云计算

作者: 来源:未知 2012-03-05 15:30:39 阅读 我要评论 直达商品

手写识别技术

腾讯研究院的手写识别技术实际上已经在去年很多产品上都得到了应用,主要是QQ输入法上的手写功能,包括PC端的QQ输入法还有几个主要的手机平台的QQ手机输入法,Android和iPhone手机的QQ输入法。现在识别率可以做到工整字符99%,连笔字符95%以上。为了提高输入效率,云手写和QQ输入法词库后台联通,识别出来的字可以联想,提高速度。我们还有工作马上要做,把中文和英文连续手写识别作为云服务提供出来。实际上中文和英文识别引擎开发完毕,将来找一个合适产品形态把它提供出来。

在语音识别方面从它的训练过程来看,首先要从训练语音中训练出学模型。解码时候需要声学模型、语言模型以及用户词典共同作用把测试语音解码出来。这个语音模型存储量很大,我们采取都是三元的文法,存储量可以达到上G的规模。这样的规模不可能是在终端来做,必须要在云端做。语音识别有一个特点,对CPU消耗很厉害。云语音服务器一台服务器可以处理几个并发,所以说对CPU占用很大。

腾讯研究院的QQ云语音

我们这个腾讯研究院的QQ云语音,支持中英文混输。识别率自己做了测试,聊天常用语的单字识别率可达80%,我们针对QQ聊天应用,训练的时候很多采用聊天的语调,毕竟跟真实的口语语调有差别。上线之后,我们可以通过云服务可以获取真实语调,训练我们语音模型,可以使性能得到优化。越来越多用户使用我们服务,包括说话说的快、说的慢的人,有口音的用户来用,可以对我们的声音模型有一定优化,可以有持续性的改善。QQ云语音支持桌面端和移动端的语音输入,在手机的QQ输入法上也会支持语音输入功能。

语音识别还有其他的应用,语音输入、语音搜索、语音导航、语音命令控制等等。对模型进行控制或者对语音识别结果针对性后处理,可以让识别率变得更加准确,使得语音识别服务变得更加得心应手。

人脸识别

刚才介绍了云手写和云语音,现在介绍人脸识别情况,人脸识别有一个技术难点,光照、姿态、表情变化对人脸识别影响很大。我们说人脸识别是一个困难的模式识别问题。不同人之间的人脸结构差异并不明显,在这种情况下识别变得比较困难。另外实际应用中往往用户只能提供一张人脸作为识别模板,这样为了提高人脸识别的准确率,我们需要有一个很充分规模这么一个离线人脸数据库,以便学习人脸模式的类内变化,这个离线很难建立,成本比较高。通过人脸识别云服务恰恰就能收集到一个人在很多条件下的样本,这样可以使得识别算法性能随着运营不断改进。

1.人脸识别的原理框图,基本上有三个步骤

1)离线训练阶段,用离线人脸数据库得到特征变换矩阵,我们可以在线登录用户人脸图象,用户给一张样本作为它的模板,可就要会生成用户人脸模板库存储起来。

2)实施阶段我们有待测人脸图象,我们在模板库中进行匹配,看看哪个相似度最大。

3)如果人脸验证应用,用户宣称他是某一个已经登录过的人,一对一进行比对,超过一定分数就可以认为他通过人脸认证,达不到认为他不是这个人。

2.人脸识别在互联网上的应用 大致分为三种基本类型

1)人脸识别相似度评价,比较两张脸是像不像,有多像,打个分数。这个多见一些趣味性应用。比如用户上传一张照片,看看他跟哪个明星长的比较像,或者是夫妻两个照片都有了,看一下夫妻像指数有多高。这是大家熟悉Facebook应用,自动魏上传图片中人脸加朋友标签,这是在他的朋友圈子里进行人脸识别。只要他之前标定过他的朋友,当这个朋友再次上传这个图片中有他朋友的时候,通过人脸识别就能自动把这个朋友标定出来。

2)一种应用像谷歌Picasa相册这种应用。主要是将大量图片按照人脸批量自动整理,按照人脸之间相似度,一开始是对批量人脸进行聚类,经过用户确认可以把这些聚类中心合并起来,把错误人脸去掉,很快图象可以按照人头来整理起来,可以自动进行索引。

3)我们现在看一下我们现在两个Demo,一个是人脸认证Demo,一个是人脸识别的Demo。这个人脸认证Demo,用户要选中他自己,连续三帧检测都是自己,他就接受了。如果选张别人,肯定是通不过的。识别Demo大家可以看一线,人脸库里面存了三千多用户图片,其中只有一张正面人脸作为图象。我们拿一些测试人脸测试,测试图片质量不错的情况下测试还是不错的。

除了刚才介绍手写、语音识别还有人脸识别的云服务之外,我们腾讯研究院会进一步扩展模式识别的应用范围。一般的图象识别,谷歌的Goggles应用,拿手机摄象头拍摄一个书的平面,拍摄一个商标,一个景色,可以在云端找到匹配这个图片,这也是我们将来想发展的方向。

今天我想介绍的内容主要就是这些,介绍性的内容多了一些,没有太深入技术问题,欢迎大家提问,如果回头大家有什么技术方面问题可以发邮件给我。

谢谢大家!

提问:将来有没有打算把那个服务作成一开放平台,其他的人也可以来调用你这个。

刘海龙:这个问题提的不错,工作只能一步一步来做,目前的设想首先服务于腾讯公司内部一些产品。因为我们现在是刚刚起步,内部产品还有很多业务有很多,先把这块做好,然后再考虑更向外开放或者是更大的一些事情,还是一步一步来。

提问:如何保证数据的安全性?

刘海龙:目前为止我们还没有看到非常完美的解决方案,只能是说一个是在数据传输过程中要保证它的安全性,要加密。另外在你的云端,这个云服务的提供者你要有制度上建设,要有制度来保证数据安全性。

提问:刚才听到讲座里面说我们语音识别这块一台服务器同时并发几个链接,像我们腾讯这么大用户量这个有没有可执行性?如果部署起来的话。

刘海龙:来用服务的人到底有多少,另外云服务的特点要增加部署服务器其实很快的,你可以按需扩展你的计算资源,可以相应来扩展。

提问:谷歌本身有语音识别,放在用户端,他识别性能没有这么好。

刘海龙:对,识别性能差一些,语音模型不可能用的很复杂。

主持人刘江:之前有一期讲的跟这个很相关的话题,就是脑电波就是神念科技,有一个副总演示,你带着他的东西,你可以指挥那个球,用脑电波指挥那个球,怎么过关之类的。很经典,日本有一个产品就是兔耳朵,小姑娘带的那个,看到帅哥,耳朵就竖起来了。

提问:我想问一下路香菊、刘海龙,这块做特征提取主要用什么东西做的?比如刚才说的脸部识别,情绪稍微有一点变化,提取出来的特征会有变化吗?


  推荐阅读

  许鞍华: “人到老年可以是另外一种状态”

第一财经日报:《桃姐》乍一看很像纪录片,余力为的摄影也很朴实无华。采用这样的方式,是不是为了凸显情感的真实性? 许鞍华:主要是因为可以拍得很快,而且便于抓拍到养老院当时的状况和其他老人的反应。剧组拍摄的>>>详细阅读


本文标题:腾讯研究院刘海龙:当模式识别遇上云计算

地址:http://www.lgo100.com/a/kandian/20120305/36909.html

乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。

网友点评
我的评论: 人参与评论
验证码: 匿名回答
网友评论(点击查看更多条评论)
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
自媒体专栏

评论

热度