时至今日,“Big data”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。这种趋势已经让很多相信数据之力量的企业做出改变。恰逢此时,为了让更多的人了解和使用分析大数据,CSDN(微博)独家承办的大数据技术大会于今日在北京中旅大厦召开。本次大会汇集Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多热点话题。包括百度、淘宝、新浪等业界知名专家与参会者齐聚一堂,共同探讨大数据浪潮下的行业应对法则以及大数据时代的抉择。
传统的关系数据库在应付web2.0网站网站时暴露了很多难以克服的问题:web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,数据库并发负载非常高,往往要达到每秒上万次读写请求。对于关系数据库来说,在如此海量的信息中进行SQL查询,效率是极其低下乃至不可忍受的。
在最后的沙龙环节中MongoDB中文社区创始人程显峰、淘宝核心系统存储系统研发专家杨志丰、新浪云计算高级技术经理丛磊、139说客架构师李祎、ymall.com技术总监巨建华就对如何理性考量NoSQL、NoSQL基准测试要点、NoSQL和云计算整合趋势、NoSQL和分布式计算的结合等问题展开了热烈讨论。
以下为文字实录
主持人:最后环节是我们圆桌讨论,我们也请五位嘉宾上台。首先邀请圆桌讨论主持人MongoDB中文社区创始人程显峰,杨志丰先生,丛磊,139的李祎,以及巨建华先生,我们交流主题大概是以围绕NoSQL这一块。
主持人程显峰:我们讨论了一天大数据的问题,到晚上我们专门拿NoSQL单独作为一个话题进行讨论,大家可以看到在座四位嘉宾,其中有三个人都有自己的NoSQL。我想第一个问题,因为有很多人都在做NoSQL的选型,如果不用你们的NoSQL,你们推荐大家用什么样的NoSQL,怎么去选NoSQL,怎么根据自己的业务去选择合适的NoSQL?当然不可以推荐自己的。
丛磊:我关注NoSQL还是比较多的,我觉得MongoDB,另外对于选型来讲首先看需求,可靠性到底要求怎么样,速度要求怎么样,这个东西要求准确判断然后再去进行选型。
李祎:我是来自139移动微博的李祎,现在是架构师。在我们系统里面用到关系型数据库是我们自己搭建的,就是拿来做微博熟悉用户推荐,以及和人有关人的计算。为什么我们选了自己一个东西,而没有用其他人,我们也是基于自己业务需求来做的,现在市场上NoSQL很多,我们就基于自己推荐业务需求,要做自己的一个数据库。市面现在图形数据库有一些,其实都开发的不是特别完善,基于我们现有的技术,和现有的一些开源软件和一个大的数据库。
杨志丰:我下午讲的时候已经提到,要看每一个特性,需求把很多都已经排除掉了。除此之外,大公司和小公司还不是很一样,很大公司在选的时候,除了你看到他的东西比别人多好之外,一旦出了问题有没有人帮你解决问题,这就是为什么很多大公司经常自己去做事情,我们现在都在用NoSQL,但是肯定有研发人员在里面,没有这方面的人才,可能你直接买一个,比如Oracle也有一个最新的解决方案,他给你更好的一个技术支持。
主持人程显峰:也就是我们在考察NoSQL的时候也要考虑SQL是否强大,你自己是否能够完全掌控这一部分,还是需要外面的支持?
杨志丰:这是一方面。
巨建华:我没有自己数据库,不像在座几位。但是我有一个建议,如果我们采用NoSQL的数据库,最好能够特别在产品中,正式产品中使用,我建议大家能够有机会都看看,如果不想做很深入研究,也得很清楚存储结构,甚至各种数据文件处理方式,我建议最好能看看源代码,跑不起来能够有一定修复能力,特别NoSQL很重要,如果做不到会带来很大风险,有可能某一天重要数据丢掉之后找不回来,如果没有很好的备份方案。
现在比较好,我现在目前使用MongoDB本身比较完善,可以放心使用。
主持人程显峰:今天数据主题也是大数据,数据也有几个阶段,采集,处理,存储,呈现。我们发现之后存储跟处理部分结合越来越紧密了,比如Hadoop有存储专用的一块东西,而像MapReduce传统存储也有一定框架,大家对存储和处理结合越来越紧密,大家有自己的或者使用别人的,这个是不是方便,大家可以谈一下。
丛磊:我觉得是这样,首先这个数据处理可能有两种需求,一种是用户大规模海量数据综合处理,还有用户在对于他自己数据像一个存储过程一样,对于单条,或者几条数据相对之间小规模处理,SAE这两块都有,其实NoSQL是具有天生亲近感。还有用户小规模数据,想插入数据的时候,取出数据的时候做什么计算,最好的载体就是GS,MongoDB是这么做的,GS是最好的一种通用语言,任何一个人写起GS来不会有太多问题,将来SAE,肯定会支持用户通过GS来实现存储互通的功能。
李祎:其实我们这边用自己图形数据库原先也考虑过用Hadoop的方式,但是发现两个问题,一个是Hadoop数据结构和我们需要的关系型数据库,和我们需要对应关系那种不是特别匹配,我们要通过好几道手才能取出来进行计算,这样不太合适。另外我们也接触了,我们BI部门原来也用过Hadoop的方式,发现其实有一个问题,这个问题是一个故事,有一次他们机器宕机了Hadoop物理存储恢复不了,搞了半天,发现后来我们面临选型的问题,我就觉得我们无法真正去控制这个东西,就像刚才杨志丰所说的一样,无法真正控制这个东西的时候,最好还是选择一个最后能做最简单的东西进行控制,这也是我们为什么自己做图形数据库的一个原因。
杨志丰:这个问题我刚才讲的时候已经提到的,我们OceanBase里面已经有了,需要进行嵌入,我们是要把计算移到数据上去,因为今天主题就是大数据,数据他大了,移动一下,从这个集群移到那边为了做计算再移过来,这个代价太大了,所以我们要把他和数据放到一起,这就是一致性的问题。另外我有一个趋势。
巨建华:我选择MongoDB受整个脚本限制,在整个单模式下跑,整个集群在同一时间只能跑一个,在这上面跑比较受到局限。我结合这种模式,运动量比较大,经过相互拆分进行并行,说比较弱,能够满足业务需求,所以在这个过程中暂时还是能够通过自己写的分布式集成框架来解决问题。我看这方面很多跟刚才淘宝他们讲的是一样,很多时候根据实时业务场景来采取利用什么样的方法来解决问题。当然说如果真正,假设我们需要做索引,可能就需要结合形式来进行解决,而不是采用一种通用框架解决,很多时候通用框架必然比较低。
推荐阅读
[ 针对新增资金如何投资的问题,中投公司副总经理汪建熙表示中投会根据既定的投资战略和市场的变化进行投资;短期来看会有积极的偏离,但一定是做长期的配置,不会在短期内有大幅度的变化 ] 全国政协委员、中投公司副>>>详细阅读
本文标题:圆桌沙龙:NoSQL技术实战
地址:http://www.lgo100.com/a/kandian/20120305/36928.html

网友点评
精彩导读
科技快报
品牌展示