随着大数据时代的到来,数据背后潜藏着巨大的商业机会不仅是大公司的专利,专注于数据挖掘和数据服务的创业公司更是不可小觑的新兴力量。
大数据是近两年来爆发的最热门IT概念之一。进入2012年,这个领域的风潮逐渐从专业IT人士和数据分析师,扩散到所有关注科技、互联网以及营销领域的人群中,甚至还包括政界人士。这种背景下,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉;而在公共卫生、经济预测等领域中,“大数据”的预见能力也已经崭露头角。
数据背后潜藏着巨大的商业机会。以前只有Google、微软这样的公司能做大数据的深挖,现在已经有越来越多的创业公司进入,不同公司在不同层面的数据分析和服务领域正创造出新的商业模式。这些专注于数据挖掘和数据服务的公司将成为电子商务乃至互联网第三方服务业中的新兴力量。
对于IT厂商来说,这是一个自身从传统IT产品跨越到商业智能的绝佳机会;而对有志于这个领域的新型创业者来说,更是一个不可错过的新兴机会。以2012年的趋势看,有六个模式值得关注:基于Hadoop的分析工具和产品、数据收集再加工服务、数据可视化产品、社交媒体数据分析工具与方案、基于数据挖掘的商业智能与情报咨询服务。
基于Hadoop的分析工具和产品
越来越多企业开始使用Hadoop平台处理大量数据。基于Hadoop做面向开发者的分析工具集,或者直接面向企业IT部门的分析管理工具,越来越成为一种流行趋势。
很多传统的数据库管理系统开始整合Hadoop服务,以便更好地为企业服务,如惠普、戴尔、甲骨文、IBM等知名公司都分别有针对自家需求的Hadoop服务。此外,云端上的Hadoop服务让大数据分析和处理更加方便快捷。同时这也证明,目前开源的Hadoop相关的技术分析也存在明显缺乏相应的技术、环境、数据安全以及可行性,而这正是新商机。
Cloudera、Hortonworks和MapR是目前最被看好的“Hadoop三驾马车”,它们属于那种“纯大数据”公司——核心业务围绕Hadoop发行版和Hadoop应用展开。由于大数据核心技术Hadoop属于免费的开源技术,用户无需付费就可下载使用,所以Hadoop创业公司的盈利模式与Oracle这样的传统数据库巨头大不相同,它们主要靠提供Hadoop增值产品(软件授权费)和增值服务挣钱。
目前,规模最大的Hadoop企业当属Cloudera。简单来说,Cloudera提供企业直接使用的企业版Hadoop,它开发了自己的工具包,让通过Hadoop搜索数据变得更加容易。同时,Cloudera还在努力建设更广泛的合作生态系统,从而让更多不同应用能使用Hadoop服务。
出身Facebook的创始人Jeff Hammerbacher在创办Cloudera前就使用Hadoop来分析社交用户行为,后来他将相应的技术转移到了Cloudera之中,目前Cloudera获得了7600万美元的融资。
Cloudera目前比较受关注的领域是医疗健康行业。简单来说,Cloudera采用大数据来改善大众的健康,而整个卫生保健行业也会因为受到大数据的驱动而催生更好的创新和服务。Hammerbacher指出,公司一个重要的客户就是Explorys Medical。他们通过采集病人数据,从而揭示疾病治疗、护理和药物测试等方面的见解。“我们要处理各种各样的医疗数据,比如说医生处方、图像、医生笔记等。消费者可以通过分享这些数据而推动医疗行业的变革。”
社交媒体数据
社交媒体所产生的海量非结构化数据一直以来都被作为大数据时代来临的标志。人们已经承认,随着像Twittter、Fcacebook等社交网络媒体的爆发,越来越多的商业活动和信息会受到他们的影响。目前,基于社交媒体的创业公司数不胜数,但从大数据角度进行商务挖掘和营销战略的,是最有前景的一类。毕竟,奥巴马利用大数据在美国大选中获胜的经典案例也是出自社交媒体分析领域。
另一方面Twitter开放其数据管道Firehose对于社交大数据分析来说无疑是一个晴天大利好。利用Twitter实时数据你几乎能进行各种数据分析,从奥斯卡电影人气到美国总统支持率,再到产品用户满意度分析,可谓一座不设防的数据大金矿。
但是掘金Twitter“快数据”也对分析系统提出了很高要求,DataSift是少数能吃下Twitter数据的顶级社会化分析工具之一。
DataSift是一个社交数据分析平台,向企业市场人员提供twitter、Facebook、Youtube、博客、甚至Wikipedia等社交媒体的数据可视化分析技术和服务,监测社交营销成效,并帮助品牌公司掌握突发新闻的舆论点,并制定有针对性的营销方案。它甚至创建了一个自己的互联网规模的关键词过滤系统,能够快速评估热门关键词。
另一个优势是DataSift从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。目前只有Gnip获得了同样的授权。举个简单的例子,DataSift可以根据Twitter的数据对两届奥运会进行横向对比,从中了解并分析公众对当时新闻和事件的反应。DataSift的前景逐渐明朗,现在客户数已经超过了10000个。DataSift目前已经拥有超过200个客户,其中不乏财富500强企业,DataSift 的收入主要来自向客户收取的每月200美元的服务费用。
数据收集在加工服务
数据的商业价值越来越被挖掘,但Hadoop并不能代表一切。一家著名的大数据公司ParAccel则颠覆了Hadoop的神话。ParAccel的CEO Chuck Berger指出,太多创业公司陷入了“大数据=非结构化数据的大数据=Hadoop”的逻辑。除了非结构化数据和半结构化数据以外,结构化数据也在快速增长。
ParAccel在数据领域也是久负名气的。它们最成功的案例之一是向美国执法机构提供数据分析能力——ParAccel通过了一些渠道获得不少犯罪数据,并对15000个有犯罪前科的人进行跟踪,从而向执法机构提供了参考性较高的犯罪预测。所以ParAccel也被成为“犯罪的预言者”。
今年登陆纳斯达克的“大数据概念股”Splunk也是这方面的佼佼者。由于Splunk是以MapReduce架构为基础的软件,在普通的硬件上安装Splunk 和Splunk转发器,就能构成大量字节,形成庞大的系统数据,这个量级可以达到每天数TB并逐渐向PB数量级扩大。而他们的软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接。公司们则像使用Google那样来搜索这些链接,用来实时分析消费者行为。
推荐阅读
威客的英文Witkey是The key of wisdom 的缩写,是指那些通过互联网把自己的智慧、知识、能力、经验转换成实际收益的人,他们在互联网上通过解决科学、技术、工作、生活、学习中的问题从而让知识、智慧、经验、技能体>>>详细阅读
本文标题:大数据创业样本
地址:http://www.lgo100.com/a/shuju/20121228/93440.html

网友点评
精彩导读
科技快报
品牌展示