■本报记者 沈湫莎
大数据的神奇令人惊叹,不过要面对超爆发式的数据增长,企业往往要支付超高额的数据存储费用,因此大数据产业仅仅集中在超大型、垄断型企业,不过在日前举行的2015上海大数据产业高端峰会上,肯睿中国区副总裁苗凯翔介绍了一种名为Hadoop的技术,通过重塑数据构架,它在一定程度上解决了大数据发展的成本之痛。而今,全球大数据生态圈中,Hadoop已经成为最为核心的技术。
存储成本阻碍大数据发展
数据量的快速增长,是IT业面临的重大挑战。统计显示,人类迄今为止存储的数据中,90%以上是最近两年新产生的,这种数据爆炸的趋势还将延续。“到2020年,互联网设备的总数将达到500亿部,数据总量将达到40ZB(1ZB=十万亿亿字节)。”苗凯翔说,这大约是人类现在需要处理信息量的10到20倍,换句话说,年均增长超过40%。
数据量快速增长,要求数据处理能力同步提高,但多数企业却因为预算不足而难以招架。以美国主要的四家银行为例,它们每年新增的数据量大致是40PB(1PB=100万GB),仅仅为存储这些数据,每年就必须增加3.2亿美元的投入。
“钱是主要问题。”苗凯翔说。事实上,为了应对40%的数据增速,企业在IT系统方面的预算必须以4%的年率增长,但实际上这块预算的增速很难超过1%。由于投入不足,银行不得不放慢推进大数据业务的速度,比如推广手机银行。
开源模式推动大数据发展
奥巴马政府把大数据比作“未来的新石油”,不过静静流淌的石油并没有价值,只有经过勘探、钻井、提炼、加工成石化产品,其商业价值才能体现。当下,关于大数据说得多做得少,正是由于开采工具不足。苗凯翔认为,要改变这一现象,必须从更深层次理解数据在当今时代意味着什么。
在过去,数据主要驻留在结构化的交易数据库里,结构是固定的,比如企业数据仓库用来产生运营报告;存储系统用来保留数据的有效和安全;搜索系统通过Web搜索引擎来寻找和探索信息……这都是一个个“地窖”,当需要计算时,就将“地窖”中的一部分数据送到计算机处。
不过这种方式只能进行少量、低频率的计算,想要应对当今的数据量、数据多样性和数据生成速度,旧的数据构架显然难以为继。“因为数据的属性已经改变,所以数据构架也一定要变。”苗凯翔说。
10年前,大数据概念还未问世,雅虎公司的技术人员就注意到了这个问题,并由此开发出基于互联网架构的数据处理技术,并以他3岁儿子的棕黄色大象玩具之名将其命名为Hadoop,如今这一开源技术已经成为大数据生态圈的核心。
“它是开源的,能够更高效地处理信息,而且支持标准化存储设备的无限扩容。”苗凯翔说。以国有四大银行为例,一个由53台PC机组成的大数据平台能够支持并发用户30万个,而此前的数量是300个。这样一套系统的使用成本不到原来的1/3。
小微企业为大数据开发注入新活力
Hadoop平台孕育了多家大数据商业开放公司,论规模和影响力,肯睿是其佼佼者,这家公司在全球已经拥有1300家合作伙伴,市值超过50亿美元。去年9月,肯睿(上海)软件有限公司完成注册,目前已有30多名员工。
一直以来,受限于高昂的服务器成本,大数据产业仅仅集中在电信、能源、证券、烟草等超大型、垄断型企业,利用开源性的Hadoop平台,就是淘宝店主也能享受到大数据带来的好处。“我们有免费版本,只要经过简单培训,并愿意共享你的数据,就能使用这个平台。”苗凯翔说。
小微企业的加入或许能为目前发展有些缓慢的大数据注入新的活力。因为根据以往全球的经验来看,企业规模稍大一些,就不太愿意分享自己的数据,而小企业主往往更愿意走出这一步。
友情链接 |
国家互联网信息办公室 | 上海静安 | 上海秀群 |