大数据时代海量数据带来的挑战比想象中更大。据美国市场研究公司IDC的最新研究显示,未来十年的全球数据存储量将增长50倍。自从2005年以来,企业在信息管理方面的投入已经增长了50%,达到4万亿美元,而今后十年,用于存储数据的全球服务器总量还将增长10倍。
如果说云计算大数据时代早期是一个“开源”的过程,那么进入中期以后“节流”势在必行。但针对“节流”需求的产品和服务一直以来也没有亮眼的突破。
今年,一支中国创业团队——Terark奇简软件凭借超高性能的数据压缩检索技术脱颖而出,获得全球顶尖孵化器Y Combinator的垂青,成为其冬季训练营中的一员。早在三年前,YC才第一次吸纳中国团队,得到这个每年通过率不足1%的顶尖孵化器肯定,也侧面印证了数据压缩技术的前景。
由来自Google、Yahoo、Baidu成员组成的Terark虽然只成立了一年左右时间,但已拥有可检索压缩技术等六项国内、国际专利,并发布了应用于云、数据库领域的存储引擎、数据库、多正则匹配引擎等产品。Terark曾为猎豹、新浪等早期客户提供服务,现为阿里云核心数据技术供应商。
从其对外公布的资料看,其核心数据库存储引擎产品TerarkDB在性能评测上,已经超越Facebook、Google、Berkeley同类产品,不但占用空间更小,更能检索更快,压缩率可达到同类产品5~10倍,QPS一般可以提高10倍以上,能够为大数据应用提高10倍性能的同时降低50%以上的成本。
发改委预测称2020年中国数据总量会超8000亿,成全球第一大数据中心。而对不断崛起的互联网公司来说,数据压缩不单意味着成本的节约,甚至可能成为限制其能否规模化发展、在激烈竞争中为最终用户提供优质服务的瓶颈。仅此就足可见数据压缩技术成为刚需的趋势。
Y Combinator作为成功孵化了Airbnb、dropbox、Reddit的“独角兽”孵化器,是否也正是看重了Terark的划时代技术与全球数据市场的巨大机会。技术壁垒、无限市场前景加上顶尖孵化器的培养,来自中国的Terark奇简软件或许就将成为下一个独角兽。