第二大数据的数据来源
2011年麦肯锡发布了一份题为“BigData:TheNextFrontierforInnovation,CompetitionandProductivity”的报告,里面提到美国拥有1000人以上规模的公司平均存储了超过200T的数据,如果对数据进行价值挖掘将激发很多行业及公司的潜力,这一报告标志了商业领域大数据热潮的开端,也使企业服务软件成为了大数据最初的数据源。
随着存储及计算能力的加强和国内大数据产业的兴起,部分从业者在看到行业巨大前景的同时也意识到了国内数据资源的缺乏,由于民生、电信、交通、电力等具有很高价值的数据都掌握在政府及大型国企中并不开放,如何获取数据源成为了比如何提升数据处理方法更大的问题。
目前国内能够进行脱敏并使用的市场数据的来源主要还是集中在手机、PC等单一渠道与场景中,TalkingData、友盟,以及艾瑞、易观等数据分析及咨询机构很大程度上依赖着这些资源,却也被这些资源所局限。而由于政府数据的敏感性,仅有少数机构能够对接政府数据资源。因此预计随着对数据需求的日益强烈以及数据资源价值被渐渐接受,政府数据资源将会成为数据源的重要组成部分。
而更大范围的数据采集工作将会依托于物联网领域。我们在《即将被281亿个传感器包围,你却还没弄懂物联网技术?》中曾讲到,预计2020年我们将会被281亿个传感器包围,本月27号中国联通也宣布截至目前其物联网联通数量已超过5000万个。可以预见的是,在消费者视角内,未来衣食住行等方方面面都将会配备物联网设备实时采集数据,而采集来的数据将会让商家提供更优质、甚至是定制化的服务,形成双赢。而在工业领域,物联网所采集的大数据也将发挥很大的作用,形成良性循环。
同样随着数据样本与采集渠道的丰富,针对数据采集过程、数据转换与传送和数据存储环节的服务也已经有了很大的发展,Informatica及Mulesoft就是多渠道数据的集成与数据治理行业中的代表性企业。