如何准确又通俗易懂地解释大数据及其应用价值

1楼：1901444059安眠

大数据说到底就是一个大字。到底有多大看拿维基百科上的例子来说，cern做的lhc（大型强子对撞机）周长27公里，里面一共有1.5亿个传感器，每秒钟读数达四千万次。

每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据，每秒钟也有100次碰撞需要记录。

如果在这些数据里面仅仅使用十万分之一，那么一年也要积累25 petabytes的数据，相当于25000个1tb的硬盘。

在这些数据里寻找希格斯玻色子的证据，是真正的大海捞针。这么大的数据你给我用excel算算看看不要说计算，根本**入内存都不可能。

再比如说，facebook据说拥有500亿以上的用户**。前些日子美国波士顿发生了**案。这些**里可能就有**案的线索。

那你给我找找看那张**上面有嫌犯看波士顿马拉松仅运动员就有两三万人，围观群众近五十万。在同一时间同一地点拍摄的**可能有几十万张，录像可能有几千小时。用人工一张一张看过来是不切实际的。

如果要考察**案前后几天的**那就更不现实了。还有的**根本就没有时间和地点信息。

再举一个例子。2009年华盛顿大学的研究人员使用15万张flickr上的**，重建了整个罗马城的3d模型。整个重建过程的计算使用了496个cpu核心，耗时8小时。

如果每张**按100kb计算，总数据量达到15gb。至少要达到这个级别的数据，才能称得上大数据。