1楼:1901444059安眠
大数据说到底就是一个大字。到底有多大看拿维基百科上的例子来说,cern做的lhc(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。
每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。
如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1tb的硬盘。
在这些数据里寻找希格斯玻色子的证据,是真正的大海捞针。这么大的数据你给我用excel算算看看不要说计算,根本**入内存都不可能。
再比如说,facebook据说拥有500亿以上的用户**。前些日子美国波士顿发生了**案。这些**里可能就有**案的线索。
那你给我找找看那张**上面有嫌犯看波士顿马拉松仅运动员就有两三万人,围观群众近五十万。在同一时间同一地点拍摄的**可能有几十万张,录像可能有几千小时。用人工一张一张看过来是不切实际的。
如果要考察**案前后几天的**那就更不现实了。还有的**根本就没有时间和地点信息。
再举一个例子。2009年华盛顿大学的研究人员使用15万张flickr上的**,重建了整个罗马城的3d模型。整个重建过程的计算使用了496个cpu核心,耗时8小时。
如果每张**按100kb计算,总数据量达到15gb。至少要达到这个级别的数据,才能称得上大数据。