抱着对大数据无比敬仰的态度与渴望求知的姿态,终于将这本《大数据时代》拜读完。虽然品读完后收获颇丰,但到真要提笔写读书笔记的时候却不知如何说起,真心担忧我对这本书的理解和对大数据的认知无法真切地表达Viktor对大数据时代的研究,所以索性就写写自己对大数据的思考。
维克托•迈尔-舍恩伯格,大数据时代的预言家,开大数据系统研究之先河,是位孜孜不倦的数据科学家。他的著作《大数据时代》分别从大数据的概念与特征,价值与角色定位,风险与掌控三个方面讲述了大数据是如何成为生活、工作与思维的大变革。
我们过去在小数据时代,对数据的分析往往是基于随机抽样,通过对研究对象的随机采样进行分析,来预测研究对象的发展规律或判断研究对象的某些对人类有价值的特征,但这种预测或判断往往苍白无力,随着时间的推移而不断被推翻,因为随机抽样本身就无法做到真正的“随机”,里面无时无刻都包含着人的主观意识。而如今,在计算机存储与分布式计算能力愈加发达,我们已经步入大数据时代,我们开始变得有能力去收集、存储和分析所有的数据。无论是结构化数据还是越来越多的非结构化数据,我们都有能力将一切量化,并变成我们可用的数据。所以在大数据时代,我们不再追求随机样本,而开始分析全部数据,所以我理解的大数据的“大”就不在于其规模,而在于所得到的数据是不是研究对象的“全部”。
毋庸置疑,在分析全部数据时,我们就必然不再(也无法)强调分析的精确性,开始转而包容数据的混杂性。这在小数据时代简直是无法忍受的,小数据时代追求数据绝对的正确,这样基于数据之上的研究才可能具有可信度。但在大数据时代,我们要求全部数据,那么其中就难以避免错误的数据也会混进数据库,而且我们也没有必要避免,因为错误的数据的不良影响会随着数据量变大而慢慢变小,更重要的是,错误的数据也会带来一个全新的亮点。举个例子,在百度搜索中,我们有时会输入错误的词条却依旧能得到这样一条提醒“您要搜索的是不是***”,这就是因为百度搜索引擎中,收集了全部的数据(当然也就包括这些错误的搜索词条),搜索算法对全部数据进行分析,寻找到错误词条的搜索与某一类结果具有相关性,然后以相关性高低排序给用户返回用户本来想要得到的结果。正确与错误的数据往往没有明确的界定,根本在于从不同的的角度来理解事物之间的相关性。
在转变思维的最后一点,Viktor指出大数据时代追求的不是因果关系而是相关关系,知道“是什么”就够了,没必要知道“为什么”。但这一点我实在不敢苟同,我认为在中国,因果关系与相关关系同样重要,我们不仅要知道“是什么”更想知道“为什么”。相关性能让我们找到新的价值,而因果关系能让这种价值更容易被大众接受,毕竟我们的思维认知会倾向于去探索一个事物的因果由来,如果我们不知道一个事物发展的原因,我们会倾向于怀疑或保留意见。而从商业的角度讲,顾客的质疑态度对产品是致命的。