大数据的“4V”特征很有名。但我一直对这个提法感觉莫名其妙:这样总结的目的是什么?
人做事都是有目的的,目的往往在事情之外。比如:买锄头是为了种地,种地是为了有饭吃,吃饭是为了享受和生活。说话也是这样,重在话外的潜台词。比如:一个人说“今天吃过早饭了”,表达的意思可能是:“没吃过中饭”、“不再吃了”、“可以开始干活了”.......如果说话没有目的,只是喃喃自语,是不是会让人觉得很奇怪啊?
“4V”特征就是这样让人觉得有点莫名其妙。除了数据量大(Volume)这个特征之外,其他特征的目的是什么呢?为什么这么表达?为什么不是其他特征?比如,为什么“快速”(Velocity)可以作为特点呢?小数据产生的速度就不快吗?低价值密度低(Value)则更加莫名其妙:强调低价值密度低的目的是什么呢?鼓励人们大胆收集垃圾数据吗?
“种类多”(Variety)或许是个好的特征,指的是要处理多媒体、文章等非结构化和半结构化的信息。在我看来,把数据“结构化”,主要是为了便于计算机处理;而“非结构化、半结构化数据”主要是便于人类处理。那么,如果把这个特征的内涵表述为:“计算机自动处理人处理的信息”不是更清晰吗?
4V 的定义有点莫名其妙,却让大数据火了一把:人们开始把图像、音频记录下来、把高频数据记录下来,进而产生了软硬件升级的需求。供货商受益了,但用户又获得了什么价值呢? 我有时会想:4V特征是不是IT公司提出来、起到促销的目的?
在我看来,提炼大数据的特征,应该以创造价值为目的;数据创造价值的途径,是提升人或机器的感知能力;大数据管理的目的,是让这条途径更加顺畅、涉及的领域和业务更加广泛、自动化的程度跟高。这样,逐步把人类带入智能社会。
要提高感知能力,数据管理就要为共享数据、感知信息、发现知识服务。随着技术的进步,要推动从人工处理为主逐步走向计算机自动处理。其中,如果计算机能够自动学会那些难以通过编码表述的“默会知识”,机器就可以代替人类从事人类不太喜欢做的事情(如开车、环卫工作),从而把人工智能推向新时代。
在这个过程中,计算机学习的难点或许不是“学会”,而是“学对”、“学好”。在大数据的背景下,有个更加完整广泛的案例,我们才有更好的条件判断什么是对的、什么是不对的。这才是一个根本性的变化。而大数据的基础工作,就是要为这些目的服务的。我总结了以下几个特点,是我的一点初步想法:
1、完整性。应该记录尽可能完整的对象和过程,而不像过去那样,为了节省数据量尽量简化。这样,一旦发生了问题,都有据可查,不会因为信息丢失发生误判、也便于促进自动学习。在高端的工业场景下,完整性的意义特别大。要实现完整性,人类参与所导致的“断点”就要尽量地减少甚至杜绝。
2、全体性。这就是有些书上说的“样本=全体”(或者说样本接近全体)。这个特征不仅避免抽样的问题,还会带来更重要的价值:任何一个个体,都可以在样本中找到类似的成功案例去模仿。这对机器学习、人工智能的价值巨大。在我看来,有些人提出所谓的“相关而不是因果”,本质上就是鼓励去模仿成功的对象,而不必去深入研究“为什么”。
3、全息性。可以理解为4V中的多样性,目的是让机器处理人观察、处理信息的方式,为机器代替人的一些工作奠定基础,如无人驾驶。
这些想法的来源,是我研究智能制造的过程。换句话说,我希望大数据是为推动智能制造和人工智能服务的。