您听说过大数据,对吧?我们可能都会回答“是”,大数据是我自认为已经理解的众多主题之一,但直到我尝试对它进行解释时,才认识到我需要深入了解它。如果您像我一样,那么这篇博客非常适合您。
问题:任何技术只在解决了一个(或多个)问题时才有用。那么大数据能解决哪些问题?
众所周知,数据无处不在,而且数量众多:不但有历史数据,还有社交媒体应用生成的新数据,来自 Web 应用的单击流数据,IoT 传感器数据,等等。数据量比以往任何时候都要多,生成数据的速度也变得越来越快,而且数据格式也是多种多样。
数据的业务价值在于我们能从数据中获得的含义。从所有这些数据中获取业务价值是一个重大问题。为什么?听我细细道来。
数据量:
人们的联系比以往更加紧密,这种相互联系催生出越来越多的数据源,导致了比以往更大(且不断增长)的数据量。数据量的增加要求计算能力也跟着不断增加,这样我们才能从数据中获取价值(含义)。传统计算方法无法处理目前积累的数据量!
数据速度:
由于互联化和网络技术进步,数据传入企业的速度和方向不断增加,所以数据传入速度超出了我们能理解它的速度[2]。数据传入速度越快,数据来源种类越多,我们就越难从数据中获取价值(含义)。传统计算方法无法应对以如今的速度传入的数据!
数据种类:
更多数据来源意味着不同格式的数据种类更多:从传统文档和数据库,到来自单击流、GPS 位置数据、社交媒体应用和 IoT 的半结构化和非结构化数据。不同的数据格式意味着从数据中获取价值(含义)变得更难,因为所有数据都必须以不同的方式来提取处理。传统计算方法无法处理所有这些不同种类的数据!
大数据不是什么像文档和数据库这样的传统数据。诚然,全球有无数的文档和数据库,尽管这些来源对大数据有所贡献,但它们本身不是大数据。如今收集的数据种类在不断变化,这推动着大数据的发展。有些数据是结构化数据,比如传统文档和数据库,但大部分数据是半结构化或非结构化数据。它们仅仅是“大量数据”的同义词大数据远不仅仅是“大量数据”。大量数据推动着大数据的发展,但单纯地将数据量与术语“大数据”关联起来是错误的。大数据的重点不在于数据
大数据的重点不在于数据[1],就像哲学的重点不在于措辞。大数据的重点在于能从数据中提取的价值,或者数据中包含的含义。不是一种技术-而是一个完整的技术生态系统。大数据是一种方式,它从多个不同数据源获取原始数据,存储数据以供分析程序使用,并使用原始数据通过全新方式从数据中获取价值(含义)。我们所讨论的是来自 CRM 和 Web 应用等传统业务应用的数据,与来自越来越多的传感器 (IoT) 以及 Facebook、Twitter 和 LinkedIn 等社交媒体的数据的组合。这意味着大数据不是某种单独的技术,而是一个由数据的获取、存储和应用技术所组成的紧密协调的生态系统,这样大数据才能发挥作用。一种趋势
大数据是为了应对如今的应用程序生成的各类海量数据而自然演进出现的方法。当今企业所接收数据的数量、速度和种类意味着,能够解决这些问题只能是一致并能持续演进的解决方案。换句话说,它是我们使用软件和创建数据来推动大数据发展的方式。除非我们改变使用软件(比如应用)、平台(比如社交媒体)和核心基础架构技术(比如互联网)的方式,否则大数据就会存在。举例说明:放弃 Snapchat?LinkedIn?Facebook?Twitter?不可能。
解决方案:
在我看来,大数据实际上有些用词不当。正如我前面提到的,大数据的重点不在于数据,就像哲学的重点不在于措辞。大数据的重点在于从数据中获取的含义。或许我们应将大数据称为“大含义”(老实说,这不容易记住,但对我而言更容易理解)。大数据如何解决数据量、速度和种类的问题?
数据量:
首先,数据需要存储在某处,因为没有地方来存储数据,就无法对数据进行分析。幸运的是,存储比以往更经济、更可靠,并且得益于云,也更容易获得。
速度:
我们首先需要应对数据传入的速度,24 x 7 x 365 全天候运行的自动化、智能系统有助于从数据中获取模式(含义),这是通过手动分析无法检测到的。机器学习技术的进步有助于解决速度问题。例如,可以训练人工神经网络来检测模式,应用该知识来进行预测,甚至可以动态适应不断变化的数据。
种类:
然后是数据传入的方向(来源)的种类。仅在我们能看到已经发生的事件(历史数据),并使用它们预测有用或有趣的未来趋势时,数据中的模式才有益。但是,随着数据源种类的不断增加,理解数据的含义的复杂性也在不断增加。人类无法应对这种负荷,这时就需要使用深度学习等技术。深度学习网络能确定如何理解数据的各种输入格式,将它们注入其他网络来理解数据的含义。
结束语:
术语“大数据”实际上是指“从数据中获取含义”,而“大”体现在数据比以往传入更快、来源更多、格式更多样化。我们或许应该称之为“大含义”。因为大数据的真正重点是数据中的价值(含义)[3],而不是数据本身。大数据不是一项技术,而是一个生态系统,其中相互协调的技巧和技术能从当今世界产生的海量数据中获取业务价值。