大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、使用、管理和处理能力。大数据的大小经常改变,截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。数据挖掘(data mining)则是在探讨用以解析大数据的方法。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
[描述来源:维基百科 URL:https://en.m.wikipedia.org/wiki/Big_data]
发展历史
由于大数据的特性,许多传统的软件并不适用。这即是Map Reduce被开发的初衷。Map Reduce是一个并行编程模型,受到功能语言的“Map”和“Reduce”的启发,适用于大数据处理。 它是Hadoop的核心,并执行数据处理和分析功能。 据EMC称,MapReduce模式基于增加更多计算机或资源,而不是增加单台计算机的功率或存储容量; 换句话说,缩小而不是放大。 MapReduce的基本思想是将任务分解为多个阶段并并行执行各个阶段,以减少完成任务所需的时间。
2014年,Wei Ding等人提出了HACE定理,它描述了大数据革命的特征,并从数据挖掘的角度提出了一个大数据处理模型。 这种数据驱动模型涉及信息源的需求驱动聚合,挖掘和分析,用户兴趣建模以及安全和隐私考虑。 他们分析了数据驱动模型以及大数据革命中的挑战性问题。同年,Saint John Walker发表文章探讨了大数据对我们生活和工作的影响,及其未来趋势。
2015年,Murtaza Haider整合了从业者和学者的定义,对大数据进行了综合描述。其主要关注用于大数据的分析方法, 并专注于与非结构化数据相关的分析,这些数据构成了95%的大数据。它强调需要开发适当且有效的分析方法,以便在非结构化文本,音频和视频格式中利用大量异构数据。
2016年,Nada Elgendy和Ahmed Elragala 提出了大数据,分析和决策(B-DAD)框架,该框架将大数据分析工具和方法纳入决策过程。该框架将不同的大数据存储,管理和处理工具,分析工具和方法以及可视化和评估工具映射到决策过程的不同阶段。因此,与大数据分析相关的变化反映在三个主要领域:大数据存储和架构,数据和分析处理,以及最终可用于知识发现和知情决策的大数据分析。
主要事件
年份 | 事件 | 相关论文/Reference |
2014 | Wei Ding等人提出了HACE定理 | Wu, X.; Zhu, X.; Wu, G.; Ding, W. (2014). Data mining with big data. IEEE Transactions on Knowledge and Data Engineering. 26(1): 97-107. |
2014 | Saint John Walker发表文章探讨了大数据对我们生活和工作的影响,及其未来趋势 | Walker, S. J. (2014). Big Data: A Revolution That Will Transform How We Live, Work, and Think. International Journal of Advertising. 33(1): 181-183. |
2015 | Murtaza Haider整合了从业者和学者的定义,对大数据进行了综合描述 | Gandomi, A.; Haider, M.; (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35(2): 137-144. |
2016 | Nada Elgendy和Ahmed Elragala 提出了大数据,分析和决策(B-DAD)框架 | Elgendy, N.; Elragala, A.(2016). Big Data Analytics in Support of the Decision Making Process. Procedia Computer Science. 100: 1071-1084. |
发展分析
瓶颈
随着大数据的发展,行业内的基础设施需要适应新的技术发展;另外,大数据时代的信息安全一向是一个敏感的问题。大数据技术与人工智能技术相辅相成,都需要海量数据作为支撑。因此,如何保证既能维护数据安全,严厉打击针对数据或者滥用数据而导致的违法犯罪行为,又可以使海量数据资源所蕴含的信息价值得到充分利用成为立法的关键。
未来发展方向
配套硬件设施、完善相关法律法规以及开发大数据算法,都不失为可行的发展方向。
Contributor: Yuanyuan Li