数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。
数据可视化既是一门艺术又是一门科学。它被认为是描述性统计的一个分支,但也被认为是一个理论发展工具。互联网活动产生的数据量和环境中传感器数量的大大增加,声称了被称为“大数据”或物联网的概念。处理、分析和沟通这些数据对数据可视化提出了各种分析的挑战。数据科学和实践者称数据科学家可以帮助解决这一挑战。
数据可视化是指通过将数据或信息编码为图形中的可视对象(例如,点、线或条)来传达数据或信息的技术。目标是清晰有效地向用户传达信息。它是数据分析或数据科学中的一个步骤。根据 Friedman(2008)的说法,“数据可视化的主要目标是通过图形手段清晰有效地传递信息。这并不意味着数据可视化需要功能,也需要使其看起来很漂亮。为了有效地传达理念,美学形式和功能需要并驾齐驱,通过以更直观的方式传达其关键方面,提供对相当稀疏和复杂的数据集的洞察力。然而,设计者往往无法在形式和功能之间取得平衡,除了华丽的数据可视化,也要达到数据可视化的主要目的——交流信息。
事实上, Fernanda Viegas 和 Martin M. Wattenberg认为数据可视化不仅仅是清楚的交流,也要模拟观看者的投入和注意力。 数据可视化包含了 information graphics, information visualization, scientific visualization, exploratory data analysis 和 statistical graphics等技术。在21世纪,数据可视化已经成为研究、教学和开发的一个活跃领域。据Post 等报道(2002)科学与信息可视化应该是相互结合的。
下面是几个数据展示图的示例:
Name | Visual Dimensions | Example Usages | |
bar | length/count category (color) | 价值的比较,例如一个时期内几个人或企业的销售业绩。 对于随时间测量的单个变量(趋势),bar图是优选的。 | |
Histogram | bin limits count/length (color) | 确定特定范围(箱子)内年度股票市场百分比回报的频率,例如0-10%,11-20%等。条形的高度代表观察数量(年),返回%在1范围内。 | |
scatter plot | x position y position (symbol/glyph) (color) (size) | 确定多个时间段的失业(x)和通货膨胀(y)之间的关系(例如,相关性)。 | |
scatter plot (3d) | position x position y position z color | 3个变量之间的关系 | |
network | nodes size nodes color ties thickness ties color spatialization | 在网络中查找群集(例如,将Facebook好友分组到不同的群集中)。 | |
streamgraph | width color time (flow) | 按位置/文件类型的磁盘空间 | |
treemap | size color | ||
gantt chart | color time (flow) | 规划/调度的磁盘空间,例如, 在项目规划中 | |
heat map | row column cluster color | 分析风险,绿色,黄色和红色分别代表低,中,高风险。 |
Data presentation architecture--数据展示的架构
数据呈现架构 (DPA) 是寻求以最佳地传达含义和适当知识的方式识别、定位、操作、格式化和呈现数据的技术的集合。
2. 发展历史
描述
数据可视化没有全面的“历史”。没有哪个能跨越视觉思维和视觉数据表现的整个发展,不同学科都有不同的贡献。Michael Friendly和York University的Daniel J Denis进行的一个项目,试图提供全面的可视化历史。但是,与一般理念相反,数据可视化不是一个现代的发展。自更BC以来,恒星数据或恒星位置等信息可视化在洞穴壁上(如法国南部拉斯科斯洞穴中发现的)也可以被视为可视化的定量信息。
追溯到公元前1160年,就有文献记载的数据可视化,他们利用Turin Papyrus Map来实现的,该图准确地说明了地质资源的分布,并提供了有关这些资源的采石地理信息。这样的地图可以归类为专题制图(Thematic Cartography),它是一种通过设计成显示特定日期的地理图来呈现和传播特定数据和信息的数据可视化。最早记录的数据可视化形式是来自不同文化、表意文字和象形文字的各种主题地图,它们提供并允许对所示信息的解释。例如,Mycenae的Linear B tablets提供了关于地中海晚青铜时代贸易的信息的可视化。坐标的概念被古埃及的勘测者用来规划城镇,地球和天上的位置至少是在公元前200年通过类似于纬度和经度的东西来定位,而克劳迪斯·托勒密(Claudius Ptolemy)则把球状地球投影成纬度和经度[c.85-c.165],亚历山大市在十四世纪之前都将它作为参考标准。
纸和羊皮纸的发明使得整个历史的可视化得以进一步发展。图实在十世纪或十一世纪产生的,用来说明修道院教科书的附录中的行星运动。
在十六世纪,精确的观察和物理量的测量技术和仪器,以及地理和天体位置是发达的(例如,“wall quadrant墙象限”由Tycho Brahe[1546– 1601 ] ,是由覆盖在他的天文台的一整面墙的构造。特别重要的是三角测量的发展和其他方法来精确地确定映射位置。
法国哲学家和数学家任René Descartes 和 Pierre de Fermat 开发的解析几何和二维坐标系统,这是影响了显示和计算值的非常实用的方法。Fermat 和 Blaise Pascal关于统计和概率理论的工作为我们现在概念化的数据奠定了基础。根据交互设计基础(Interaction Design Foundation),这些发展帮助William Playfair发现了定量图形通信的潜力。
在第二十世纪下半叶,Jacques Bertin用定量的图形来表示信息“直观、清晰、准确、高效”的。
John Tukey和Edward Tufte推动了数据可视化的发展;Tufte的"The Visual Display of Quantitative Information" 定义了数据可视化技术。随着科学技术的发展是数据可视化的进展;从手工绘制的可视化和演变成更多的技术应用–包括交互设计导致软件的可视化。
像SAS,SOFA,R,Minitab的工具等,允许在统计领域更好的数据可视化。其他数据可视化应用程序(对于个人来说更加集中和独特)、编程语言(如D3、Python和JavaScript)有助于使定量数据的可视化成为可能。私立学校还开发了满足学习数据可视化和相关编程库需求的程序,包括像“Data Incubator 这样的免费程序或像“General Assembly”这样的付费程序。
主要事件
年份 | 事件 | 相关论文 |
1999 | Vesanto, J.提出自组织映射(SOM)是多维可视化的有效工具 | Vesanto, J. (1999). SOM-based data visualization methods. Intelligent data analysis, 3(2), 111-126. |
2000 | Heckerman, D., Chickering, D. M., Meek, C., Rounthwaite, R., & Kadie, C.用于推理、协同过滤和数据可视化的依赖网络 | Heckerman, D., Chickering, D. M., Meek, C., Rounthwaite, R., & Kadie, C. (2000). Dependency networks for inference, collaborative filtering, and data visualization. Journal of Machine Learning Research, 1(Oct), 49-75. |
2004 | Schroeder, W. J., Lorensen, B., & Martin, K. 公布可视化工具包:面向对象的三维图形方法。 | Schroeder, W. J., Lorensen, B., & Martin, K. (2004). The visualization toolkit: an object-oriented approach to 3D graphics. Kitware. |
2013 | Thorvaldsdóttir, H., Robinson, J. T., & Mesirov, J. P.提出Integrative Genomics Viewer (IGV) | Thorvaldsdóttir, H., Robinson, J. T., & Mesirov, J. P. (2013). Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration. Briefings in bioinformatics, 14(2), 178-192. |
3. 发展分析
瓶颈
两个不同的用户面对相同的数据可视化可能不一定得出相同的结论,这取决于他们以前的经验和特定的专业水平。这给企业带来了几个问题。一方面,某些用户可能错误地得出导致公司损失的结论,另一方面,在高度监管的行业中,用户的错误结论实际上可能使公司处于危险之中。
【来源:web, URL: http://lib.csdn.net/article/aimachinelearning/50797 】
未来发展方向
图形非常适合快速传达简单的想法 - 但是可惜的是,它们还不够。 如果可以用象形图代替单词,那么它们很久以前就已存在。 为了表达复杂的情况,需要句子和短语以及足以表达其推理过程的系统。 重要的是,语言也确保最终用户真正理解。 图形可以让用户认为他们正在做出数据驱动的决策,或者认为他们完全理解数据,而实际上他们只是看到了一张图片,但他们并不知道完整的故事。
数据可视化技术和数据挖掘有紧密的联系。很多可视化技术中的数据挖掘和分析功能难以运动数据挖掘的公式和算法。数据挖掘和数据分析工具本身并不包含可视化技术。无论是在算法还是技术上,数据可视化发展也是值得人们期待的。
【来源:web, URL:http://lib.csdn.net/article/aimachinelearning/50797 】
Contributor: Ruiying Cai