目录:
一、 什么是可视化?
在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。
它将大量的数据、信息和知识转化为一种人类的视觉形式(图形、符号、颜色、纹理等),直观、形象地表现、解释、分析、模拟、发现或揭示隐藏在数据内部的特征和规律,提高人类对事物的观察、记忆和理解能力及整体概念的形成。广义上的数据可视化包括科学可视化、信息可视化和知识可视化:
(1) 科学可视化是最早被提出的,其主要研究如何从三维数据体中提取有用的信息并且显示出,如建筑学、气象学、医学或生物学的各种系统,强调的是体积,表面,照明源的真实渲染。目的是以图形方式说明科学数据,使科学家能够从中理解,说明和收集洞察力。
(2) 信息可视化研究的是抽象的、非结构化数据的交互式视觉表示,我们熟悉的柱状图、趋势图、流程图、树状图等都属于信息可视化。其与与科学可视化的不同在于,科学可视化处理的数据具有天然几何结构(如磁感线、流体分布等),信息可视化处理的数据具有抽象数据结构(如文本、图表、软件、复杂系统等)。
(3) 知识可视化是在科学可视化和信息可视化基础上发展起来的新兴研究领域,指对于数据和知识进行可视化方式的展示,包括图标可视化、散点可视化、图谱可视化、地图可视化等。除了传达事实信息之外,知识可视化的目标还在于传输人类的知识,并帮助他人正确地重构、记忆和应用知识。
知识图谱是一种基于图的数据结构,它将各类信息、数据和链接关系聚合为知识, 是大数据环境下知识的有效组织方法。
引入人类的知识是人工智能的重要研究方向之一,知识图谱作为一种结构化的人类知识,同时受到了学术界和工业界人士的极大关注。
在2019 年 8 月 6 日 Gartner 发布《2019 新兴技术成熟度》中,我们可以看到Knowledge Graph与Graph Anlytics。处于创新触发期与期望膨胀期交界处的知识图谱,毫无疑问是当今最火的技术之一。
在过去几十年间, 国内外的研究者在知识图谱可视化方面做了大量的研究工作, 大体可以分为以下3个方面:
(1) 知识图谱的可视表达:知识图谱的概念由Google公司于2012年提出, 在之前, 就已经存在大量可视化方法, 主要关注知识图谱中不同类型信息的可视表达设计,按照可视化布局与视觉编码方式可将知识图谱可视化表达归类空间填充、节点链接图、热图、邻接矩阵、热图、缩进列表和欧拉图表等。
(2) 大规模知识图谱的可视化方法:2018 年, Gómez-Romero 等针对大规模知识图谱的可视化及可视分析问题,将过程分为了5个阶段: 数据检索、图构建、度量计算、布局和渲染。
异质网络可视化及分析一般步骤
(3) 知识图谱的可视分析方法:孤立、静态的可视化图表无法满足日益复杂的数据分析需求。针对不同的分析任务, 国内外研究者提出了多种基于查询、过滤、多视图联动等交互环境下的可视分析方法。知识图谱可视分析任务总结为: 知识推理可视分析、知识补全/去噪可视分析、异常检测可视分析三大类。
在图可视化与图分析分析领域,国内外已经有不少商业化产品。我们以在分析领域著称的Palantir在军事国防领域的知识图谱可视化为例,来说明复杂的关系网络可视化分析。
Palantir是硅谷最神秘的大数据独角兽企业,最初服务于FBI、CIA等政府机构,而后向金融机构延伸。
Palantir研发的大数据平台产品实际上是一种人和机器高效结合的数据分析平台,通过图(graphs)、地图(maps)、统计(statistics)、集合(set theory)等来分析结构或非结构化数据。
美国国防部的联席分析功能界面,对其舰船、飞机、情报文本和相关战场环境资源做了融合和关联,在统一视图里面进行管控,技术实现上把上述资源映射为各类事件、实体、对象及其关系。
由于知识图谱的规模日益扩大, 一体化可视布局整个图谱变得困难。同时, 知识图谱存在多层次结构和链接关系复杂的特征, 如何利用可视化,表达知识图谱中的语义关系、网络结构, 以良好的布局帮助用户快速探索和分析知识图谱中的数据,成为大规模知识图谱可视化的难点和挑战。
举个例子,我们知道播放一个1080P的电影就足以使很多性能一般的电脑卡顿,卡顿的原因是画面复杂,像素点多。1080*1920=2073600 也就2百来万的像素, 换句话说,如果数量增加到200万个节点,画面就满屏了。以上说的只是像素点,实际上知识图谱的节点是个圈,且画面上还有边, 复杂量级更高。
随着知识图谱规模的迅速增长,在有限空间显示器上可视化整个知识图谱或大量信息变得困难,容易造成视觉混乱使用户无法快速聚焦有用信息,而且大规模图的绘制效率较低,影响人机交互流畅性。
除了画面像素外,海量渲染的复杂性还体现在存储和表示方面。一个节点表示如果我们需要几个Byte, 加上边和相关的属性就会把数据撑爆掉, 如果对数据接口有设计经验的工程师就会知道, 一个十几万条记录的json数据也是能把浏览器给炸掉的。
除此之外,海量的节点除了像素和存储尺寸的问题外还有事件绑定、位置计算、交互拾取更新等复杂问题。
还是以屏幕举例: 如果一个节点用6*6这么小的尺寸来说,1080*1920的屏幕铺满能摆57600个节点,若有10万个节点加上点边那必然是麻团的样子。
在这一问题上,通常使用节点链接图并结合经典力导向布局算法或弹性布局算法对知识图谱进行可视化。弹性布局算法能够拉近彼此语义相近的节点,对于较小量的图谱来说能够解决, 但面对复杂的海量节点, 节点和链接的绝对数量使得传统方法可视化布局视觉混乱,且布局计算异常耗时。
富客户端的优点是具备丰富的用户界面和智能的数据模型,但受IE运行方式限制,对用户硬件或系统要求高。
一是大规模可视化渲染时的数据量极大,当对数据进行筛选过滤加工时,如果不注重内存使用的变量类型、变量回收等,会使内存暴增乃至浏览器内容溢出。
二是大规模可视化渲染时,每一帧画面的计算量都极大,极度依赖CPU,CPU的使用率极高时,会使浏览器进入假死状态,导致操作不流畅或者程序崩溃。另外引入WebGL时,利用擅长图形处理的GPU进行图形计算,大规模可视化渲染时,高使用率的GPU会使浏览器无响应。
在一堆海量数据的图谱里,并非所有信息都对用户有用,信息过多会让用户感到困惑, 信息少会导致分析不出有用的结果,所以,在显示网络信息和设计用户交互时平衡复杂性与表达很重要。
知识图谱本质上是异质网络的一种,相比同质网络, 异质网络包含更丰富的结构信息和语义信息, 这也就决定了异质网络可视分析更关注分析过程中对节点和链路上语义信息的理解, 用户更希望通过检索, 多视图联动等交互手段, 更准确、直观地展示用户所需的知识。可视化分析系统需要经过精巧的算法、高效的筛选、精准的定位,配合以舒适的操作体验才能使用户便捷地得到需要的目标数据。
DataExa-Kali是渊亭自主研发的知识图谱实时可视化引擎,是渊亭科技知识图谱(DataExa-Sati)产品的基础组成。
针对大规模节点的渲染,DataExa-Kali设计充分压榨了浏览器的渲染性能,使其渲染效果达到最佳状态,渲染过程中流畅、不卡顿、不掉帧,画质细腻。对节点的操作过程中,动画流畅,帧率稳定,在百万级节点上仍然高效渲染。
布局处理上,DataExa-Kali具备易用性、可解释性的多种布局算法,能够适应不同的布局需求。其中有机布局算法解决了海量数据快速布局的问题,同时保证了节点排布合理,通过平滑动画技术使得动画过渡完美,运动流畅。DataExa-Kali内置的拾取算法和状态管理,使得对图数据的操作和对节点的拾取十分容易,快速检索、过滤,精准拾取。还有配套的功能强大的拓展菜单和面板,使用户可以轻松的进行下一步工作。
DataExa-Kali核心技术及组件:
微观粒子系统
GPU加速
微观粒子系统多线程Worker
常规图谱可视化组件
组织架构插件
平面地图插件
三维地图插件
兵棋推演插件
VR插件
科技在发展,技术在革新,随着5G、WebVR的逐步普及,知识图谱可视化技术也将有新的发展。
比如当前4G网络应用在WebVR上会带来大约70ms的时延,这个时延会导致体验者存在眩晕感,而5G数据传输的延迟可达到毫秒级,可以有效解决数据时延带来的眩晕感,有助于WebVR的大规模应用。同时 WebVR技术将带来 3D 图谱的可视化需求,让用户对海量数据身临其境、触手可及。