大数据可视分析方法与应用
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 多媒体数据可视分析简介

多媒体内容一般包括文本、图像、视频和音频等。可视化领域中对多媒体数据的分析主要集中在文本和图像两个方面。文本可视化工作旨在设计出直观的文本可视表征形式以辅助人们对大规模文本数据集的分析。为适应不同的分析任务,文本可视化有多种多样的可视化布局,包括基于云的可视化(cloud-based visualization)、基于流的可视化(flow-based visualization)、基于树状结构的可视化(tree-based visualization)和基于投影的可视化(projection-based visualization)。以基于云的可视化为例,字云(word cloud)是其中一项具有代表性的工作,主要用于对文本内容进行概括性的分析。在面对海量的文本数据时,人们往往难以快速地了解其中包含的主要内容。针对这个问题,可视化学者们创造出了字云,通过把文本数据中的关键词可视化出来,并用单词的大小编码单词的出现频率,为用户提供了一个直观的概述和总结,加速了对文本数据的了解和概括。

图像数据的可视化工作旨在研究如何利用可视化的直观性和有效性帮助用户从包含成千上万张图片的数据集中挖掘出有趣的图片和特征。目前主要采用的可视化形式包括散点图(scatter plot)、树状图(treemaps)和节点链接图(node-link diagram)。以散点图为例,Yang等人根据图像向量化的表征,使用了多维尺度分析方法(multidimensional scaling)将高维的图像投影到二维平面上,通过散点图将大量的图片数据以有组织的形式展现给用户,并将自动化算法提取出的图像关键词作为文本注释用以指导用户的浏览和搜索操作。这个工作成功地利用了散点图的直观性,并结合自动化图像处理算法促进了用户对图像数据的分析和理解。

2.2节将从文本数据可视化和图像数据可视化两方面进行介绍。