数据可视化
数据可视化引论
参考书:
- Robert Spence.信息可视化一交互设计.机械工业出版社,2011.
- Tamara Munzner. Visualization Analysis and Design.AK Peters Visualization Series. CRC Press,2014.
什么是可视化?
有的时候, 需要可视化, 有的时候, 可以不用可视化.
分析问题并不明确? 不知道该提什么问题
数据的处理, 可以让人进行理解, 分析. 便于人进行操作
为什么要把计算机包含在内? 扩展到大型数据集, 有交互性.
通过视觉的形式, 更好的认知这些关系.
和统计不同, 可以从细节上展示数据. 例如Anscombe’s quartet, 它总共有四组数据, 每一组统计上是类似的, 但是在绘制出图之后是完全不同的.
- 第一个散点图(左上角)似乎是一个简单的线性关系,对应于两个相关的变量,其中 y 可以建模为高斯分布,均值线性依赖于 x.
- 第二张图(右上);虽然这两个变量之间的关系是显而易见的,但它显然不是线性的,并且Pearson 相关系数不相关。更一般的回归和相应的决定系数会更合适。
- 在第三张图(左下)中,建模关系是线性的,但应该有不同的回归线(需要稳健的回归)。计算的回归被一个异常值所抵消,该异常值施加了足够的影响以将相关系数从 1 降低到 0.816。
- 最后,第四张图(右下)显示了一个示例,当一个高杠杆点足以产生高相关系数时,即使其他数据点并未表明变量之间存在任何关系。
Anscombe’s quartet仍然经常用于说明在开始根据特定类型的关系进行分析之前以图形方式查看一组数据的重要性,以及描述现实数据集的基本统计属性的不足。
数据集如下。前三个数据集的x值相同。
数据如下:
| I | II | III | IV | ||||
|---|---|---|---|---|---|---|---|
| x | y | x | y | x | y | x | y |
| 10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
| 8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
| 13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
| 9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
| 11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
| 14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
| 6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
| 4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
| 12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
| 7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
| 5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
可视化在数据探索和分析方面起到了很重要的价值.
感觉傅里叶变换也是一种可视化, 按照需要的维度直接分解一个函数. 从时间转换成频率可能可以将很多复杂的函数转换成简单的函数的和. 或者谱方法, 把函数空间分解成特征函数的直积. 它也是将一个复杂的信息, 人类没办法直接处理的信息, 转换成方便操作, 方便理解, 方便计算的一些信息的和.
可视化构型
表达视觉表达的独特方法.
什么是有效的可视化构型? 新颖的, 更快的.
要验证是有效的, 大多数构型可能都是无效的, 要验证有效是不容易的.
最好能尽可能的保留足够多的细节. 可以增加寻找到良好解决方案的机会.
限制因素:
- 计算能力(处理时间/内存限制),
- 人类限制(关注的细节是有限的),
- 显示限制(像素是宝贵的资源, 最受约束的资源, 信息密度要达到平衡)
早期的可视化案例:
- 军事地图.
- 伦敦霍乱的地图. John Snow.
数据抽象
数据类型:
图表数据, 网络数据, 场数据, 几何数据, 多维图表, 树.
结构化的数据: 已知数据类型, 数字.
非结构化数据: 文字, 视频, 图像等. 需要转换为结构化数据: NLP(自然语言处理), 情感分析.
文本可视化案例: 菜谱可视化, 通过网络可视化: 根据成分的含量建立联系. 可以方便的得到两道菜品口味之间的联系.

数据集类型(表格):
平面表格: 每行: 数据项 (data item); 每列: 属性(attribute). 具有唯一索引(key): 不重复的id.
多维表格: 基于多个键的索引
数据集类型(图/网络):
- 有向图(边具有方向),
- 树(无环图),
- 超图(一条边连接多个节点),
- 二部图(顶点可以分为两个独立的集合)
图可视化: 力导向图, 相关矩阵, 树图(隐式树可视化).
数据集类型(场数据): 属性值和对象单元关联.
数据基本类型:

