Data Visualisation
什么是数据可视化
- 定义:数据可视化是使用图表(charts)、图形(graphs)或地图(maps)等可视元素来表示数据的过程。该过程将大量复杂的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供羊细信息。您可以使用可视化表示从原始数据中提取可行的见解,
- 优势: 发现不了的模式(structure)、关联(relationships)和其他顿悟式的见解。 数据可视化可以生动地呈现数据,让您成为讲述数字背后见解的高手。通过实时 数据仪表板 交互式报表、图表、图形和其他可视化表示形式,数据可视化可帮助用户快速而有效地形成强大的业务见解。
这里主要会考察的点在于图表(charts)、图形(graphs) 的区别,Charts 不主要依靠X轴Y轴的坐标的来展示数据,比如说Bar charts,而graphs则是相反
数据可视化目标
- To Explian: 便于解释,用户能够直观的理解的和处理信息
- To Analyse: 发现趋势,验证假设,通过使用大数据可视化关键指标数据,用户可以更容易发现各种大数据集的变化和趋势。
- To Explore: 数据可视化帮助用户探索甚至操纵数据来发现其他秘密
必备的要素有三点:
Accuracy, Story, Knowledge 数据可视化通过讲述故事,从而清楚地呈现复杂问题,识别重要信息(包括一些异常)。
Accuracy(准确表达):不失真、不误导(轴刻度、角度、面积、颜色映射等要谨慎)。
Story(有故事/上下文):图表回答了“为什么要看这个?我该得出什么结论?”。
Knowledge(新增知识/洞见):让观众看到原来不知道的信息(例如伦敦霍乱地图→水泵被污染的洞见)。
可视化基本组成元素:
- Title
- X-Axis
- Y-Axis
- Series/Marks
- Data Points
在Assignment中有些问题需要可视化数据要用plt.show()来展示图表📈,最好保证有下面的元素。

数据图表类型
Bar Chart
- 优点:简单直观,很容易根据柱子的长短看出值的大小,易于比较各组数据之间的差别。
- 缺点:不适合较大数据集的展现。

STACKED bar chart 堆积柱形图
- 优点:可以直观看出每个分类下的不同系列数据的大小,可以比较不同分类的数据总量大小。
- 缺点:不适用于系列太多的场景。

STACKED Percentage Chart 百分比堆积柱形图
- 优点:可以清晰地看出每个分类下不同系列的占比。
- 缺点:堆叠太多时会导致数据很难区分对比,因此不适用于系列太多的场景。

Line grahs 折线图
- 不仅可以表示数量的多少,而且可以反映同一事物在不同时间里的发展变化的情况。反应趋势的,一般来说题目说了随着时间变化都是用折线图没错

Scatter Plot Graphs 散点图
两个变量的相关性
- 优点:直观表现出影响因素和预测对象之间的总体关系趋势:能通过直观醒目的图形方式,反映变量间的形态变化关系情况,以便于来機以变量之间的关系。
- 缺点:散点图看上去比较乱,基本上只能看相关、分布和聚合,其他信息均不能很好展见。散点图需要有足够多的数据点,并且数据之间有相关性时才能呈现很好的结果。

数据可视化原则
颜色的选择Colour
- 尽量少的使用多种颜色:多彩的图表可能有助于广告效果、却分散了读者对于真正有价值的数据本身的注意力。
- 颜色跨度要大:明度差异够大,配色容易辨识与区分。颜色之间辨识度太低,容易模糊不同数据系列的界限,你会微分辨相邻两色的区别。
- 文字和背景颜色之间形成强烈的对比:背景一般采用纯色否则背景会干扰读者对图片主体信息的读取。另外,浅色的背景显然更有利于用户阅读,可以提高数据的可读性。但是在界面内容过少的情况下,我们可以使用深色背景,使其看起来不那么单调。
- 标明图例和数据来源;取值间隔一致:间隔取值不同会得到完全不同的结果。是否对数据排序:取决于数据和目的
- 用阴影使分类颜色减少,便于盲人阅读

- 数据没有内在排序时使用类别色阶

- 数据没有内在排序时使用或者连续色阶/发散色阶

- 使用色调来区分强化和弱化区域

关于这门课Assignments用图表展示主要会有三种形式来展示的图表
- Multiple plots 多个图表叠加到一起的来展示
- Hybrid plots 混合图表比如折线图柱状图结合一起展示
- Multiple axes 多轴图,有不同的轴点来展示图表
基本上用前两种会比较多,但是要考虑可读性,不要一张图展示太多信息~
发表回复
要发表评论,您必须先登录。