正在加载图片...
值、y的平均值和相同的X和Y的相关系数。它们的拟合回归线最后都是y=0.5x +3,如果不把它们可视化,仅仅从数据具有的属性来观察这些数据集,很难发 现它们之间的差异。所以我们会看到数据可视化非常重要,它有助于我们理解这 些数据。那么,我们何时使用可视化呢?应该在整个数据分析的过程中尽早地使 用,因为数据可视化可以帮助我们看清数据的趋势,帮助我们发现离群值,也有 助于我们彼此分享对数据的见解。 下面我们看一个实际的例子。我们想统计一星期中哪一天,以及这一天中哪 个时间段航班延误的最严重。我们可以绘制出一张热图,这张热图的横坐标表示 一天中的24个小时,纵坐标表示一周中的7天,我们统计每一天在每个小时延 误的航班的数量,就得到了热图的内容。通过这张热图我们就会发现,最热的地 方,也就是颜色最红的地方,就是航班延误数量最多的地方。从这张图中我们一 目了然,就会发现星期五的晚上是航班延误最严重的时候。 Average delay per hours and day? Monday 1 3 FRIDAY NIGHT 6 Sunday 7 91011121314151617181920212223 Hour of Day 下面的例子是在可视化全世界所有国家中女孩在学校中所占的比例。图中颜 色偏蓝表示所占比例偏低,绿色表示女生所占的比例和男生所占的比例基本相当, 红色表示男生所占的比例低于女生所占的比例。我们将各个国家的数据拿到之后 在世界地图上把它们标注出来,就可以很容易地发现几个信息。第一,凌兰岛是 缺失数据的,所以它是黑色,在现实当中我们就可以去不考虑格陵兰岛的具体情值、y 的平均值和相同的 X 和 Y 的相关系数。它们的拟合回归线最后都是 y = 0.5x + 3,如果不把它们可视化,仅仅从数据具有的属性来观察这些数据集,很难发 现它们之间的差异。所以我们会看到数据可视化非常重要,它有助于我们理解这 些数据。那么,我们何时使用可视化呢?应该在整个数据分析的过程中尽早地使 用,因为数据可视化可以帮助我们看清数据的趋势,帮助我们发现离群值,也有 助于我们彼此分享对数据的见解。 下面我们看一个实际的例子。我们想统计一星期中哪一天,以及这一天中哪 个时间段航班延误的最严重。我们可以绘制出一张热图,这张热图的横坐标表示 一天中的 24 个小时,纵坐标表示一周中的 7 天,我们统计每一天在每个小时延 误的航班的数量,就得到了热图的内容。通过这张热图我们就会发现,最热的地 方,也就是颜色最红的地方,就是航班延误数量最多的地方。从这张图中我们一 目了然,就会发现星期五的晚上是航班延误最严重的时候。 下面的例子是在可视化全世界所有国家中女孩在学校中所占的比例。图中颜 色偏蓝表示所占比例偏低,绿色表示女生所占的比例和男生所占的比例基本相当, 红色表示男生所占的比例低于女生所占的比例。我们将各个国家的数据拿到之后, 在世界地图上把它们标注出来,就可以很容易地发现几个信息。第一,凌兰岛是 缺失数据的,所以它是黑色,在现实当中我们就可以去不考虑格陵兰岛的具体情
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有