数据可视化笔记-R语言

<<Data Visualization and Exploration with R>> by Eric Pimpler

定义

Exploratory Data Analysis (EDA)
目的:理解数据
步骤:

  1. 产生问题
  2. 对数据进行可视化,并寻找答案
  3. 改进或提出新的问题

数据类型

  • categorical 离散变量,有限的小数据
  • continuous 连续变量, 无限地,有序的

可视化的用途

发现变量的变化或多个变量之间的共变(variation or covariation)

方法

  • 条形图 : Measuring categorical variation with a bar chart.
  • 直方图 : Measuring continuous variation with a histogram,分布
  • 箱体图: Measuring covariation with boxplots
  • 符号大小:Measuring covariation with symbol size
  • 散点图:correlation 相关性

Covariation is the tendency for the values of two or more variables to vary together in a related way. The best way to spot covariation is to visualise the relationship between two or more variables

条形图示例 bar plot

diamonds-颜色条形图

X轴 = 离线变量-color,Y轴 = 每种颜色的钻石数量

直方图示例

diamonds-价格-直方图

X轴 = 连续变量-price, Y轴=每种价格的频率/数量

箱体图示例

diamonds-品质-价格

X轴 = 离线变量-cut品质,Y轴 = 价格,可以比较每种品质钻石的价格分布,比如中位值,离群值等

符号大小

diamonds,品质,颜色数量对比

散点图示例

diamonds 重量和价格对比
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 最近两天和我聊天的两个妈妈,给我带来了许多反思。 这个妈妈给我的反思是,格局决定方向。凡事都有第三种方法,所以一定...
    木木sani阅读 1,729评论 0 1
  • 来自:公众号“清单” 笔记:讲故事的西瓜妈 如果你不知道选哪一种本子的话,请看下面的挑选参考: 1、模块详细、带文...
    爱上西瓜园阅读 3,555评论 1 12
  • 我一直都渴望有那么一个人不论我想干什么都陪着我,至少在我行走在这热闹的人间时,我不是孤独的一人。 可是我却一直无法...
    小和尚的老腊肉阅读 2,695评论 0 0