R语言自带基本数据集简介

在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下。那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢?

好在R语言提供了很多的基本数据集,这些基本数据集是可以直接加载、可以完成几乎所有的数据分析任务模拟数据的。这都是些哪些种类的数据呢?

这些基本数据集都在R包datasets里面,可以执行命令:

> data(package = 'datasets')

就会datasets包带的出现所有基本基本数据集:

具体翻译一下各个数据集基本情况

向量

euro    #欧元汇率,长度为11,每个元素都有命名

landmasses    #48个陆地的面积,每个都有命名

precip    #长度为70的命名向量

rivers    #北美141条河流长度

state.abb    #美国50个州的双字母缩写

state.area    #美国50个州的面积

state.name    #美国50个州的全称

因子

state.division    #美国50个州的分类,9个类别

state.region    #美国50个州的地理分类

矩阵、数组

euro.cross    #11种货币的汇率矩阵

freeny.x    #每个季度影响收入四个因素的记录

state.x77    #美国50个州的八个指标

USPersonalExpenditure    #5个年份在5个消费方向的数据

VADeaths    #1940年弗吉尼亚州死亡率(每千人)

volcano    #某火山区的地理信息(10米×10米的网格)

WorldPhones    #8个区域在7个年份的电话总数

iris3    #3种鸢尾花形态数据

Titanic    #泰坦尼克乘员统计

UCBAdmissions    #伯克利分校1973年院系、录取和性别的频数

crimtab    #3000个男性罪犯左手中指长度和身高关系

HairEyeColor    #592人头发颜色、眼睛颜色和性别的频数

occupationalStatus    #英国男性父子职业联系

类矩阵

eurodist    #欧洲12个城市的距离矩阵,只有下三角部分

Harman23.cor    #305个女孩八个形态指标的相关系数矩阵

Harman74.cor    #145个儿童24个心理指标的相关系数矩阵

数据框

airquality    #纽约1973年5-9月每日空气质量

anscombe    #四组x-y数据,虽有相似的统计量,但实际数据差别较大

attenu    #多个观测站对加利福尼亚23次地震的观测数据

attitude    #30个部门在七个方面的调查结果,调查结果是同一部门35个职员赞成的百分比

beaver1    #一只海狸每10分钟的体温数据,共114条数据

beaver2    #另一只海狸每10分钟的体温数据,共100条数据

BOD    #随水质的提高,生化反应对氧的需求(mg/l)随时间(天)的变化

cars    #1920年代汽车速度对刹车距离的影响

chickwts    #不同饮食种类对小鸡生长速度的影响

esoph    #法国的一个食管癌病例对照研究

faithful    #一个间歇泉的爆发时间和持续时间

Formaldehyde    #两种方法测定甲醛浓度时分光光度计的读数

Freeny    #每季度收入和其他四因素的记录

dating from    #配对的病例对照数据,用于条件logistic回归

InsectSprays    #使用不同杀虫剂时昆虫数目

iris    #3种鸢尾花形态数据

LifeCycleSavings    #50个国家的存款率

longley    #强共线性的宏观经济数据

morley    #光速测量试验数据

mtcars    #32辆汽车在11个指标上的数据

OrchardSprays    #使用拉丁方设计研究不同喷雾剂对蜜蜂的影响

PlantGrowth    #三种处理方式对植物产量的影响

pressure    #温度和气压

Puromycin    #两种细胞中辅因子浓度对酶促反应的影响

quakes    #1000次地震观测数据(震级>4)

randu    #在VMS1.5中使用FORTRAN中的RANDU三个一组生成随机数字,共400组。

rock    #48块石头的形态数据

sleep    #两药物的催眠效果

stackloss    #化工厂将氨转为硝酸的数据

swiss    #瑞士生育率和社会经济指标

ToothGrowth    #VC剂量和摄入方式对豚鼠牙齿的影响

trees    #树木形态指标

USArrests    #美国50个州的四个犯罪率指标

USJudgeRatings    #43名律师的12个评价指标

warpbreaks    #织布机异常数据

women    #15名女性的身高和体重

列表

state.center    #美国50个州中心的经度和纬度

类数据框

ChickWeight    #饮食对鸡生长的影响

CO2    #耐寒植物CO2摄取的差异

DNase    #若干次试验中,DNase浓度和光密度的关系

Indometh    #某药物的药物动力学数据

Loblolly    #火炬松的高度、年龄和种源

Orange    #桔子树生长数据

Theoph    #茶碱药动学数据

时间序列数据

airmiles    #美国1937-1960年客运里程营收(实际售出机位乘以飞行哩数)

AirPassengers    #Box & Jenkins航空公司1949-1960年每月国际航线乘客数

austres    #澳大利亚1971-1994每季度人口数(以千为单位)

BJsales    #有关销售的一个时间序列

BJsales.lead    #前一指标的先行指标(leading indicator)

co2    #1959-1997年每月大气co2浓度(ppm)

discoveries    #1860-1959年每年巨大发现或发明的个数

ldeaths    #1974-1979年英国每月支气管炎、肺气肿和哮喘的死亡率

fdeaths    #前述死亡率的女性部分

mdeaths    #前述死亡率的男性部分

freeny.y    #每季度收入

JohnsonJohnson    #1960-1980年每季度Johnson & Johnson股票的红利

LakeHuron    #1875-1972年某一湖泊水位的记录

lh    #黄体生成素水平,10分钟测量一次

lynx    #1821-1934年加拿大猞猁数据

nhtemp    #1912-1971年每年平均温度

Nile    #1871-1970尼罗河流量

nottem    #1920-1939每月大气温度

presidents    #1945-1974年每季度美国总统支持率

UKDriverDeaths    #1969-1984年每月英国司机死亡或严重伤害的数目

sunspot.month    #1749-1997每月太阳黑子数

sunspot.year    #1700-1988每年太阳黑子数

sunspots    #1749-1983每月太阳黑子数

treering    #归一化的树木年轮数据

UKgas    #1960-1986每月英国天然气消耗

USAccDeaths    #1973-1978美国每月意外死亡人数

uspop    #1790–1970美国每十年一次的人口总数(百万为单位)

WWWusage    #每分钟网络连接数

Seatbelts    #多变量时间序列。和UKDriverDeaths时间段相同,反映更多因素。

EuStockMarkets    #多变量时间序列。欧洲股市四个主要指标的每个工作日记录,共1860条记录。

当然了,如果我们想知道任意一个包自带有哪些数据集,可以有命令:

> data(package = '包名')

下面这样可以查看R所有包的数据情况,从下面参数all.available = TRUE也能猜出来。

>data(package = .packages(all.available = TRUE))

这样,就可以查看所有包自带的数据集情况了!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容

  • 向量euro #欧元汇率,长度为11,每个元素都有命名landmasses #48个陆地的面积,每个都...
    养猪场小老板阅读 576评论 0 0
  • 向量 euro #欧元汇率,长度为11,每个元素都有命名 landmasses #48个陆地的面积,每个都有命...
    红梅素_2阅读 6,721评论 0 3
  • 向量A <- c(1:3)B <- seq(from=,to=,by=)D <- rep(0,5) append ...
    Jachin111阅读 1,198评论 0 0
  • 基本数据管理 在前面的章节中,我们讨论了多种导入数据到R中的方法。遗憾的是,将你的数据表示为矩阵或数据框这样的矩形...
    jplee阅读 1,600评论 0 2
  • 夜莺2517阅读 127,711评论 1 9