《R数据科学》学习笔记|Note1:绪论

写在前面

本系列为《R数据科学》(R for Data Science)的学习笔记。相较于其他R语言教程来说,本书一个很大的优势就是直接从实用的R包出发,来熟悉R及数据科学。更新过程中,读者朋友如发现错误,欢迎指正。如果有疑问,也可以在评论区留言或后台私信。希望各位读者朋友能学有所得!


01 前言

Part 1 你将学到什么?

数据科学是一个极其广阔的领域,仅靠一本书是不可能登堂入室的。本书的目标是教会你使用最重要的数据科学工具。在一个典型的数据科学项目中,需要的工具模型大体如下图所示。

首先,你必须将数据导入 R。

导入数据后,就应该对数据进行整理。如果数据是整洁的,那么每列都是一个变量,每行都是一个观测。

数据转换包括选取出感兴趣的观测(如居住在某个城市里的所有人),使用现有变量创建新变量(如根据距离和时间计算出速度),以及计算一些摘要统计量(如计数或均值)。

数据整理和数据转换统称为数据处理。

可视化本质上是人类活动。良好的可视化会让你发现意料之外的现象,或对数据提出新的问题。可视化能够带给你惊喜,但不要期望过高,因为毕竟还是需要人来对其进行解释。

模型是弥补可视化缺点的一种工具。如果已经将问题定义得足够清晰,那么你就可以使用一个模型来回答问题。但是每个模型都有前提假设,而且模型本身不会对自己的前提假设提出疑问,这就意味着模型本质上不能给你带来惊喜。

数据科学的最后一个步骤就是沟通。

围绕在这些技能之外的是编程。编程是贯穿数据科学项目各个环节的一项技能。

Part 2 本书的组织结构

我们尽量在每一章中使用同一种模式:先给出一些引人入胜的示例,以便你大体了解这一章的内容,然后再深入细节。本书的每一节都配有习题,以帮助你实践所学到的知识。虽然跳过这些习题是个非常有诱惑力的想法,但使用真实问题进行练习绝对是最好的学习方式。

Part 3 本书未包含的内容

大数据

本书主要讨论那些小规模的、能够驻留在内存中的数据集。当无法处理时,需要思考是否能把大数据转为小规模数据,又或者通过并行计算进行实现(sparklyr、rhipe、drr等)。

Python、Julia以及类似的语言

实际上,多数数据科学团队都会使用多种语言,至少会同时使用 R 和          Python。但是,我们认为最好每次只学习并精通一种工具。如果你潜心研究一种工具,那么会比同时泛泛地学习多个工具掌握得更快。这并不是说你只应该精通一种工具,而是说每次专注于一件事情时,通常你会进步得更快。在整个职业生涯中,你都应该努力学习新事物,但是一定要在充分理解原有知识后,再去学习感兴趣的新知识。

非矩形数据

矩形数据是值的集合,集合中的每个值都与一个变量和一个观测相关。很多数据集天然地不符合这种规范,比如图像、声音、树结构和文本。但是矩形数据框架在科技与工业领域是非常普遍的。我们认为它是开始数据科学旅途的一个非常好的起点。

假设验证

数据分析分为两类:假设生成(探索性分析)和假设严重(验证性分析)。无须掩饰,本书的重点就在于假设生成,或者说是数据探索。我们将对数据进行深入研究,并结合专业知识生成多种有趣的假设来帮助你对数据的行为方式作出解释。

Part 4 准备工作

为了运行本书中的代码,你需要 4 个工具:R、RStudio、一个称为 tidyverse 的 R 包集合,以及另外几个 R 包。

R

可以在 CRAN下载 R。CRAN 由分布在世界各地的很多镜像服务器组成,用于分发 R 和 R 包。不要尝试选择离你近的服务器,而应该使用云镜像:https://cloud.r-project.org,它会自动找出离你最近的服务器。

RStudio

RStudio 是用于 R 编程的一种集成开发环境。你可以从 http://www.rstudio.com/download 下载并安装。启动 RStudio 后,你会看到界面有以下两个关键区域:

tidyverse

你还需要安装一些 R 包。R 包是函数、数据和文档的集合,是对 R 基础功能的扩展。你在本书中学习的大多数 R 包都是tidyverse 的一部分。

你可以用一行代码完整地安装 tidyverse:

install.packages("tidyverse")

在计算机上启动 RStudio 并在控制台中输入这行代码,然后按回车键来运行。R 会从CRAN 下载这个包并将其安装在你的计算机上。如果安装有问题,请先确认你连接了互联网,再确认 https://cloud.r-project.org 没有被你的防火墙或代理服务器阻拦。如果没有使用 library() 函数加载 R 包,那么你就不能使用其中的函数、对象和帮助文件。一旦 R 包安装完成,你就可以使用 library() 函数进行加载:

library(tidyverse)

以上结果表明,tidyverse 正在加载 R 包 ggplot2、tibble、readr、purrr 和 dplyr。这些包被视为 tidyverse 的核心,因为几乎在所有的分析中都会用到它们。tidyverse 中的包修改得相当频繁。你可以通过运行

tidyverse_update()

函数来检查是否有更新,并选择是否进行更新。

后记

【机器学习自学笔记】由于最新的一章难度较大,且近日走亲访友时间较紧,故迟迟还未更新~这里向读者朋友们说声抱歉~当然后续也会慢慢更新,不会断更的。【R数据科学自学笔记】则为填补未更新的空挡,同时也为梳理和完善一下本人R语言学习脉络。这本书从R包入手,是学习R语言较好的学习资料。当然,如果是零基础入门的,可以结合《R语言实战》。

— END —

欢迎关注wx公号“木舟笔记”查看历史消息。

往期 · 推荐

零基础"机器学习"自学笔记|Note1:机器学习绪论

零基础"机器学习"自学笔记|Note2:单变量线性回归

零基础"机器学习"自学笔记|Note3:梯度下降法

零基础"机器学习"自学笔记|Note3:线性代数回顾

零基础"机器学习"自学笔记|Note5:多变量线性回归

零基础"机器学习"自学笔记|Note6:正规方程及其推导(内附详细推导过程)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354

推荐阅读更多精彩内容