《学习小组Day6笔记--高乃林》
转眼间就到了倒数第二天,入门到时入了,但离自己的理想预期还有很大的差距,慢慢来,先把作业做了。
安装dplyr包并加载,然后再开始搞事情。
这么说,test取的是数据集里的(1,2,51,52,101,102列)。Mutate加了一列,名称为new的数据。
我自己搞了一个名称为new1的数据。
但很明显,刚刚建立的new的一列,并没有保存下来,所以我建了新的new1的时候,new已经不见了。而且,连我刚刚创的new1也没能保存???见下图
继续往下走,肯定有可以保存的方法的。
下面分别是筛选、排列、汇总的函数,都是比较好理解的。不过多展示。
实用技能中的管道还好理解,就是相当于限定条件,比如下面代码说的就是test数据中,根据species分组,并计算每一组的Sepal.Length的mean,和Sepal.Length的sd。
count统计某列的unique值?蒙了一下。
但反应过来了,就是test有6行,每个species都有2行。
即是说不重复的species有2行。所以是n=2。
下一步就遇到了问题了。
options(stringsAsFactors = F)函数不懂什么意思。查了一下:strings是“字符串”,Factors是“因子”。如名称通常是字符串,而指标是因子。如果在建立数据框的时候,将字符串设置为因子,那么数据名称就被“因子化”了。所以,不能将其字符因子化。但为什么呢??但会试试不加他会怎么样。
一步步走,跟教程的一样,没什么意思。
那么试试因子化会怎么样呢?
好像也没什么变化呀!!!
剩下也没什么好展示的了。
结束今天的学习。
留了两个问题:①怎么保存新创的数据?②options(stringsAsFactors = F)函数有什么用?自己先搜索解决。