主要作用:可重现一样的结果
R语言中set.seed()作用是设定生成随机数的种子,目的是为了让结果具有重复性,重现结果。
- 不设定种子不行吗?当然可以,但是结果就不能复现。如:
x<-rnorm(3) #随机生成3个随机数
结果:1.4197419 -0.7460519 0.3603622
x<-rnorm(3) #再来一遍,生成的3个随机数又不一样了
结果:1.0796213 0.5598334 0.5344839
- 设定种子后,再试下:
set.seed(123)
x<-rnorm(3) #随机生成3个随机数
结果:-0.5604756 -0.2301775 1.5587083
x<-rnorm(3) #试图复现上边结果
结果:0.07050839 0.12928774 1.71506499
#哎呀,还是不一样啊,哪里复现了?骗子!
#那是因为你没有加上set.seed(123)!加上之后如下:
set.seed(123)
x<-rnorm(3) #随机生成3个随机数
结果:-0.5604756 -0.2301775 1.5587083
#怎么样,一样了吧?别人想复现你的结果,必须要把种子seed和你设的一样。
注:set.seed(1000),不是运行1000次,而是把种子设置为1000。
那么问题来了:设成100呢,1呢?有什么区别?(见下面的问答部分)
这些数怎么产生的(产生原理)?
伪随机产生的。计算机的程序,都是通过确定的算法,根据确定的输入,算出确定的输出。想要得到真正的随机,需要通过外接物理随机数发生器,通过把随机的物理过程转变为随机值,才能实现。因此我们平常使用的计算机的随机数,其实都只是通过算法模拟得到,也就是伪随机。一般采用的办法是线性同余
(进一步了解线性同余可参考下面的连接2,也可自行百度)。
- 问:set seed 后面跟的数字有什么用,比如 set seed 100 和 set seed 1000的区别是什么?
- 答:数字不同,产生的结果不同。只有数字相同,别人才能复制出来跟你一样的结果。所以有些老师让学生作业上用 set seed(学号)来防止作弊。
- 问:set seed #为什么一般都很大呢?如果设为一位数,会不会有问题?如设为1。
- 答:Stata的说明里说 “Without loss of pseudorandomness, the seed may be set to small numbers; e.g., set seed = 2.”,即可以设置很小,(不丢失伪随机性的前提下)没问题的。
参考文献:
(1)简书:https://www.jianshu.com/p/38d0a44630f8
(2)经管之家1:https://bbs.pinggu.org/thread-2121186-1-1.html
(3)经管之家2:https://bbs.pinggu.org/thread-336973-2-1.html