R读入大文件

在建立好了模型后,需要倒入实际运用数据来操作。
把很大,甚至几个G的文件导入到R是一个问题。
尝试使用read.table(),snp位点太多,即使很少个体也需要很长时间,并且内存不够。所以我们删除raw文件的前六列,只保留geno文件,以matrix形式读入。
我们可以采用:

awk '{for(i=7;i<NF;i++)printf("%s ",$i);print $NF}' new-small.raw>new-small-geno.raw
wc -l new-small-geno.raw 
awk '{print NF}' new-small-geno.raw #列数
sed -i "" '1d' new-small-geno.raw #mac上操作需要""
smasnp<-matrix(scan(file="new-small-geno.raw",what=integer(),sep="\t",na.strings = "NA"),12,784256)#R

那真是速度相当快

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容