进一步查阅网络资料,MATLAB是另外一种机器语言类似于R,Python这些但是看上去似乎更强大的一个东西,之前整理的QuantiSNP软件需要在使用前安装一个MATLAB Run-Time Libraries Installer,这又是个啥,官网中介绍如下:
无需安装 MATLAB 即可运行编译的 MATLAB 应用程序或组件
MATLAB Runtime 是一套独立的共享库,可以执行已编译的 MATLAB 应用程序或组件。当 MATLAB、MATLAB Compiler 和 MATLAB Runtime 一起使用时,可以快速、安全地创建和分布数值应用程序或软件组件。
- 下载和安装 MATLAB Runtime:
-
单击下表中与您正在使用的应用程序或组件相对应的版本和平台。MATLAB Runtime 的版本与 MATLAB 版本紧密相关。
注意:您可以在应用程序或组件随附的
readme.txt
文件中找到此信息。 将 MATLAB Runtime 安装文件保存在您打算运行应用程序或组件的计算机上。
双击安装程序,然后按照安装向导中的说明进行操作。
请参阅 MATLAB 运行时安装程序文档获取更多详情。
选了一个最新版本的Mac系统支持的版本下载,发现文件有点大2.3个G。需要很长时间。但是这个东西下载之后估计也用不成,因为其他的依赖环境不符合。
查看自己的数据情况
趁这个时间查看一下下载下来的原始数据是什么样子的吧。会不会是有Probe ID / SNP Name,Chromosome,Position,Log R Ratio,B Allele Frequency这些信息呢?
解压缩下载的文档后里面是每个样本一个压缩文件,打开一个样本的数据查看
这么来看是包含了Probe ID / SNP Name,Chromosome,Position,Log R Ratio这几列的信息然后这个病人的结果只显示了21号染色体,看来主要测定的是21号染色体。推测 GSE93004这个数据集的526个病例只给出了21号染色体的测序结果,这就解释了为啥这么多样本最后只有3个多G的数据信息了。
- 那么我自己的未分析的数据是个什么样子的呢?
查看了一下结果也是类似的,只是我用的是安捷伦的定制探针(自己做探针杂交实验得到原始数据),所以流程上稍有不同,数据大部分的内容是差不多的,甚至连探针名称也很类似,这样来看应该是可以提取相似的内容来进一步分析了。
我自己的这个数据多了序列信息,因此内容较多,文件也比较大。
如果后续分析只是需要Probe ID / SNP Name,Chromosome,Position,Log R Ratio,B Allele Frequency这5列的信息的话,可以初步用shell脚本来完成文本的初筛,工作量有点大。还是先回去好好复习一下grep,sed,awk这三大指令吧。先回顾一下之前的课件
感觉任重而道远啊,我应该找个合作者完成这个内容。等我融汇贯通这些用法估计需要很长时间,有没有会的感兴趣的需要毕业的,赶紧联系我吧。在线等……