Biostar(3)

NCBI数据库

NCBI编号的解释

    AC:一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物。

    AP:AC标记对应的蛋白产物。

    NC:完整的基因组分子序列,标记的类别为基因组、染色体、细胞器、质粒。

    NG:不完整的基因组。

    NM:转录产物序列,成熟mRNA转录本序列。

    NP:蛋白产物,主要是全长转录氨基酸序列,有一些只有部分蛋白质的部分氨基酸序列。

    NR:非编码的转录子序列,包括结构RNAs,假基因转子。

    NT:BAC或鸟枪法的还未完全注释的测序序列。

    NW:BAC或鸟枪法的还未完全注释的测序序列。

    NZ:automated 收集的各种利用鸟枪法测序的测序计划。

    XM:automated 转录产物,mRNA来自基因组注释,序列相当于基因组重叠群。

    XP:automated 蛋白产物。

    XR:automated 转录产物。

    YP:蛋白产物,不涉及到转录,主要用来标记细菌、病毒和线粒体。

    ZP:automated 蛋白产物,主要是用电脑自动注释。

    NS:automated 未知生物分子基因组序列。

Entrez

    对GenBank, EMBL, DDBJ, PIR-International, PRF, Swiss-Prot, and PDB数据库中的核酸和蛋白,包括了物种的序列序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和 PubMed MEDLINE 的访问。

使用Entrez Direct

    esearch

esearch -db nucleotide/sra/protein -query ... #-db是指定数据库类型,而query是跟着你要搜索的关键词

    efetch

esearch -db nucleotide/sra/protein -query ... | efetch -format fasta #将搜索结果的fasta格式存储


Linux

    tr

    从标准输入删除或替换字符,并将结果写入标准输出

tr '{}' '()' < textfile > newfile 大括号转换为小括号

tr 'a-z' 'A-Z' < textfile > newfile 大小写

tr -cs '[:lower:][:upper:]' '[\n*]' < textfile > newfile 这便将每一序列的字符(除大、小写字母外)都转换成单个换行符。*(星号)可以使 tr 命令重复换行符足够多次以使第二个字符串与第一个字符串一样长。

tr -d '\0' < textfile > newfile 删除所有空字符

echo "thissss is a text linnnnnnne." | tr -s ' sn' this is a text line.  用tr压缩字符,可以压缩输入中重复的字符

cat file | tr -s "\r" "\n" > new_file    / cat file | tr -d "\r" > new_file  删除Windows文件“造成”的'^M’字符

    datamash

    文本数据处理

seq 10 | datamash sum 1

DATA=$(printf "%s\t%d\n" a 1 b 2 a 3 b 4 a 3 a 6);echo "$DATA" | datamash -s -g1 collapse 2

具体例子:https://www.gnu.org/software/datamash/alternatives/


R-PCA

一些注意点:

#apply PCA - scale. = TRUE is highly advisable, but default is FALSE.

#standardize the variables prior to the application of PCA

    ir.pca <-prcomp(log.ir,center =TRUE,scale. =TRUE)

#数据大于变量,即行大于列,则应该是R mode的数据 ,转置后变为Q mode——研究observation之间的关系

(这周的笔记是个大杂烩,把这周学到的内容都记下来,方便以后查找。未完待续~)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 基因的基本组成 基因是具有功能的DNA序列片段,由编码序列和非编码序列交替构成,我们又称为割裂基因 split g...
    墙壁上的人阅读 5,742评论 0 5
  • 《DNA:生命的秘密》 作者: 詹姆斯·沃森(James D. Watson) / 安德鲁·贝瑞(Andrew B...
    kevinou2007阅读 12,796评论 0 8
  • 你说爱只不过是个传说 我不信 曾试着走进你荒唐的世界里 爱本无受罪 受罪的是那个终究不肯放弃的人 我坚信只要彼此的...
    雪域之子阅读 1,384评论 0 0
  • 老实说,不是每个人都能按着健身课的课表来安排自己的时间,但不管是伏案工作或者是玩手机,时间长了身体就就容易感到各种...
    联桥健康生活阅读 2,607评论 0 1
  • 高一的时候轮流换组,轮到我们组做窗边。 好像是冬季来着,又加上那天刮风,有点冷。当然那是对我而言。因为特别怕冷。 ...
    白落年阅读 1,170评论 0 0