物种Verticillium dahliae Kleb
1.deseq2差异分析
- 只有count数据。按照count数据建立col data表格。
- 因为col data表格只有condition分组。修改代码。
- pheatmap的标注更改,同样因为没有lane分组数据。
DraggedImage.png - 为啥要normalize?参数normalized=TRUE
DraggedImage-1.png
2.DAVID GO分析
2.1 GO分析
- DAVID,导入gene list。若为gene symbol,选择 official gene symbol。分析后界面如下:
DraggedImage-2.png
选择需要的结果下载。
疑问:GOTERM-BP-DIRECT,1,2,3,4,5的意义。这次选择了direct下载,看起来,包含的数据是最多的。 - 得到的结果文件GO-CC
DraggedImage-3.png
疑问:Count,List-total,Pop-hits,Pop-total的意义
理解:
1.Count:即List-hits,也就是我们提交gene list中进入CC分类的某Term的数量。(Direct表可能按阈值过滤了一些不靠谱的,因此表中count总数小于list-total)
2.List-total:提交gene list中进入CC分类的所有term的总数量
3.Pop-hits:目前已被注释进入CC分类某Term的gene 数量
4.Pop-total:目前已被注释进入CC分类的总gene数量
疑问:作图的gene ratio如何得到
理解:Count除List-total - term转换:将term按波浪号分开,只取后半部分
DraggedImage-4.pngDraggedImage-5.png
用到了sapply和匿名函数。
难题:直接得到的并不是向量,经过双方框后,变成matrix,然后取第二行 - 基因比率:count除list total。count的总和并不等于list total,可能是有一部分进入GO——CC分类的基因被过滤掉。
- 调整generatio计算。
- ggplot调整x,y轴名称(gene ratio和term) 分组涉及onco列名。注意是否一致。
3.KEGG
- 网站,找到物种,点击字母缩写,Brite hierarchy,KEGG Orthology (KO),download htext下载。
- 问题:导入的geneid后一直报错no gene can be mapped。首先需要是gene symbol。导入的dataframe需要转化成charactor 向量
DraggedImage-6.png - 用其他kegg分析结果作图
问题1.读入表格,stringasfactor F (不然看起来是字符实际是factor,在转数值as numeric时候,数字会按照factor的顺序变成12345)
问题2.ggplot中的reorder(更改x或y轴标签的排列顺序)
屏幕快照 2017-11-01 上午9.16.09.png
4.clusterprofile 建库 GO分析
- 参照Y叔公众号link。详细可见6Orgdb-GO.R
DraggedImage-7.png
OrgDb这里写maize - MF只出来两条,分面画图会变宽。
facet_grid(onco ~ ., scales = "free", space = "free")
space free