1.R中library和require的区别.
library和require都可以载入包。在一个函数中,如果一个包不存在,执行到library将会停止执行,require则会继续执行.
2.R语言中$符号和@符号取值区别?
$比较常用,@比较少用。通常我们的data.frame, list. 向量等用$就可以;
3.tail()函数
与head()函数类似,默认是取dataframe中的最后五行。
4.R语言中的%in%操作符是干什么的?
判断前面一个向量内的元素是否在后面一个向量中,返回布尔值。
5.分组计算描述性统计量函数—by()函数
by(data, INDICES, FUN)函数的典型用法: 是将data数据框或矩阵按照INDICES因子水平进行分组,然后对每组应用FUN函数。
将所有学徒按照性别分组,并分别计算每组学徒年龄的平均值,就可以通过by()函数来实现,我们体会一下:by(biotrainee,biotrainee$gender,function(x) mean(x[,2]))
6.R:reshape2包中的melt
从宽数据变为长数据.id.vars,位置保持不变的变量.
7.R语言paste函数
将任意数量的参数组合在一起。
a <- "Hello"
print(paste(a,b,c)) [1] "Hello How are you? "
print(paste(a,b,c, sep = "-")) [1] "Hello-How-are you? "
print(paste(a,b,c, sep = "", collapse = "")) [1] "HelloHoware you
8.grep 查找行
grep a 提取含有a的行
9.stringr包
* str-sub
参数:字符向量、起始位置和结束位置。
负整数,从右边计算。
* str_sub可以修改字符
str_sub(x, 3, 3) <- "X"
10.R数据的保存与加载
a <- 1:10
save(a,file='d://data//dumData.Rdata')
rm(a) #将对象a从R中删除
load('d://data//dumData.Rdata')
11.写出读入txt
rt=read.table("symbol.txt",sep="\t",header=T,check.names=F) #读入
write.table(single,file="singleGene.txt",sep="\t",quote=F,row.names=F) #写出
df = read.table("pairedInput.txt",row.names=1,header=T,sep="\t",check.names=F) #读取输入文件
12.列出所有变量
ls()
13.gsub()函数
替换字符工具
14.向量操作函数match
x,y. match(x,y)
y[match(x,y)]#使y按照x的次序排列
15.列表(数据框)转为向量
as.vector(unlist(dataSmTP))
16.读入txt,保留行名
row.names= 1
#####################################################################
1.查看ip地址172.20.93.233
ifconfig
2.清屏
clear
3./dev
存放外部设备
4./media:
挂载存储设备
5./usr:
类似于 windows 下的 program files ,应用程序存放
6.目录
. :当前的目录,也可以使用 ./
.. :上一层目录,也可以 ../
7.隐藏文件
目录或文件名以一个点 . 开始,表示这个目录或文件是一个隐藏目录或文件(如:.bashrc)。即以默认方式查找时,不显示该目录或文件。
8.修改用户的权限
chmod (change mode) :
9.显示一个文件的属性以及文件所属的用户和组
ll 或者 ls –l
10.文件属性
在 Linux 中第一个字符代表这个文件是目录、文件或链接文件等等。
d 则是目录
- 则是文件;
l 则为链接
b 则储存设备
c 则串行端口设备,例如键盘、鼠标
11. rwx
r 代表可读(read)、 w 代表可写(write)、 x 代表可执行(execute)。
12.更改文件属性
12.1、chgrp:更改文件属组
chgrp [-R] 属组名 文件名
-R:如果加上-R的参数,该目录下的所有文件都会更改。
12.2chown:更改文件属主,也可以同时更改文件属组
chown [–R] 属主名 文件名
例:将install.log的拥有者与群组改回为root:
[root@www ~]# chown root:root install.log
[root@www ~]# ls -l
-rw-r--r-- 1 root root 68495 Jun 25 08:53 install.log
13.更改文件9个属性
13.1chmod:
r:4 w:2 x:1
chmod 777 .bashrc
13.2符号类型改变文件权限
u, g, o 代表三种身份的权限, a 则代表 all
+(加入) -(除去) =(设定)
例: chmod u=rwx,g=rx,o=r test1
chmod a-x test1
14.查看权限
ls -al test1
########################################################################
1.linux
1.1ubuntu更新
输入 sudo apt update
完成后输入 sudo apt upgrade
sudo 代表管理员,apt相当于install(安装)
1.2远程登录服务器
下载一个免安装软件putty
2.帮助邮箱
Bioplanet520@outlook.com
3.云服务器上的linux
4.目录:文件夹
路径:就是目录的层级位置
5.pwd
当前路径
6.mkdir
创建空目录
########################
1windows linux子系统可以搭配windows terminal使用(应用商店下载)
7.rm
(1)删除文件--rm
(2)删除空目录--rmdir
(3)删除非空目录--rm -r
8.cd
cd -返回刚才的目录
9.vi
新建脚本或者文本文档
Esc键 退出
:x 保存并退出
10. cat
q 退出cat
head 输出前10行,tail输出后10行,加上-n 自定义输出几行
例如:head -n 3 hello_world.txt
11.cp复制文件
使用:cp file1 file2
就是复制file1,命名为file2的意思
12.mv 将文件移入文件夹,或者重命名
使用:mv file 路径是移动file到某路径下
使用:mv file1 file2是将file1重命名为file2
13.创建多级目录
mkdir -p
14.屏蔽登录输出信息
touch $HOME/.hushlogin
15.删除用户
userdel -r
16.查看所有用户
cat /etc/passwd
17.创建用户
sudo adduser
################################################################################
1.选中,鼠标左键复制,右键是粘贴;
2.minicoda下载
清华镜像
3.下载命令
wget
3.1下载到特定目录
-p
4. 默认下载目录
biosof
5.bash
执行sh文件
6.source ~/.bashrc
重新执行刚修改的初始化文件,使之立即生效
7.conda清华镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes
8.查看软件列表
conda list
9.搜索conda软件
conda search [fastqc]
10.下载安装软件
conda install [fastqc] -y 自动回答yes
11.卸载软件
conda remove fastqc -y
12.conda 环境
类似手机分身
13.查看环境
conda info --envs
14.创建conda环境
conda create -n rna-seq python=3 fastqc trimmomatic -y
#建立名叫rnaseq的conda环境,python版本是3,安装软件fastqc、trimmomatic.
15.激活conda环境
conda activate [rna-seq]
################################################################################
1.管理工作目录
Rproject
2.显示文件列表
dir()
3.删除变量
rm
4.清空控制台
ctrl+l
####################################
1.提取元素
x[-4]#排除法
x[x<0] x[x %in% c(1,2,5)] #根据值
2.colnames(X)[1]<-"bioplanet"#有的公司返回数据,左上角第一格为空,R会自动补为x,用这个命令来修改
3.保存当前所有变量
save.image(file="bioinfoplanet.RData")
4.提取一列
X$列名
5.attach
将数据框名添加到搜索环境中
做完后删除搜索环境 detach(a)
两个以上数据框的列名有冲突会报错.
6.with(a,{
plot(case,values)
x<<-summary(values) #求和并赋值给x,<<的意思是作为全局变量,也就是出了大括号仍有效。
})
7.R脚本后缀
.R
##########################################
1.dplyr基础函数
1.1 mutate(),新增列
1.2 select(test,1) 选择列
1.3 filter()筛选行
1.4 排序
arrange(test, Sepal.Length)#默认从小到大排序
arrange(test, desc(Sepal.Length)) 降序
1.5 summarise():汇总
1.6 group by函数
2.dplyr处理关系数据
2.1交集
inner_join(test1, test2, by = "x")
2.2 左连left_join
2.3 全连full_join
2.4 半连接 返回匹配的x表所有记录 semi_join
2.5 反连接 返回无法匹配的
声明分组,须与其它函数连用,如summarise
3.1 管道符%>%
传递参数
例:test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
3.2 count统计某列的unique值
######################################
1.表观遗传学
DNA甲基化,组蛋白修饰,非编码RNA
2.非编码RNA
小干涉RNA,miRNA,piRNA,长链非编码RNA
3.MicroRNA (miRNA)
长度约为20-24的小RNA
可结合mRNA导致基因沉默
4.ceRNA(内源竞争RNA)
ceRNA竞争microRNA,上调基因表达
####################################################
day7-测序知识
1.基因组学(核酸序列分析)
1.1全基因组测序(WGS)
1.2全外显子组测序(WES)
2.转录组
1.1 mRNA-Seq
1.2 IncRNA-Seq(长链非编码RNA)
1.3 sRNA-Seq(主要是miRNA-Seq)
3.蛋白质组学
4.代谢组学
5.数据格式
5.1 Fastq
保存生物序列(通常是核酸序列)和其测序质量信息
第一行:@开始,序列ID
第二行:碱基序列
第三行:+,描述信息
第四行:质量评价
5.2 Fasta
>开头 ID号 描述 碱基序列
6.Fastq文件→Fasta文件
法1:sed '/^@/!d;s//>/;N' your.fastq > your.fasta
法2:seqtk seq -A input.fastq > output.fasta
7.FASTX-Toolkit
Fasta/Fastq文件格式转换、统计等命令
8.GenBank格式
以LOCUS和一些注释行开始。
序列开头“ORIGIN”,末尾“//”。
9.EMBL格式
以(ID)开头,后面跟着更多注释行。
序列以“SQ”开头,序末尾“//”。
#########################
2021年1月2日
1.ppt的字体不要超过三种
2.公众号聊天窗口回复“珍藏字体”获取
3.思源
4.circos圈图(画个圈圈祝福你)
5.R包shiny开发网页
6.TP53基因
抑癌基因编码的p53蛋,肿瘤抑制因子.
激活细胞周期停滞和细胞凋亡激活细胞周期停滞和细胞凋亡
保护端粒,促进DNA修复
7.Entrez
综合性在线资源检索器
8.Entrez ID
NCBI基因唯一的识别号ID
(不同生物或者同属不同种的生物间的同源基因编号也
不相同)
9.See related
相关的其他数据库名称
10.Ensembl
Ensembl数据库中的ID号 。
Emsembl 是 英 国 Snager 研 究 所 和 欧 洲 分 子 生 物 学 实 验 室
11. 一个基因几个名
5种类型ID NCBI 的 entrez ID 及 gene symbol,Ensembl 的 gene
ID,UCSC的gene ID(ID以uc开头),KEGG的gene ID (前三个小写字母表示物种)
LncRNA没有标准的命名
12.HGNC数据库
人类基因组命名委员会
13.基因ID转换
clusterProfiler
14.Autodock分子对接
15.WGCNA tutorial
16.WGCNA
17.原始数据
表达矩阵datExpr、表型矩阵datTraits
18数据的归一化和标准化
18.1归一化,把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定
18.2标准化,统一共有数据
18.3中心化
将数据的mean变成0.
#########################
1.cytoccape
2.Layout,Node Layout
tools中对网络进行旋转(rotate)、拉伸(scale);对线(edge)弯曲;恢复
成原始面貌(Apply Preferred Layout)
3.线/边edeg
表示其相互作用
4.度degree
与某个节点相互作用的节点数量
#########################
2021年1月4日
1.分子对接
辅助设计药物
2.衡量基因表达量
产生了多少转录本
3.RNA-seq
3.1构建测序文库
分离RNA=》将RNA打断成小片段=〉将小RNA片段反转录成DNA=》加接头=》PCR扩增(只有加上接头的测序片段才能被扩增)=〉质量检查QC(看下文库的浓度和片段长度)
3.2 对文库进行测序
raw data,就是fastq数据
3.3原始数据处理
质控=》过滤garbage reads=〉比对到参考基因组=》再数一下每个基因比对上多少reads
3.4 garbage reads
接头并没有加到测序片段
3.5比对到参考基因组
3.6统计reads数得到表达矩阵
人类基因组有大概2w基因
3.7标准化表达矩阵
3.8可视化
4.RNA-seq
转录组测序
5.read_csv()
skip = n 跳过前n行
comment = "#" 丢弃以# 开头的行
6.col_names = FALSE 取消列名
7.col_names 传递一 个 字 符 向 量
8.标准化方法
RPKM,FPKM,TPM
9.表达量
表达量会产生不同的基因产物
10.检测表达量
qPCR(实时荧光定量),Northern blotting,FISH,SAGE,Microarray,RNA-seq
11.标准化
中位数标准化(median)或管家基因标准化(housekeeping gene)