定阅号 - 简书

发简信

定阅号

10
关注
1
粉丝
0
文章
0

字数
0

收获喜欢
1

总资产

IP属地：浙江

定阅号

@果蝇饲养员的生信笔记好滴，谢谢您~~

困扰的batch effect
一、什么是批次效应批次效应（batch effect），表示样品在不同批次中处理和测量产生的与试验期间记录的任何生物变异无关的技术差异。批次效应是高通量试验中常见的变异来源...

果蝇饲养员的生信笔记
25542 19 47 1
定阅号

前辈你好，我最近也是在做去批次，很苦恼。我遇到一个问题就是关于limma是先去批次在做差异分析，还是在模型中加上批次做差异分析。网上也没有明确的答案。
前辈帖子里我找到了答案是，最好是把批次效应纳入线性模型中。我想找对应的这段话的文献出处，您给的参考文献中我没有找到，想请问前辈您是否还记得这段话的出处在哪里嘛？如果可以提供的话，真的很谢谢您
This function is useful for removing batch effects, associated with hybridization time or other technical variables, prior to clustering or unsupervised analysis such as PCA, MDS or heatmaps. The design matrix is used to describe comparisons between the samples, for example treatment effects, which should not be removed. The function (in effect) fits a linear model to the data, including both batches and regular treatments, then removes the component due to the batch effects.
This function is intended for use with clustering or PCA, not for use prior to linear modelling. If linear modelling is intended, it is better to include the batch effect as part of the linear model.

困扰的batch effect
一、什么是批次效应批次效应（batch effect），表示样品在不同批次中处理和测量产生的与试验期间记录的任何生物变异无关的技术差异。批次效应是高通量试验中常见的变异来源...

果蝇饲养员的生信笔记
25542 19 47 1

定阅号

果蝇饲养员的生信笔记
写了 132640 字，被 1237 人关注，获得了 865 个喜欢

遗传学博士
定阅号

你好，请问一下，这个bedgraph文件第二列和第三列是起始位置和终止位置吗？哪个代表C，哪个代表G呢？
以及这个bedgraph是0-based还是1-based呀？如果是0-based的，是不是说chr1 10496 10497 94 16 1中：
chr1：10497是C甲基化位点呢？

其次，我有点疑问的地方是：
chr1 10524 10525 88 15 2
chr1 10525 10526 86 13 2

这里第一行的chr1:10524 -10525如果代表10525处是一个C碱基，
那么第二行的chr1:10525-10526也代表10526处是一个C碱基，加上C后面会跟一个G，那么从10525-10527不就变成了CCG了吗？是可以这样理解吗？这样还满足第一行的CG结构吗？

还是说这里不区分正负链，chr1:10524 -10525-10526是正链xCGx，然后chr1:10524-10525 -10526-10527是负链xGCx

这样在做callDML的时候，pos:10525需要考虑正负链吗？即把
chr1 10524 10525 88 15 2
chr1 10525 10526 86 13 2
这两行的beta信息考虑进去当成一个位点呢，但是我看up主你的代码pos = T1[,3]，只考虑了后面这列，所以是不是当成10525和10526两个位点进行计算了？

这里我感到有些疑惑，困扰了好久了，请up主指教

R语言 -- 寻找差异甲基化区域（DMR）-- DSS 包
最好的文档其实还是官方文档。。。http://bioconductor.org/packages/release/bioc/vignettes/DSS/inst/doc/DS...

生信摆渡
13475 8 12
定阅号

生信摆渡
写了 192091 字，被 673 人关注，获得了 910 个喜欢

分享生信知识。全网同名，有问题搜索工种昊留言👇
定阅号

没有看到GQ，只有GERMQ，这个是GQ嘛？

基因突变检测之Mutect2
写在前面的话今天是2021年1月3号，年底一番瞎忙活，停更了好长一段时间的简书。人生中有个很重要伯乐导师告诉我，在这个事多的工作环境下，没人愿意看你太多的废话。直奔重点才是...

静小沐
25713 6 42
定阅号

生信小工具专题：BBTools/BBMap Suite 的使用 (2)
接着上一次内容继续介绍，BBTools、BBMap中的一些实用的小工具。 BBMap Read Merger 合并双末端（PE）reads,在预期中这些reads有重叠的位置...

lakeseafly
12086 0 6

定阅号

想问一下，就是一个qseqid对应多个taxid的这种，应该怎么处理呢？应该给它归为哪个物种呢？

宏基因组之物种注释（基于nr库）
昨天下午捣鼓了一下宏基因组物种注释过程(基于nr库)，现在将整个流程记录一下。软件需求：blast，diamond，taxonkit(安装自行百度) 构建细菌子库 blast...

凯凯何_Boy
15604 14 10
定阅号

楼主讨论的这个是不是目标序列是同一条染色体的情况啊，如果目标序列是不同物种的不同序列，而这个指标都一样的情况该怎么办呢？

我是想看自己的序列与哪个物种最相似，来判断有没有目标菌种存在。这种情况怎么办呀？请陈老师指教

「JCVI」如何筛选得到最优blast比对结果？
JCVI，包含了太多的功能，但是我感觉好像又没有一个特别好的说明文档（小声bb，感谢唐老师的开发的好用工具） blast比对未过滤的blast比对结果，所使用参数是：-ou...

陈有朴
7843 1 12
定阅号

你好，请问，如果只想返回最好的一个序列结果，比如query3和query1只保留一条最好的。有没有参数设置啊，还是只能自己写代码筛选。

如果用一致性，覆盖度，比对得分进行排序后，依旧还是有很多序列的排名一样，比如100%匹配，得分都是278. 那么应该再怎么进行筛选呢？我是想看我的序列有多少条比对到了某个细菌上。我希望一个序列只有一个物种结果，这样就方便后续统计，这种应该怎么办呀？请洲更老师指教

如何让BLAST返回最优的一个搜索结果，看看你没有有进坑
大部分时候，我们都是看着别人的教程，然后尝试处理自己的数据，结果跑完了，如果和预期相符合就不会怀疑这个工具有啥问题。如果你要学习生物信息学，那么有一个信条一定要记住，不要盲目...

xuzhougeng
14066 4 30
定阅号

你好，我想请问，我star比对完的bam文件，我想提取没有比对上的序列，但是samtools view -f 4那个命令不行，不知道怎么提取了。samtools flagstat unmapped_reads.bam说我百分百比对上了，但是实际上我这个样本的比对率只有16%，log文件里提示，短序列比对失败的有40%多。

比对软件STAR的使用
在之前的学习和练习里，比对这一步我使用过bowtie2（DNA比对）和hisat2（RNA-seq比对），现在学习另一个很火的软件：STAR。STAR能够发现非典型拼接和嵌合...

生信start_site
48543 19 50
定阅号

你好呀，之前的推送看不到了，有其他平台的，比如公众号吗？如何筛选感兴趣的GO和KEGG进行绘图~这个推送

KEGG数据库 | 通路结果分类展示
在做完KEGG通路富集之后，纷繁复杂的通路映入眼帘，略微有些杂乱无章，缺乏一个有序的排列，因此，本推送依据KEGG一级类目，将不同的通路归纳总结，分类排列，使结果更加规整，帮...

生命数据科学
6190 4 10

定阅号

您好，想咨询一下，在做交叉验证之前，需要先挑选好较少的特征吗？即最终的模型特征？然后再进行交叉验证？

56-caret包学习：模型训练与调优
1、模型训练与参数优化在进行建模时，需对模型的参数进行优化，在caret包中其主要函数是train。一旦定义了模型和调优参数值，就应该指定重采样的类型。目前，k折交叉验证重...

wonphen
10419 5 11
定阅号

老师您好，我有一个问题，在选到13作为最佳超参数后，是不是需要回到所有训练集中，再使用这个超参数后训练一个分类模型。由于超参数是13，是不是就是意味着保留13个特征对于这个模型的分类效果最好呀。这个时候是不是选择重要性前13个特征作为最终的特征，然后预测测试集呢？因为我不会python，然后这个k邻近模型也不懂，用的是R语言和随机森林的理解方式理解的，不知道有没有理解错误，请老师指正

单一验证、k折交叉验证（特例：留一法（LOOCV））、交叉验证确定最优超参数
一、单一验证 1、单一训练集和测试集最简单的样本集划分就是只有训练集和测试集，而没有验证集，因此无法利用验证集反过来对模型参数进行调整。只能先给定一组超参数C，然后训练得到...

马尔代夫Maldives
14335 2 6
定阅号

一文看懂 AI 训练集、验证集、测试集（附：分割方法+交叉验证）
数据在人工智能技术里是非常重要的！本篇文章将详细给大家介绍3种数据集：训练集、验证集、测试集。同时还会介绍如何更合理的讲数据划分为3种数据集。最后给大家介绍一种充分利用有限数...

easyAI人工智能知识库
9856 0 4
定阅号

从出生到幼儿园毕业
1998 -- 2002 | 0岁 -- 4岁话说我也不是从出生就开始记事儿的呀，前几年关于我的事情只能靠我家人跟我讲述的了，今年过年要好好采访我的家人关于我幼儿时对...

生信摆渡
2833 2 2
定阅号

你有过“自我厌恶”吗？
今天在看硕士与博士的区别时看到下面一段话：对博士而言，最大的挑战其实是克服自我厌恶，然而在读硕士时很少会有这种情绪的体现。太多焦虑的博士，并非没有学术能力，而是无法克服这种...

生信摆渡
3865 0 8

定阅号

您好，请问一下，您下载mixcr的时候，使用的时候，它有要许可证吗？我这边下载了3的版本和4的版本都需要有许可证，不知道怎么回事

mixcr3.0 软件使用
MiXCR是一个通用的框架，处理从原始测序数据到定量clonotype的免疫组数据。支持PE和SE的reads，考虑测序质量，纠正PCR错误，还能识别生殖系高突变。支持部...

11的雾
9214 4 4