在2020年5月17日,HengLi在它的一篇博客「Fast high-level programming languages」提到,他一直在寻找一门编程语言,生物学家容易使用而且速度还快。( I have always been searching for a high-level language that is fast and easy to use by biologists. )
于是在这篇博客中,他评估了一些高级编程语言的处理速度,包括,C, Python, Javascript, LuaJIT, Nim, Crystal,Rust。其中Rust在FASTQ的解析速度上略胜于C语言。
同时在2020年12月的nature的technology feature中也有一篇是关于Rust,「Why scientists are turning to Rust」地址为https://www.nature.com/articles/d41586-020-03382-2
里面有一张图,是评估Rust近年来的社区状态的(即相关包的增长数量),从中可以发现Rust的增长超过了R。
我并不是某个编程语言的信徒,平常用的最多的是R和Python,同时经常性的找机会学习C和C++,以及每隔几个月会去尝试学一门新的编程语言。
这一次,我是跟着极客时间里的一门课,「陈天·Rust编程第一课」学习Rust。
基础配置:安装Rust工具链
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
我使用VScode进行开发,并安装了如下插件
- rust-analyzer (语法分析)
- rust syntax (语法高亮)
- crates
- better toml (TOML格式更好的展示)
- rust test lens
- Tabnine (基于机器学习的自动补全,不只是Rust)
接着,尝试使用Rust构建第一个程序。我的目标是读取Fasta,统计其中的A, T, C, G各有多少个。
完成这个需求,有两个思路,第一个是调用成熟的库,第二个是自己造轮子写一个函数。
对于思路1,我使用关键词,Rust和Bio搜索到一个库叫做,rust-bio。https://rust-bio.github.io/
接下来,使用cargo new创建项目
cargo new fasta_count
第二步: 添加依赖。编辑 Cargo.toml , 添加依赖信息
[dependencies]
bio = "0.37.1"
第三步: 学习rust-bio文档,查找相关函数,然后在 src/main.rs中编写代码。
use bio::io::fasta;
use std::io;
fn main() {
let reader = fasta::Reader::new(io::stdin());
let mut nb_a = 0;
let mut nb_t = 0;
let mut nb_c = 0;
let mut nb_g = 0;
for result in reader.records(){
let record = result.expect("Error during fasta record parsing");
for &base in record.seq() { //return sequence
if base == b'a' || base == b'A' {
nb_a += 1;
} else if base == b'c' || base == b'C'{
nb_c += 1;
} else if base == b'g' || base == b'G'{
nb_g += 1;
} else if base == b't' || base == b'T'{
nb_t += 1;
}
}
}
println!("A:{}, C:{}, G:{}, T:{}", nb_a, nb_c, nb_g, nb_t);
}
我使用标准库io::stdin从标准输入中读取数据,然后利用fasta::Reader的new出一个新的reader实例。对该实例的records对象进行遍历,得到fasta的中记录,record。最后对记录中序列进行遍历,得到不同碱基的数目。
第四步:编译代码。cargo会先将依赖环境下载到当前项目下,然后在进行编译。
cargo build
编译结果存放在 target的debug目录下,名为fasta_count。我们运行程序,得到结果。
cat TAIR10.fa | target/debug/fasta_count
# A:38223602, C:21551439, G:21528650, T:38177852
第一种思路的代码,是看教程里使用案例"使用HTTP获取HTML然后保存成Markdown"后,自己尝试的第一个和生信相关程序。在尝试过程中,由于对基本的数据类型不了解,所以在处理字符的时候,还专门去检索了下 'a' 和 b'a'的区别,以及为什么要用一个b''.
鉴于自己的水平太次,还是决定后续学习更多Rust基础再来尝试吧。
最后说说自己的编程体验:
每一门编程语言都有其特殊的语法,在Rust中,Rust用let对类型进行推导,而C++中是用auto进行类型推导。Rust和Python类似,可以直接用for x in xxx
对xxx进行遍历,而C++则是 for (auto x : xxx )
。Rust使用{}声明代码块,而不是Python那样子使用缩进。在函数返回上,Rust可以用return 显示说明要返回的内容,还是隐式将最后一个值(不能加上;)作为返回值,这个跟R语言又很像。当然还有函数定义,python用def 函数名, C和C++是返回值 函数名,R用 函数名 <-function, GO是 func 函数名, Rust用的是新的缩写 fn 函数名。
每次我学一门编程语言的时候,我都在想,这种语法上的特立独行,到底是为了什么呢?
吐槽完语言,最后夸夸Rust的编译器。它的编译器非常强大,能够很好的指出的我代码中的错误,便于检索debug。甚至有些时候都不需要检索,因为它会直接跟你说怎么改。就仿佛有一个老师在你方便,跟你说,你这里不对,你要这样子做。