前情回顾:
读李霞老师《生物信息学》教材
Gephi网络图极简教程
Network在单细胞转录组数据分析中的应用
网络数据统计分析笔记|| 为什么研究网络
网络数据统计分析笔记|| 操作网络数据
网络数据统计分析笔记|| 网络数据可视化
网络数据统计分析笔记|| 网络数据的描述性分析
网络数据统计分析笔记||网络图的数学模型
网络数据统计分析笔记|| 网络图的统计模型
网络数据统计分析笔记|| 网络拓扑结构推断
网络数据统计分析笔记|| 网络图上的过程建模与预测
网络数据统计分析笔记|| 动态网络
网络数据统计分析笔记|| 案例1分析单细胞转录组数据
从9月3日 读李霞老师《生物信息学》教材 开始再次关注生物网络数据分析,到10月3日写完《网络数据的统计分析:R语言应用》的笔记。时间刚好一个月,要说一个月的时间入门网络数据分析,那自然是不太可能的。再次花用丘吉尔的话:这不是结束,甚至不是结束的开始,这只是开始的结束(end of the beginning)。路漫漫其修远兮。
网络数据分析是数据结构化之后寻找其内在规律的过程,它也连接了传统的统计方法和近来所谓的机器学习和深度学习,特别诸如深度学习的神经网络之流。这本深入浅出的教材,可以帮助我们尽快地跨过成本线:进入网络数据分析的最小必要知识。从感兴趣到跨过成本线是学习的第一阶梯的一个里程碑事件,以这本书为界,我们对网络数据分析的认知可以明显的划分为两个阶段了。从之前的懵懂感知,到现在了解其基本框架。尽管可能只是网络数据分析的概念,要知道,概念是构筑大厦的砖块。
虽然在2018年就买了这本书,也翻过,但是终究比不上实操一遍来的实际。亚瑟·叔本华曾说,“不加思考地滥读或无休止地读书,所读过的东西无法刻骨铭心,其大部分终将消失殆尽。“ 陆游说:纸上得来终觉浅,绝知此事要躬行。此言得之。
从我们的前情回顾中可以感受到,这本书的逻辑清晰,由易到难,层次递进。属于故事加实操的类型,所以感兴趣加上有点R语言基础的话,读下来还是很顺畅的,只是最后两章需要数学的知识,这就像王安石在《游褒禅山记》中写的一样:
古人之观于天地、山川、草木、虫鱼、鸟兽,往往有得,以其求思之深而无不在也。夫夷以近,则游者众;险以远,则至者少。而世之奇伟、瑰怪,非常之观,常在于险远,而人之所罕至焉,故非有志者不能至也。
有时候就算找到了渔父,也带我们站在了波涛之前,可是这样就能领略大海的美了吗?很可能只有感受而无法理解。这也是后面我们要走的路。
在学习最小必要知识的时候,我一般是囫囵吞枣的,像骆驼一样先把内容连嚼带咽地吞下去,再后面的学习过程中不断反刍。所以有些不求甚解。这当然是有弊端的,益处是能获得全局观,尽管有些模糊。这也是为什么能够在一个月的时间里,从出现学习动机,找到学习材料(这得益于囤书的习惯),最后完成内容模仿(复制黏贴)。
书中印象最深的是 网络数据统计分析笔记|| 网络图上的过程建模与预测 使用最邻近方法预测蛋白质功能的演示。因为之前也接触过KNN之类的算法,所以有的概念不陌生,也因为自己是做生物信息的,这类问题比较常见。刚好作者介绍了如何在网络图上应用近邻算法做预测,所以cover到了我的点。但是书中的数据集是有点多了,有来ppi蛋白网络,有传染病数据,有律师数据,有教练数据,有政客数据,有计算机网路数据,这样看来就像一部剧的故事线太多了。有时候为了讲一个知识点需要切换不同的描述环境。虽然在操作上只要data()
一下载入数据就好了,对读者却带来了不小的切换成本。但是二刷的时候会好很多。
进入新的领域,当然离不开不断地检索。提到检索,我们会吐槽某度。这次在检索的过程中,一个体会是:真的是某度的算法导致我们找不到有价值的信息吗,还是中文世界的信息在质量上就没有外文的多?
同样用必应浏览器,同样的问题在用汉字检索的时候,一般是CNDS,某书,某度百科,某乎,有的会有我国某岛科学家的(繁体字)博客,当然他们后面会跟着一系列的英文链接。但是用有道翻译成英语后,搜到的大部分是相关的wiki,课程,博客,基本是你想要找的内容。为什么?恐怕不只是浏览器排序算法的问题。就拿我们的网络数据分析来说吧,连用的教材都是翻译的,很多基本的概念也是翻译过来的(有的词汇还无法翻译),当然更容易在英语的世界里找到相关的内容了。检索文献,优秀的文章也都是用英语写就的。
中文世界的科普,学术圈,科技文化,我们还有距离的。
我不由得加快了脚步。