免费知识哪里来——Arxiv使用指南

如果你非常确定自己想要找什么​,​比如知道论文的名字(算法的名字)或者作者的名字,直接去Google Scholar上搜索是最快的。然而如果你并不是很确定自己想要什么,只是想要看看某个领域的最新发展,知道大家都在干什么,然而​却发现​Google Scholar给你的结果多半不靠谱,请读下去。

image.png

引子​

​ ​最近半年,在我身上时常发生下面这类对话: ​

“Hey, 你知道XXXXXXXXXXXXX问题怎么解决吗?”

“哦,我刚好读过两篇相关的论文,等下发给你。”

......

尴尬的沉默,一般来说拿到文章之后对方就再也不会来找我了,虽然我是真心的想要交流,然而有一些好学的孩子会接着问:

“你的论文是哪里找到的呢?”

鉴于论文背景不同,我会丢一个链接过去——这个链接(网站)在大部分数学/物理/计算机/统计领域里面,都是https://arxiv.org/

Arxiv是什么

arxiv设计的初衷是一群物理学家们想要交流自己将要发表的论文,可以想象一下,在上世纪九十年代,人们用的还是软盘(包括5.25吋软盘和3.5寸什么的,存储空间可以说以KB计算),邮箱也不例外,投稿高峰期分分钟几百个KB的邮箱就会被文章塞满。Paul Ginsparg一看这不行,论文如果想要很好的被分享并审核,大约是需要集中存储的,就在1991年于LANL(http://www.lanl.gov/ 洛斯阿拉莫斯国家实验室)建立了arxiv的雏形,如下图所示。

image.png

当时有个萌萌的域名:http://xxx.lanl.gov/ ,到现在也可以被访问。不过由于LANL作为一个严谨的科学实验室实在是懒得运营​这个网站​,后来就被康奈尔大学接管支持。

然而,今天当我们谈到arxiv,就不能不说Open Access【开放获取】。 我们都知道,以前看文章是要钱的,直到今天,看大部分的文章也是要钱的。如下图所示,看一篇Nature​一般​要20美元,折合100多人民币。

image.png

​这个价格吧,​说贵不贵说便宜不便宜,在大部分有钱公司和牛逼学校买个site license​或者报个销​都是不成问题的,但是对那些有科研兴趣的个人或者是那些落后地区的学校,就很成问题了。像马拉维啊中非啊这种国家,到2016年,官方数据中人均GDP才400美刀(大约20篇文章),你让人家怎么玩嘛。​难道要让知识像财富一样集中在少数人手里么?

就好像我们一直希望互联网拥有中立性​(​电信运营商、有线电视公司等互联网服务提供商应当平等地对待所有通过他们网络的流量,网络服务提供商有区别地对待不同的流量可能会使大公司能够限制消费者的自由)一样,我们并不希望因为钱而阻挡了知识的传播。 ​​ 所以,我们有了布达佩斯宣言:

There are many degrees and kinds of wider and easier access to this literature. By 'open access' to this literature, we mean its free availability on the public internet, permitting any users to read, download, copy, distribute, print, search, or link to the full texts of these articles, crawl them for indexing, pass them as data to software, or use them for any other lawful purpose, without financial, legal, or technical barriers other than those inseparable from gaining access to the internet itself. The only constraint on reproduction and distribution, and the only role for copyright in this domain, should be to give authors control over the integrity of their work and the right to be properly acknowledged and cited.

作为开放获取的先驱者,我们要为arxiv——这一开放获取的先驱​鼓掌!为我们带来的好处就是,免费!免费!免费!

基于我的个人访问经验,大家如果想知道都有哪些杂志或者期刊提供免费的资源,可以参考这个列表:https://en.wikipedia.org/wiki/List_of_open_access_journals 图中是“数学”类目下提供开放获取的期刊。

image.png

实在找不到免费文章咋办?

我一般会直接发邮件问作者要,顺便聊聊自己的研究领域以及跟这篇文章相关的几个最新问题,成功率还是蛮高的,还可能交到好朋友。

说到Arxiv还有一样不能不说的就是LaTex——个人认为最美的文本编辑器(或者语言?),只是从学术圈儿跳出来之后发现大家好像都懒得用,在此由于篇幅所限,不再赘述。

Arxiv有什么

由于各种历史原因,Arxiv中文献的主要研究领域还是数理哲学,包括数学/物理/计算机/统计/天文/定量生物/定量金融等领域。截止到2016年的发表量统计可以参考下面这张图。

image.png

左图中是每年新提交的文章数目,右图是每年的发表量所占百分比(总和为1), "hep-"代表高能物理学,(hep-th+hep-ph+hep-lat+hep-ex), "cond-mat" 代表凝聚态物理学, "astro-ph" = 天体物理学, "math" 代表数学, "other physics" 表示物理学的其他领域( physics+nucl+gr-qc+quant-ph+nlin) “biology” 指的是量化生物学,“finance” 指的是量化金融,“cs”指的是计算机科学。

我们可以看到,在2002年之前,计算机科学领域的占比几乎可以忽略不计,然而到2016年已然占据了近五分之一,并且还在以极快的速度增长。而1992至1996年间占据了大半江山的高能物理学,到了今天地盘几乎被蚕食殆尽,只剩约10%的份额苟延残喘。沧海桑田,可见一斑。

​还有论文发表总量如下图: ​

image.png

​(信息来自:https://arxiv.org/help/stats/2016_by_area/index ) ​

从图中,我们可以清楚的发现三个事情:

  1. 所有论文发表量都在时间轴上爆发式的增长,在上面这张历史发表总量图中体现的尤为明显;
  2. 数学一家独大,不管是在年度发表量还是历史发表总量上;
  3. 计算机(cs)在历史发表总量中只占了8.3%,然而2016年的提交量占了18.3%,结合提交数量图的分析,真是长势喜人、值得期待。
  4. 每个月近10000篇文章提交(正式接受的会少一些,如果精准到感兴趣的垂直领域会更少)。

那么,不想只关心数理领域的咋办?

很简单,就好像任何市场一样,arxiv火了之后大批人跟风,所以我们现在有了生物学版本arxiv https://www.biorxiv.org/,心理学版本arxiv https://psyarxiv.com/ ,等等等等。当然,知识的沉淀往往需要时间,这些垂直领域的“arxiv”们到目前为止还不是非常成熟,所以我仍然建议大家结合上文提到的Open Access列表里的机构,去寻找想要的免费资源。

Arxiv怎么用

就像我在本文开头提到的那样,这个引擎最大的效果是当你并不确定自己想要什么的时候,去看看领域的最新发展,知道大家都在干什么。它最大的好处是值得信任。 ​当然,​同样值得信任的还有很多​​——虽然它们大部分都要钱,针对大多数​期刊​们​,可以按照影响因子从大往小排个序(​众所周知,影响因子这个评定标准就像高考成绩一样非常片面​,​然而这也是目前最普遍的解决方案了),前文中提到的Nature系列​和Science系列​,都非常值得信任。不做赘言。

很高兴的一点是,收费(还收的比较贵的)基本都是期刊,然而与其他领域尤其是生物学方向不​太一样​,计算机方向最顶级的往往是会议而不是期刊,而​会议往往是不收费的!这里举个例子,International Conference on Machine Learning 【ICML】,机器学习方面的顶级会议之一,其中所有的文章都可以在下面的链接里找到。https://icml.cc/Conferences/2017/Schedule?type=Poster

太幸福了!​——这个也是我最最最推荐大家找到值得读的文章的办法:盯着领域著名会议列表刷(虽然有个缺点,就是刷到啥算啥)。

但是,往往新入门的人往往没有办法靠关键字搜索【看脸】来分辨哪个期刊哪个会议才是真正有价值的。每年的会议不知凡几,我在wikiCFP上随便搜了一下人工智能,在接下来一年内仅仅这个垂直领域就有3130个会议。平心而论,有多少是真正有价值的呢?每个会议按照50篇paper来算,15万篇paper,​一个人类​就是不吃不睡​不工作全职看一年​paper,能看几篇?

当然,据个人经验,关于计算机方向的会议排名,大家可以参考下面的链接 https://www.aminer.cn/ranks/conf ,我截取了AI/PR (人工智能/模式识别)领域排名靠前的一段,如下图。有想看计算机视觉的可以参考里面带”vision”的,具体会议的分析和比较将另文分析,这里不做赘言。

image.png

但是,如果不想这样盯着列表一个一个会议慢慢看下来呢?如果就是想要找一下某个主题或者关键字呢?或者就是想要知道这个月出现了什么新算法呢?——会议可都是一年一次的。 ​​ 这个时候,就是arxiv大放异彩的时候了。它给了我们一个更集中的搜索平台,而且相对来说更​值得信任(反正比​起来​什么都可以搜索的Google Scholar,用户要筛选的噪声少了很多)​。

没有证据都是耍流氓?​ 请点开下面这个链接 https://arxiv.org/list/cs.LG/recent,这是对Machine Learning领域的一个搜索。仅仅看这一页简介那些熟悉的作者​名字,就知道大部分都不会让你失望的。

image.png

​尽管arxiv定位是preprint,但​其中​也​囊括了各种已经被NIPS,AAAI等等行业顶级会议接受的文章​​。而且,所有这些,都有直接的pdf原文可以免费下载。搜索和筛选成本都低到极致。同时,只需要点击感兴趣的作者名字,所有他发表过的文章都会被列出来(如下图中的Lei Shu),而完全不用担心其他搜索引擎中常常发生的同名同姓作者的麻烦——这一点相信搜索过中文名拼音的都深有体会——张王李赵遍天下绝对不是说说的。

image.png

得数据库如此,夫复何求?

作为对比,下面是我在Google Scholar同样搜索Machine Learning关键字得到的结果。大家可以自行体会时效性,相关度和质量。

image.png

当然​,​时效性这个可以通过点击左手边的“Sort by date”来解决,然而点击了之后是这个样子的:

image.png

——反正前面Springer家的都是要钱的,质量不提,单单是能下载的pdf也真的不常有。​

​更重要的是,​google作为跨平台老牌全网搜索引擎,看到某个关键字的时候并不会针对特殊的领域进行搜索,所以大批量主题无关的文章(不信的可以搜一下lenet,vgg这类,看看搜索结果)​,就会干扰搜索结果。

所以,当你要​找的参考文献​属于数理领域尤其是AI/ML/Stat相关​,而​Google Scholar又没能给你满意的结果(又或者很贵),​就试试看arxiv吧!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容