1.Github上下载WOS_Crawler
https://github.com/tomleung1996/wos_crawler
2.WOS_Crawler使用
#先将main.py文件第33行的crawl_by_gui()取消注释,执行程序启动图形界面
python main.py
#报错1:ModuleNotFoundError: No module named 'qt5reactor'
解决方法:pip install qt5reactor
#报错2:ModuleNotFoundError: No module named 'scrapy'
解决方法:pip install scrapy
#报错2:ModuleNotFoundError: No module named 'bibtexparser'
解决方法:pip install bibtexparser
#启动图形化界面
python main.py
#填写爬取内容
这里以爬取2000-2020年Genome Biology上发表的有关基因组变异相关主题文献为例,填写完检索式和保存路径后直接爬取即可。
3.提取DOI
cat 1-122.txt | grep ^DI * | awk '{print $2}' > DOI.txt
4.根据DOI批量下载文献
https://github.com/bibcure/scihub2pdf
# scihub2pdf安装
pip3 install scihub2pdf
# download.py文件中domain_scihub修改为"https://scihubtw.tw/"
# PhantomJS安装(mac)
brew install phantomjs
# 测试
scihub2pdf doi:10.1186/s13059-020-02125-w
# 批量从SCI-HUB上下载(根据DOI)
scihub2pdf -i DOI.txt --txt
rm *.png