一次用爬虫爬取数据库的小记

一、需求

所要爬取的数据库是CKB数据库

image.png

点击进入Genes页面

image.png

蓝色的gene名的部分是数据库公布的，可获得的信息
随便点击一个，比如ABL1

image.png

可以看到对应的页面下，存在箭头所指的两个表格
而，需求就是将所有蓝色部分的gene所对应的这两个表格爬取下来

二、所使用的技术路线

1.路线

这里所使用的方法是requests-BeautifulSoup4
requests.get()获取页面内容
BeautifulSoup4解析页面

2.分析

首先看一下下图的网页源代码

image.png

先简单的找到比如说ABL1相关的信息

image.png

可以看出来ABL1是由
<a href="/gene/show?geneId=25" class="btn btn-default btn-gene btn-block">
和</a>两个标签包围的
其他的基因也是这样
比如

image.png

可以看出来class信息是一样的，而href信息可以获得每个gene对用的页面链接信息
因此，可以用soup.find_all,将name设为"a",attrs设为"btn btn-default btn-gene btn-block"来获得所有gene的信息
将gene 和对应的链接以字典形式存储
然后，可以看一下某个gene页面，比如ABL1
先看第一个表，Gene Variants

image.png

第二个表，Gene Level Evidence

image.png

看一下源代码

image.png

先找到和第一个表格相关的地方

image.png

基本上，可以看出来每个Variant对应的信息被包括在tbody以及两个子标签tr和td中
同理找一下第二个表格相关的信息即可

三、全代码


import requests
import bs4
from bs4 import BeautifulSoup
def getHTMLText(url):
   try:
      r = requests.get(url,timeout = 30)
      r.raise_for_status()
      r.encoding = r.apparent_encoding
      return r.text
   except:
      return ""
def get_gene_id(url):
   html = getHTMLText(url)
   soup = BeautifulSoup(html,'html.parser')
   gene_id_dict = {}
   for a in soup.find_all(name = "a",attrs = "btn btn-default btn-gene btn-block"):
       gene_name = a.string.replace("\n","").replace(" ","")
       ID = a.attrs['href']  
       gene_id = "https://ckb.jax.org" + ID
       gene_id_dict[gene_name] = gene_id
   return gene_id_dict
def gene_variant_list(alist,html):
   soup = BeautifulSoup(html,'html.parser')
   for tr in soup.find_all("tbody")[1].children:
      if isinstance(tr,bs4.element.Tag):
         var_des = '' 
         tds = tr("td") 
         variant = tds[0].a.string.replace(" ",'').replace("\n",'')
         for string in tds[3].strings: 
            var_des += string
         var_des = var_des.replace("\n","")
         alist.append([variant,tds[1].string,tds[2].string,var_des,tds[4].string])

def gene_level_evidence_list(blist,html):
   soup = BeautifulSoup(html,'html.parser')
   num = 0
   for name in soup.find_all(name = "a",attrs = "btn btn-default btn-wrap btn-therapy"):
       num += 1
   count = num*8  
   eight_list = [] 
   for k in range(count):
      string_extract = ""
      if (k+1)%8 == 1:
          if k != 0 :          
             blist.append([eight_list[0],eight_list[1],eight_list[2],eight_list[3],eight_list[4],eight_list[5],eight_list[6],eight_list[7]])
          eight_list = []
      for i in soup.find_all("td")[-count:][k]:
            a = i.string.replace("\n","")  #string extract
            aL = a.split(" ")            
            aL = list(filter(None,aL))
            a = " ".join(aL)
            string_extract += " "+ a  #delete blank and get string
            
      eight_list.append(string_extract)
   if eight_list:
        blist.append([eight_list[0],eight_list[1],eight_list[2],eight_list[3],eight_list[4],eight_list[5],eight_list[6],eight_list[7]])

      
def print_gene_variant_list(alist,gene):
   num = len(alist)
   for i in range (num):
     u = alist[i]
     print (gene,u[0],u[1],u[2],u[3],u[4],sep="\t")

def print_gene_level_evidence_list(blist,gene):
   num = len(blist)
   if num :
     for i in range (num):
       m = blist[i]
       print (gene,m[0],m[1],m[2],m[3],m[4],m[5],m[6],m[7],sep = "\t") 
   else:
      if num == 0:
         print(gene)
def main():
   url = "https://ckb.jax.org/gene/grid"
   gDict = get_gene_id(url)
   print("{:^10}\t{:^6}\t{:^10}\t{:^10}\t{:^10}\t{:^10}".format("Gene_Name","Variant","Impact","Protein_Effect","Variant_Description","Associated_with_drug_resistance"))
   for name,ID in gDict.items():
      ainfo = []
      url = ID
      gene = name
      html = getHTMLText(url)
      gene_variant_list(ainfo,html)
      print_gene_variant_list(ainfo,gene)

   print("{:^10}\t{:^10}\t{:^10}\t{:^10}\t{:^10}\t{:^10}\t{:^10}\t{:^10}\t{:^10}".format("Gene_Name","Molecular_Profile","Indication/Tumour_type","Response_Type","Therapy_Name","Approval_Status","Evidence_Type","Efficacy_Evidence","References"))
   for name,ID in gDict.items():
      binfo = []
      url = ID
      gene = name
      html = getHTMLText(url)
      gene_level_evidence_list(binfo,html)
      print_gene_level_evidence_list(binfo,gene)   
 
main()

cat craw_3.xls |tr -d "\r" >new.xls

四、结果展示

image.png

最后编辑于：2019.01.08 22:19:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,753评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,668评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,090评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,010评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,054评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,806评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,484评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,380评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,873评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,021评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,158评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,838评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,499评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,044评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,159评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,449评论 3赞 374
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,136评论 2赞 356

一次用爬虫爬取数据库的小记

一、需求

二、所使用的技术路线

1.路线

2.分析

三、全代码

四、结果展示

推荐阅读更多精彩内容