Python下载TCGA数据-1(自己捣鼓版本)

磕磕绊绊基本学明白了R,现在用python下载和处理(文件名对应TCGA barcode),主要是通过任务带一下自己对python的学习;

准备说明

一共3个脚本,分别为var.py,fu.py和total.py;这里其实主要参考了,TCGA官网的python examplesPython Examples - GDC Docs (cancer.gov) 。即,total.py是真正运行的脚本,var.py和fu.py是一些定义,放在相同文件夹即可;从网上看到的所有教程,当涉及到路径的时候,要有一个基本的认知,是发布者测试的时候用到的路径,并非直接适用,要改为自己的路径运行;

  • 从网上下载用到的搜索固定格式,var.py;主要用于TCGA样本的测序数据下载和临床信息下载;filters是样本测序数据下载时用到的筛选用的框架,pre和pos是临床信息下载时用到的固定格式部分,middle在后面的脚本部分有展示,是测序数据的文件名信息,即基于测序数据中的文件名在TCGA中检索获得其对应的barcode和其他临床信息;
filters = {
    "op": "and",
    "content":[
        # {
        # "op": "in",
        # "content":{
        #     "field": "cases.project.primary_site",
        #     "value": ["Lung"]
        #     }
        # },
        {
        "op": "in",
        "content":{
            "field": "cases.project.project_id",
            "value": ["TCGA-LUAD"]
            }
        },
        # {
        # "op": "in",
        # "content":{
        #     "field": "cases.demographic.gender",
        #     "value": ["female"]
        #     }
        # },
        {
        "op": "in",
        "content":{
            "field": "files.analysis.workflow_type",
            "value": ["HTSeq - Counts"]
            }
        }
    ]
}
pre = '''
{
"filters":{
"op":"in",
"content":{
"field":"files.submitter_id",
"value":[
'''
pos = '''
]
}
},
"format":"TSV",
"fields":"file_id,file_name,cases.submitter_id,cases.case_id,data_category,data_type,cases.samples.tumor_descriptor,cases.samples.tissue_type,cases.samples.sample_type,cases.samples.submitter_id,cases.samples.sample_id,cases.samples.portions.analytes.aliquots.aliquot_id,cases.samples.portions.analytes.aliquots.submitter_id",
 "size":"100"
}
'''
  • fu.py是用到的函数的定义
import tarfile
import os
import pandas as pd
def tar(fname):
    t = tarfile.open(fname + ".tar.gz", "w:gz")
    for root, dir, files in os.walk(fname):
        print(root, dir, files)
        for file in files:
            fullpath = os.path.join(root, file)
            t.add(fullpath)
    t.close()

def untar(fname, dirs):
    t = tarfile.open(fname)
    t.extractall(path = dirs) 
def readFile(filepath):    
    list = os.listdir(filepath)
    ens = pd.DataFrame()
    submitter_id = ''
    for root, dirs, files in os.walk(filepath):
        # print(root)
        for item in files: 
            if item.split('.')[-1] == 'gz':
                tmp_path = os.path.join(root,item)
                item_pre = item[:-16]
                data = pd.read_csv(tmp_path, compression='gzip',
                                    error_bad_lines=False,sep='\t',names=['ENSEMBLE',item_pre])
                ens[item_pre] = data[item_pre]
    ens['ENSEMBLE'] = data['ENSEMBLE']            
    return(ens)  
  • total.py是整体结构;Part1是数据下载部分,最终下载结果以压缩包的形式存在;Part2是数据处理部分,解压缩并将文件批量读取为一个矩阵;Part3是临床信息下载;Part4是将TCGA的barcode整合成矩阵的列名;
from va import *
from fu import *
import os
import gzip
import pandas as pd
import requests
import re
import json
##Part1 Here we download matrix of counts of TCGA-LUAD
files_endpt = "https://api.gdc.cancer.gov/files"
fields = [
"cases.submitter_id",
"file_name",
"cases.project.project_id",
"cases.project.primary_site"
]
fields = ','.join(fields)
params = {
    "filters": json.dumps(filters),
    "fields": fields,
    "format": "JSON",
    "size": "1000"
    }

response = requests.get(files_endpt, params = params)

file_uuid_list = []

# This step populates the download list with the file_ids from the previous query
for file_entry in json.loads(response.content.decode("utf-8"))["data"]["hits"]:
    file_uuid_list.append(file_entry["id"])

#file_uuid_list = file_uuid_list[51:100]
data_endpt = "https://api.gdc.cancer.gov/data"

params = {"ids": file_uuid_list}

response = requests.post(data_endpt, data = json.dumps(params), headers = {"Content-Type": "application/json"})

response_head_cd = response.headers["Content-Disposition"]
path = 'D:/tmp/'

file_name = path + 'TCGA-LUAD.tar.gz'
with open(file_name, "wb") as output_file:
    output_file.write(response.content)
######Part2 Decompress and read files
f_gz = 'D:/tmp/TCGA-LUAD.tar.gz'
path1 = 'D:/tmp/tcga'
####untar是自定义的函数,把下载的tar.gz文件解压缩,readFile即把解压缩的文件夹里所有文件,保留每个文件的第二列(数据),index是文件的第一列,留一个即可,整合至一个文件;
untar(fname=f_gz,dirs=path1)
a = readFile('D:/tmp/tcga')
######Part3 download clinic info          
path = 'D:/tmp/'
file_name = path + 'info.txt'
middle = pd.DataFrame(a.columns[:-1])
###middle是需要查询的临床信息对应的文件名,即files.submitter_id,是文件名加上_count
middle = '"'+ middle +'_count"'
middle = ',\n'.join(middle[0])
###whole是临床信息下载时用到的全部字段
whole = pre+str(middle)+pos
with open(file_name, "wb") as output_file:
    output_file.write(bytes(whole.encode()))
url = 'https://api.gdc.cancer.gov/files'
payload = open("D:/tmp/info.txt")
headers = {'Content-type': 'application/json', 'Accept-Charset': 'UTF-8'}
r = requests.post(url, data=payload, headers=headers)
path = 'D:/tmp/'
file_name = path + 'clinic.txt'
with open(file_name, "wb") as output_file:
    output_file.write(r.text.encode())
#####Part4 process the clinic and matrix
a.index = a.ENSEMBLE.tolist()
a1 = pd.DataFrame(a.values.T,index=a.columns, columns=a.index)
clinic = pd.read_table(file_name)
clinic.file_name = [re.sub('\.ht.+$','',x) for x in clinic.file_name]
df = pd.merge(clinic,a1,left_on='file_name',right_index = True)
df.index = df.loc[:,'cases.0.submitter_id'].tolist()
df_data = df.iloc[:,[('ENS' in x ) for x in df.columns]]
df_data.to_csv('D:/tmp/df.csv')
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容