用python按列合并多个文件

读入一个描述各文件名路径的文件,然后按照第一列合并指定的多个文件,输出一个汇总表。这里用于多个样本的count文件合并生成一个count矩阵文件。

1.1. 准备文件

import sys,os
import pandas as pd
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)
准备文件
unit.tsv

1.2. 文件路径

input_list=[]
for i in units.itertuples():
    input_dir = "%s_%s_CountNum.txt" % (i.sample,i.unit)
    input_list.append(input_dir)
input_list
input_list

得到input_list列表,包含6个文件的路径。

1.3. 读入文件

counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
          for f in input_list]

读取时,index_col=0指定index为第一列。

这里用到了列表生成式,将input_list列表中的每个文件分别作为一个元素存入counts列表中。这样counts是一个list,而其中每个元素是一个dataframe。

另外为何不写成for t,sample,unit in zip(counts,units.sample,units.unit)呢?因为units.sample是method不能迭代。而units.index是可以迭代的。

1.4. 修改列名

for t, (sample, unit) in zip(counts, units.index):
    t.columns = ["%s_%s" % (sample,unit)] #counts是列表 对列表中每个元素的columns赋值 

zip函数的作用是:zip(a,b)可以将a[1],b[1] ;a[2],b[2] ...对应起来。具体到这里就是将 t=counts[i] (一个dataframe),(sample,unit)=units.index[i] (一个tuple)对应起来。

aa.columns=["HBR_3"]columns需要给定一个由string元素组成的list。

这段代码的作用是给counts列表中的每一个data frame修改行名。行名为对应的sample_unit(如“HBR_1")。需保证counts和index是一一对应的。

1.5. 合并

matrix = pd.concat(counts, axis=1) 
matrix.index.name = "gene"

print(matrix)
matrix.to_csv("htseq_out.tsv", sep="\t")

pd.concat函数,将列表中的多个dataframe按index列(即第0列)横向合并。

2. Final code

import sys,os
import pandas as pd

os.chdir("XXXXX")
input_list=[]
units = pd.read_table("units.tsv", dtype=str).set_index(["sample","unit"], drop=False)

for i in units.itertuples():
    input_dir="%s_%s_CountNum.txt" % (i.sample, i.unit)
    input_list.append(input_dir)

counts = [pd.read_table(f, index_col=0, usecols=[0, 1], header=None, skiprows=0)
          for f in input_list]
          
for t, (sample, unit) in zip(counts, units.index):
    t.columns = ["%s_%s" % (sample,unit)] 

matrix = pd.concat(counts, axis=1) 
matrix.index.name = "gene"

matrix.to_csv("htseq_out.tsv", sep="\t")

3. 补充

3.1. 列表生成式

 [x * x for x in range(1, 11)]
# [1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

可以用于循环创建列表。详细可以看列表生成式

3.2. zip 函数

zip函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。

a = [1,2,3]
b = [4,5,6]

zipped = zip(a,b)     # 打包为元组的列表
#[(1, 4), (2, 5), (3, 6)]
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容

  • 阅读就是阅读,它是一种美好的生活方式,和孩子去学校接受教育、大人努力发展自己的事业同样重要。告诉孩子“书让我们的生...
    安之若素_9aec阅读 141评论 0 0
  • D1 沈阳故宫-张氏帅府-沈阳天主教堂-中街 乘坐地铁1号线在怀远门站下出口过个马路就是故宫了。很多人去过了北京的...
    ____王雪雪阅读 590评论 0 0