日常瞎掰
最近网络上出现频率最多的词莫过ChatGPT,这足以说明其受欢迎的程度。那么,它的实力到底如何呢?从网络上出现的帖子也许可以窥见一二。带着这种好奇与崇拜,期待与疑惑的心情,小编注册了一个账户,亲自来感受一下ChatGPT的强大。不得不说使用体验真的很丝滑!聊一聊天就可以把问题解决了,这实力着实让人惊艳!
问题
小编用python处理数据的过程中遇到一个问题,不知道(哎,技艺不精)如何将三列的pandas数据框(如下所示)转化为对称矩阵形式的数据框。对于这个问题,刚开始使用谷歌搜索了好久,勉强也算找到了解决方法,毕竟3列的数据可以转化为矩阵形式了,但仔细一看就可以知道这并不是对称矩阵,没有完全满足咱们的需求。下面是具体过程:
import pandas as pd
import numpy as np
data = pd.read_csv('nc.anno.summary.txt',sep='\t')
data.head()
Feature1 Feature2 count
0 tRNA rRNA 157
1 rRNA tRNA 64
2 rRNA CDS 30
3 tRNA tRNA 20
4 rRNA rRNA 10
arr = data.pivot(index='Feature1',columns='Feature2', values='count')
arr
Feature2 3UTR 4.5S_RNA 5UTR CDS rRNA sRNA tRNA
Feature1
3UTR NaN NaN NaN NaN 13.0 NaN 2.0
4.5S_RNA NaN NaN NaN NaN 1.0 NaN NaN
5UTR 6.0 NaN NaN NaN 2.0 NaN NaN
CDS 3.0 NaN NaN 2.0 10.0 NaN 12.0
RNase_P_RNA NaN NaN NaN NaN 1.0 NaN NaN
rRNA 3.0 2.0 5.0 30.0 10.0 4.0 64.0
sRNA NaN NaN NaN NaN 5.0 NaN NaN
tRNA 1.0 NaN NaN 15.0 157.0 NaN 20.0
虽然上面的过程看似起作用了,但作用不是那么多,因为咱们想要的是对称矩阵形式,可上面转化的结果却是8行7列,明显列中少了RNase_P_RNA
条目。看着这结果,一时间不知所措。当然,如果技术好的话完全可以用实力写一个实现过程,但咱还是想着偷个懒用现成的轮子。
ChatGPT
既然网上不好找答案,那咱们就询问一下大神ChatGPT
,看一看是不是网络说的那样有真本事。下面就是跟大神的聊天过程:
看到回答后,心里不觉发出声音:小样可以啊。再一看这过程好像跟网上搜索的差不多啊,并且给出了过程说明。拷贝代码直接运行,接下来不出意外的话意外就要出现了,很明显这代码有问题,没有指定列的信息肯定会出现下面的错误:
有错误没关系,直接把错误再仍回去,看看大神的反应:
大神立马能够意识到错误出现在哪,并给出一个没有问题的代码。这聊天过程着实像在与某个人聊天,利用上下文知道你在说什么主题没有任何跑偏。虽然错误解决了,但这离咱想要的结果还是差那么一点啊:
arr = data.pivot(index='Feature1',columns='Feature2', values='count')
arr
Feature2 3UTR 4.5S_RNA 5UTR CDS rRNA sRNA tRNA
Feature1
3UTR NaN NaN NaN NaN 13.0 NaN 2.0
4.5S_RNA NaN NaN NaN NaN 1.0 NaN NaN
5UTR 6.0 NaN NaN NaN 2.0 NaN NaN
CDS 3.0 NaN NaN 2.0 10.0 NaN 12.0
RNase_P_RNA NaN NaN NaN NaN 1.0 NaN NaN
rRNA 3.0 2.0 5.0 30.0 10.0 4.0 64.0
sRNA NaN NaN NaN NaN 5.0 NaN NaN
tRNA 1.0 NaN NaN 15.0 157.0 NaN 20.0
那咱们就接着聊,咱把需求写得更贴切一点,好让大神明白咱们最真实的目的:
好像还是不符合咱们的需求,并且这段代码适合行列数一致的数据,行列数不同的情况下会出错:
arr = data.pivot(index='Feature1',columns='Feature2', values='count').fillna(0)
np.triu(arr) + np.tril(arr.T, -1)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ValueError: operands could not be broadcast together with shapes (8,7) (7,8)
接着,将需求更加细致化,条件限定精确一些:
终于,大神确切地明白了咱们的需求,并给出了完美的解决办法,咱们将这段代码应用到自己的数据上即可:
pivot_df = data.pivot(index='Feature1', columns='Feature2', values='count')
symmetric_df = pivot_df.add(pivot_df.T, fill_value=0).fillna(np.nan)
symmetric_arr = symmetric_df.fillna(method='ffill', axis=0).fillna(method='ffill', axis=1).fillna(0).values
symmetric_df
3UTR 4.5S_RNA 5UTR CDS RNase_P_RNA rRNA sRNA tRNA
3UTR NaN NaN 6.0 3.0 NaN 16.0 NaN 3.0
4.5S_RNA NaN NaN NaN NaN NaN 3.0 NaN NaN
5UTR 6.0 NaN NaN NaN NaN 7.0 NaN NaN
CDS 3.0 NaN NaN 4.0 NaN 40.0 NaN 27.0
RNase_P_RNA NaN NaN NaN NaN NaN 1.0 NaN NaN
rRNA 16.0 3.0 7.0 40.0 1.0 20.0 9.0 221.0
sRNA NaN NaN NaN NaN NaN 9.0 NaN NaN
tRNA 3.0 NaN NaN 27.0 NaN 221.0 NaN 40.0
结束语
ChatGPT
果然没有让咱们失望,而是超出了咱们的预期,这么好的工具不禁让人有一种爱不释手相见恨晚的感觉。聊个天的功夫问题就迎刃而解了,这实力绝对的惊艳!有了这样的工具存在,以后可能不再需要人肉码代码了,而是将更多的时间投入到思考问题本身上面来了。还在等什么,一起来感受AI的力量吧!
往期回顾
ChIPseeker绘图函数借用
R语言书籍免费领
可视化:网络图
可视化:Wordcloud
可视化:Dumbbell Chart