官方调研重磅发布,Pandas或将重构?

原文地址:2019 Pandas User Survey

为指引 Pandas 未来开发方向,Pandas 官方团队于 2019 年夏搞了一次调研,这次调研历时 15 天,共有 1250 条反馈数据。问卷数据保存在 data 文件夹的 2019.csv.zip 文件里。

这里又学一招,原来 pandas 可以直接从压缩文件里读取数据文件,原文用的是 .gz 文件,呆鸟这里用 .zip 也可以。

下列代码读取问卷数据,并对 matplotlib、seaborn 的字体进行设置,其中还包括了,如何在 macOS 里显示中文。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

plt.rcParams['figure.dpi'] = 150

# 让 matplotlib 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei']

# 让 seaborn 的文字大一些
sns.set( font='SimHei', font_scale=1.2)

# # 让 MacOS 下的 Matplotlib 与 Seaborn 支持中文
# plt.rcParams['font.family'] = ['Arial Unicode MS']
# sns.set_style('whitegrid',{'font.sans-serif':['Arial Unicode MS','Arial']})


# 用来正常显示负号,这里其实用不上
plt.rcParams['axes.unicode_minus'] = False

df = pd.read_csv("data/2019.csv.zip", parse_dates=['日期时间'], encoding="GBK")

# df.head()

答卷人分析

绝大多数答卷人都具有丰富的 pandas 使用经验,使用频率也很高。

order = [
    '少于 3 个月',
    '3 个月 至 1 年',
    '1 至 2 年',
    '3 至 5 年',
    '5 年以上',
]

sns.countplot(y='您用 pandas 多久了?',
              data=df, order=order,
              color='k').set(title="您用 pandas 多久了?",
                             ylabel="")
sns.despine()
order = [
    "刚开始用",
    "偶尔",
    "每周",
    "每天"
]

sns.countplot(y='pandas 使用频率', data=df, order=order,
              color='k').set(title="pandas 使用频率",
                             ylabel="")
sns.despine()

为了对比 Pandas 与 Python 的流行度,我们的问卷里提出了一些 Python 开发者调研问卷问过的问题。

90% 的答卷人把 Python 作为主开发语言,Python 软件基金会调研报告里的数据为 84%。

pct_format = "{:0.2%}".format

df['Python 是您的主打语言吗?'].str.replace(
    "否.*", "否").value_counts(normalize=True).apply(pct_format)
是    90.67%
否     9.33%
Name: Python 是您的主打语言吗?, dtype: object

数据显示 Windows 用户居多。

oses = [
    "Linux",
    "Windows",
    "MacOS"
]
df['您用哪种操作系统?'].str.split(';').explode().value_counts().div(
    len(df)).loc[oses].apply(pct_format)
Linux      61.57%
Windows    60.21%
MacOS      42.75%
Name: 您用哪种操作系统?, dtype: object

这里用 0.25 版推出的 explode 方法定义了个函数。

def split_and_explode(s):
    return s.str.split(";").explode().to_frame()

conda 是最流行的虚拟环境工具。

replace = {
    "否,我不用虚拟环境": "否"
}

col = '您是否用过下列 Python 虚拟环境工具?(多选)'

sns.countplot(y=col,
              data=split_and_explode(df[col]).replace(replace),
              color='k').set(title='您是否用过下列 Python 虚拟环境工具?',
                             ylabel="")
sns.despine()

绝大多数答卷人只用 Python 3。

df['Python 2 还是 3?'].value_counts(normalize=True).rename(
    index={"2;3": "2 & 3"}).apply(pct_format)
3        92.39%
2 & 3     6.80%
2         0.81%
Name: Python 2 还是 3?, dtype: object

Pandas API

开源软件团队很难了解用户实际爱用哪些功能,这次调研,我们特地提了一些问题,了解了大家的喜好。

CSV 与 Excel 是最流行的文件类型,真是让人喜忧参半。

sns.countplot(y='您常用哪个读写器读取数据?',
              data=df['您常用哪个读写器读取数据?'].str.split(';').explode().to_frame(),
              color='k').set(title="您常用哪个读写器读取数据?",
                             ylabel="")
sns.despine();

为了做好重构 pandas 内核的准备,我们还调研了 100 列及以上大型 DataFrame 的处理情况。

sns.countplot(y='处理 100 列及以上大型 DataFrame 的频率',
              data=df, color='k').set(title="处理大型 DataFrame 的频率",
                                      ylabel="");
sns.despine()

Pandas 增加新扩展类型的速度较慢。类别型(Categorical)是最常用的,此外,可空整数(Nullable Integer)与带时区的 Datetime 也很常用。

sns.countplot(y='您常用的扩展数据类型是什么?',
              data=split_and_explode(df['您常用的扩展数据类型是什么?']),
              color='k').set(title="您常用的扩展数据类型是什么?",
                             ylabel="")
sns.despine();

我们还提出了一些问题,用以了解用户最想要的功能。

sns.countplot(y='您现在最想看到的改进是什么?',
              data=df,
              color='k').set(title="您现在最想看到的改进是什么?",
                             ylabel="")
sns.despine()
common = (df[df.columns[df.columns.str.startswith("迫切想要的功能")]]
          .rename(columns=lambda x: x.lstrip("迫切想要的功能  [").rstrip(r"]")))

counts = (
    common.apply(pd.value_counts)
    .T.stack().reset_index()
    .rename(columns={'level_0': '问题', 'level_1': "重要程度", 0: "关注数量"})
)

order = ["无关紧要", "还算有用", '至关重要']
g = (
    sns.FacetGrid(counts, col="问题", col_wrap=2,
                  aspect=1.5, sharex=False, height=3)
    .map(sns.barplot, "重要程度", "关注数量", order=order)
)

一眼就能看出来,优化大规模数据集的处理能力是大家最想要的,从此图还能观测出:

  1. Pandas 文档应该加大力度推广处理大规模数据集的支持库,如 Dask, vaexmodin
  2. 从对原生字符串数据类型与更少的内部复制需求来看,优化内存效率也是要值得一做的事情。

紧接其后的优化需求是整数缺失值,这个功能其实已经在 Pandas 0.24 时已经推出了,但还不是默认方式,与其它 pandas API 的兼容性也有待优化。

与 NumPy 相比,pandas 略显激进。在即将推出 1.0 版里,我们将废弃很多功能,并对很多 API 进行翻天覆地的改变,好在大部分人都能接受这样的改变。

df['Pandas 能满足您的需求吗'].value_counts(normalize=True).apply(pct_format)
是    94.89%
否     5.11%
Name: Pandas 能满足您的需求吗, dtype: object

不少人,甚至 pandas 维护人员都觉得 pandas API 的规模太大了。为了量化这个问题,我们还向用户提出了关于 pandas API 规模的问题,看看大家觉得是太大,还是太小,还是刚刚好。

renamer = {"pandas 接口太大了(难找到要用的方法或难记)还是太小了(需要提供更多功能)": "pandas 接口太大吗?"}
sns.countplot(y="pandas 接口太大吗?",
              data=df.rename(columns=renamer),
              color='k').set(title="pandas 接口太大吗?",
                             ylabel="")
sns.despine();

最后,我们还提出了满意度的问题,从 1 (非常不满意)至 5 (非常满意)。

sns.countplot(y='Pandas 满意度',
              data=df[['Pandas 满意度']].dropna().astype(int),
              color='k').set(title="Pandas 满意度",
                             ylabel="")
sns.despine();

大多数人都对 pandas 非常满意。满意度的平均分为 4.39。我们希望以后能跟踪这一数据的变化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 2,989评论 1 3
  • 文/南城念北安 01 午饭过后 ,闲来无事,我便拿起手机解闷。突然被手机屏幕上方一条推送吸引住了目光,"成长对于你...
    一个惊鸿阅读 2,487评论 8 20
  • 在长达近一个月的时间里,我终于把白鹿原读完了。在此,我想谈谈田小 娥。 这个人物在白鹿原里给读者带去了一种色彩十分...
    刘冠红阅读 527评论 3 1
  • 写日志已经不流行很多年了。 一篇文章,不是用来发泄的,而是用来表达的。同样,一个人的生活,不是用来放逐的,而是用来...
    tommyli333阅读 306评论 0 0