pandas 面试题挑战六

从Series的字符串中过滤出email地址

现有Series如下：

emails = pd.Series(['buying books at amazom.com', 'rameses@egypt.com', 'matt@t.co', 'narendra@modi.com'])

解决办法：

import re
pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,4}'
mask = emails.map(lambda x: bool(re.match(pattern, x)))
emails[mask]

结果如下：

1    rameses@egypt.com
2            matt@t.co
3    narendra@modi.com
dtype: object

重点解读：
这题的重点是对正则表达式的使用，这个建议还是先把pattern ='[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}'这个看懂，如果不懂就去学学正则吧，花点心思，问题不大。
mask = emails.map(lambda x: bool(re.match(pattern, x)))，这个重点是对map的理解，map就是把Series中的每个元素都交给内部的函数处理进行，获得一个mask。
然后根据mask做过滤就好了。
mask如下：

0    False
1     True
2     True
3     True
dtype: bool

把一个Series按照另外一个Series的元素进行分组，并求均值。

现有两个Series如下：

fruit = pd.Series(np.random.choice(['apple', 'banana', 'carrot'], 10))
weights = pd.Series(np.linspace(1, 10, 10))
print(weights)
print(fruit)

输出：

0     1.0
1     2.0
2     3.0
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
dtype: float64
0    banana
1    banana
2    carrot
3     apple
4    carrot
5     apple
6    banana
7     apple
8     apple
9    banana
dtype: object

现在把weights中的元素按照fruit的元素为进行分组，并求平均值
解决办法：

weights.groupby(fruit).mean()

输出：

apple     6.75
banana    5.00
carrot    4.00
dtype: float64

求两个Series的模值差

现有两个Series如下：

p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])

其实就是把p，q看成是两个向量，然后可以方便的使用np.linalg.norm()来解决问题。

p = pd.Series([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
q = pd.Series([10, 9, 8, 7, 6, 5, 4, 3, 2, 1])
np.linalg.norm(p-q)

结果如下：

18.16590212458495

找到出现最少的字符，并使用它填充字符串的空白位置

现有Series如下：

my_str = 'dbc deb abed gade'

找到出现最少的字符，并使用它填充字符串的空白位置。
解决如下：

ser = pd.Series(list('dbc deb abed gade'))
freq = ser.value_counts()

least_freq = freq.dropna().index[-1]
"".join(ser.replace(' ', least_freq))

结果如下：

'dbccdebcabedcgade'

重点解读：
freq = ser.value_counts(),首先通过ser.value_counts()计算出所有字符出现的频率。
least_freq = freq.dropna().index[-1]， freq.dropna()可以删除关于空白的统计，然后找到索引的最后的位置，这个就是出现最少的字符。
"".join(ser.replace(' ', least_freq))，最后就容易了，通过ser.replace就搞定了。

创建Series，索引按照week 递进，值为随机数，范围1 - 10

产生类似的输出：

image.png

解决方式如下：

ser = pd.Series(np.random.randint(1,10,10),pd.date_range('2000-01-01', periods=10, freq='7D'))
ser

重点解读：
pd.date_range('2000-01-01', periods=10, freq='7D') 代表从'2000-01-01'开始，periods=10意味一共产生10个数据，freq='7D'频率是7天，D代表天。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 218,386评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,142评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,704评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,702评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,716评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,573评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,314评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,230评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,680评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,873评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,991评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,706评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,329评论 3赞 330
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,910评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,038评论 1赞 270
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,158评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,941评论 2赞 355

pandas 面试题挑战六

从Series的字符串中过滤出email地址

把一个Series按照另外一个Series的元素进行分组，并求均值。

求两个Series的模值差

找到出现最少的字符，并使用它填充字符串的空白位置

创建Series，索引按照week 递进，值为随机数，范围1 - 10

推荐阅读更多精彩内容