2017-08-31

2017-08-29 21:014dataframe

1. df[a][boolean] 前一个中括号代表 一列, 后一个代表 一个判断

2. df[['a','b']] 代表两列

2.1 

df[boolean][a]  前一个代表条件,后一个代表一列

survived = train[train["Survived"] == 1]["Age"].dropna()

perished = train[train["Survived"] == 0]["Age"].dropna()

3. groupby ,

df['sex']['survived'].groupby('sex').mean( )

以性别分类, 男性的mean, 女性的mean

但是要运行 mean命令 必须为int 或者float

Try  use  df[Sex] .astype(int)

4.某一列的类别 再加一类(基于另一列)===本列类+外列类

def fun2(passengers):

a,b=passengers

return 'child' if a<14 else b

train['person']=train[['Age','Sex']].apply(fun2, axis=1)

先看第二块代码, 代表创建新一列, 列名叫person, 对 两列(年龄列,性别列)应用函数,AXIS=1 列

再看第一块代码, 函数双参数, if 第一个参数条件满足, 返回 CHILD

否则 返回 第二个参数

5. 空值的补充 某列的某条件下的list赋值随机list====条件列赋值随机列

age_avg = dataset['Age'].mean()

    age_std           = dataset['Age'].std()
    age_null_count = dataset['Age'].isnull().sum()
    
    age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)
    dataset['Age'][np.isnan(dataset['Age'])] = age_null_random_list
        或者 dataset['Age'][dataset['Age'].isnull()]=age_null_random_list

看最后一行代码,第一个中括号代表列, 第二个代表判断, 判定成功的列表=随机生成的列表

6. 列分割
train['cut'] = pd.cut(train['Age'], 20)                  ~~~创建新的一列叫cut, 它把某列分割为20组
train[['cut','Survived']].groupby('cut').mean()     ~~~groupby 函数
sns.factorplot('cut','Survived',data=train)         ~~~画图

7.  df index convert to colume

data3=train[['Neighborhood','SalePrice']].groupby('Neighborhood').mean

data4=data3.reset_index()

sns.barplot('Neighborhood','SalePrice',data=data4)

8.df [ pd.not_null(  )  ]

select all not_null samples base on one colume

train=train[pd.notnull(train['shot_made_flag'])]


8.

for feature in "Age","Fare":

df[feature].fillna  (train[feature].mean(),inplace=True)

9. 特征选择

例如泰坦尼克中 我们不能选Embarked

为什么  因为这个要素是派生的 是重复的

存活率最高的那个 embark 是基于 此港口 女性多  买头等舱的多


10. add the random thing 

average_age_titanic  = titanic_df["Age"].mean()

std_age_titanic      = titanic_df["Age"].std()

count_nan_age_titanic = titanic_df["Age"].isnull().sum()

rand_1 = np.random.randint(average_age_titanic - std_age_titanic, average_age_titanic + std_age_titanic, size = count_nan_age_titanic)

titanic_df["Age"][np.isnan(titanic_df["Age"])] = rand_1

titanic_df['Age'] = titanic_df['Age'].astype(int)

11.test_df["Fare"].fillna(test_df["Fare"].median(), inplace=True)

12.27th sep try

In [13]

in [30]

in[68]

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容