20200902

pydata

pd.df批量转换列的类型

使用字典
列名和类型名都需要使用字符串形式

df = df.astype({'overdue_guid_y':'int64', 'quit_guid_y':'int64'\
            , 'login_succ_guid_y':'int64', 'first_login_guid_y':'int64'})

Jupyter notebook将展示宽度设置为整个屏幕

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

其他

windows的密码更改，git凭据报错

错误信息
fatal: Authentication failed for ....
解决方法
控制面板-凭据管理器-管理windows凭据-找到对应的git凭据-更正密码为当前锁屏密码

AB实验统计学

样本容量的计算

MDE

20200914

pandas

pd.merge不能跨字段类型连接，如果两者字段类型不同需要转换成相同字段。

Object最好转换成str。

20200916

hive

表类型

EXTERNAL_TABLE
INDEX_TABLE
MANAGED_TABLE
VIRTUAL_VIEW

20200923

1. pydata pandas

设置查看的最大行和列


import pandas as pd
pd.set_option('display.max_columns', None)#相应的我们可以设置显示的最大行数
pd.set_option('display.max_rows', None)#其中None可以是具体数字，例如10,100等等

筛选非空行

df[df['Column'].notna()]

修改列名的两种方法

# 1.使用列表修改全部列名。
df.columns = ['A','B']

# 2.使用字典修改指定列
df.rename(columns={'a':'A'})

20200929

调整Dataframe预览表格时显示表格线

%%HTML
<style type="text/css">
table.dataframe td, table.dataframe th {
    border: 1px  black solid !important;
  color: black !important;
}

20201003

dataframe两列中较大列

df[['x', 'y']].max(axis=1)

df中解析 a=1&b=2&b=3的a值的方法

from urllib.parse import urlparse, parse_qs, parse_qsl
import json

def parse_url(astr):
    jsonobj = json.loads(astr)
    qua = jsonobj['qua']
    query = urlparse('https://someurl.com/with/query_string?'+qua).query
    pr = dict(parse_qsl(query))['a']
    return pr

DataFrame对某列截取指定位的字符

df['colname'].str[1:4]

DF实现类似SQL的COUNT(DISTINCT colname1) GROUP BY colname2

table.groupby('colname2 ').colname1.nunique()

DF筛选：值在列表内

 df[df.colname.isin([colval1, colval2])]

20201005

jupyternotebook显示边框线

%%HTML
<style type="text/css">
table.dataframe td, table.dataframe th {
    border: 1px  black solid !important;
  color: black !important;
}
</style>

20201210

python基于样本值进行t检验

import statsmodels.stats.weightstats as st
t,p_two,df=st.ttest_ind(data['A'],data['B'],alternative='larger',usevar='unequal')

20201226

DF的loc索引，在多层索引时，在某一axis内索引多个level时，需要使用tuple，而非list

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],
                              ['Green', 'Red', 'Green']])
frame.loc[:,('Ohio', ['Green', 'Red'])]

TIL

TIL

20200902

pydata

pd.df批量转换列的类型

Jupyter notebook将展示宽度设置为整个屏幕

其他

windows的密码更改，git凭据报错

AB实验统计学

样本容量的计算

20200914

pandas

20200916

hive

20200923

1. pydata pandas

20200929

20201003

dataframe两列中较大列

df中解析 a=1&b=2&b=3的a值的方法

DataFrame对某列截取指定位的字符

DF实现类似SQL的COUNT(DISTINCT colname1) GROUP BY colname2

DF筛选：值在列表内

20201005

jupyternotebook显示边框线

20201210

python基于样本值进行t检验

20201226

友情链接更多精彩内容

TIL

20200902

pydata

pd.df批量转换列的类型

Jupyter notebook将展示宽度设置为整个屏幕

其他

windows的密码更改，git凭据报错

AB实验 统计学

样本容量的计算

20200914

pandas

20200916

hive

20200923

1. pydata pandas

20200929

20201003

dataframe两列中较大列

df中解析 a=1&b=2&b=3的a值的方法

DataFrame对某列截取指定位的字符

DF实现类似SQL的COUNT(DISTINCT colname1) GROUP BY colname2

DF筛选：值在列表内

20201005

jupyternotebook显示边框线

20201210

python基于样本值进行t检验

20201226

友情链接更多精彩内容

AB实验统计学