TIL

20200902

pydata

pd.df批量转换列的类型

  • 使用字典
  • 列名和类型名都需要使用字符串形式
df = df.astype({'overdue_guid_y':'int64', 'quit_guid_y':'int64'\
            , 'login_succ_guid_y':'int64', 'first_login_guid_y':'int64'})

Jupyter notebook将展示宽度设置为整个屏幕

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

其他

windows的密码更改,git凭据报错

错误信息
fatal: Authentication failed for ....
解决方法
控制面板-凭据管理器-管理windows凭据-找到对应的git凭据-更正密码为当前锁屏密码

AB实验 统计学

样本容量的计算

MDE

20200914

pandas

pd.merge不能跨字段类型连接,如果两者字段类型不同需要转换成相同字段。

  • Object最好转换成str。

20200916

hive

  1. 表类型

EXTERNAL_TABLE
INDEX_TABLE
MANAGED_TABLE
VIRTUAL_VIEW

20200923

1. pydata pandas

  • 设置查看的最大行和列

import pandas as pd
pd.set_option('display.max_columns', None)#相应的我们可以设置显示的最大行数
pd.set_option('display.max_rows', None)#其中None可以是具体数字,例如10,100等等
  • 筛选非空行
df[df['Column'].notna()]
  • 修改列名的两种方法
# 1.使用列表修改全部列名。
df.columns = ['A','B']

# 2.使用字典修改指定列
df.rename(columns={'a':'A'})

20200929

调整Dataframe预览表格时显示表格线

%%HTML
<style type="text/css">
table.dataframe td, table.dataframe th {
    border: 1px  black solid !important;
  color: black !important;
}

20201003

dataframe两列中较大列

df[['x', 'y']].max(axis=1)

df中解析 a=1&b=2&b=3的a值的方法

from urllib.parse import urlparse, parse_qs, parse_qsl
import json

def parse_url(astr):
    jsonobj = json.loads(astr)
    qua = jsonobj['qua']
    query = urlparse('https://someurl.com/with/query_string?'+qua).query
    pr = dict(parse_qsl(query))['a']
    return pr

DataFrame对某列截取指定位的字符

df['colname'].str[1:4]

DF实现类似SQL的COUNT(DISTINCT colname1) GROUP BY colname2

table.groupby('colname2 ').colname1.nunique()

DF筛选:值在列表内

 df[df.colname.isin([colval1, colval2])]

20201005

jupyternotebook显示边框线

%%HTML
<style type="text/css">
table.dataframe td, table.dataframe th {
    border: 1px  black solid !important;
  color: black !important;
}
</style>

20201210

python基于样本值进行t检验

import statsmodels.stats.weightstats as st
t,p_two,df=st.ttest_ind(data['A'],data['B'],alternative='larger',usevar='unequal')

20201226

DF的loc索引,在多层索引时,在某一axis内索引多个level时,需要使用tuple,而非list

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],
                              ['Green', 'Red', 'Green']])
frame.loc[:,('Ohio', ['Green', 'Red'])]
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容