1、如何引入pandas并查看版本

import pandas as pd
import numpy as np
print(pd.__version__)

2、list或numpy array或dict转pd.Series

list1=["飘","飘","远",5,"飘","远"]
dict1={"d1":list1}
myarr1 = np.arange(6)
series1=pd.Series(list1)
series2=pd.Series(dict1)
series3=pd.Series(myarr)
series5 = pd.Series([1, 3, 6, 10, 15, 21, 27, 35])
print(series1)
print(series2)
print(series3)

3、多个series合并成一个dataframe

df1=pd.DataFrame({"column1":series1,"column2":series3})
print(df1)

4、根据index, 多个series合并成dataframe

sercc1=pd.concat([series1,series3], axis=1)
print(sercc1)

5、头尾拼接两个series

sercc2=pd.concat([series1,series3], axis=0)
print(sercc2)

6、找到元素在series 1中不在series 3中

diff1=series1[~series1.isin(series3)]
print(diff1)

7、series的index转dataframe的column

df2 = series1.to_frame().reset_index()
print(df2)

8、两个seiries的并集

print(np.union1d(series5, series3))

9、两个series的交集

print(np.intersect1d(series5, series3))

10、两个series的非共有元素(互为补集)

union1=pd.Series(np.union1d(series5, series3))
intersect1=pd.Series(np.intersect1d(series5, series3))
noin=union1[~union1.isin(intersect1)]
print(noin)

11、如何获得series的最小值，第25百分位数，中位数，第75位和最大值？

print(max(series5))
print(min(series5))
### np.random.normal(均值, 标准差, 数据量)
ser = pd.Series(np.random.normal(10, 3, 25))
### np.random.RandomState是一个伪随机数生成器
np.random.RandomState(100)
### 计算一个多维数组的任意百分比分位数，np.percentile(对象名称,[百分位参数]），百分数参数必传
np.percentile(ser, q=[0, 25, 50, 75, 100])

12、如何获得系列中唯一项目的频率计数？

### numpy的.take （a，indices，axis = None，out = None，mode ='raise' ）
ser = pd.Series(np.take(list('abcdefgh'), np.random.randint(8, size=30)))
### .value_counts查看表格某列中有多少个不同值，并计算每个不同值有在该列中有多少重复值
ser.value_counts()

13、series中计数排名前2的元素

v_cnt = series1.value_counts()
print(v_cnt)
### .index返回的结果是计数列的排名
cnt_cnt=v_cnt.value_counts().index[:3]
print(cnt_cnt)

14、如何将数字系列分成10个相同大小的组

ser2 = pd.Series(np.random.random(20))
### 数据分箱函数，pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')
### x ：一维数组或者Serise
### q ： 表示分位数的整数或者数组，如果是分位数的整数，例如10用于十分位，4用于四分位；如果是分位数数组，例如[0,0.25,0.5,0.75,1]用于四分位数
### labels ： 数组或者布尔值，默认为none，用于指定每个箱体的标签，如果是数组，长度要与分箱个数一致，比如用四分位数分箱，需要指定四个标签；如果为False，则仅返回分箱的整数指示符，即当前数据位于哪个箱子中
### rebines ：布尔值，可选。 是否显示分箱的分界值。（由于是按照分位数进行分箱，在不知道分位数具体数值的情况下，可以通过这个参数设置显示分界值即分位数的具体数值）
### precision：整数，默认3，存储和显示分箱标签的精度。
### duplicates：如果分箱临界值不唯一，则引发ValueError或丢弃非唯一
groups = pd.qcut(ser2, q=[0, .10, .20, .3, .4, .5, .6, .7, .8, .9, 1], labels=['1st', '2nd', '3rd', '4th', '5th', '6th', '7th', '8th', '9th', '10th'])
groups

15、如何将numpy数组转换为给定形状的dataframe

ser4 = pd.Series(np.random.randint(1, 10, 35))
df3 = pd.DataFrame(ser4.values.reshape(7,5))
df3

16、如何从一系列中找到2的倍数的数字位置

ser5 = pd.Series(np.random.randint(1, 10, 7))
print(ser5[ser5 % 2==0].index)

17、如何从系列中的给定位置提取项目

pos = [0, 2,3]
series1.take(pos)

18、获取元素的位置

### list1=["飘","飘","远",5,"飘","远"]
[pd.Index(list1).get_loc(i)for i in list1]

19、如何计算真值和预测序列的均方误差

truth = pd.Series(range(10))
pred = pd.Series(range(10)) + np.random.random(10)
print(truth)
print(pred)
print(np.mean((truth-pred)**2))

20、如何将系列中每个元素的第一个字符转换为大写

series4=pd.Series(["kdnahl","asjlnd","alnsd","ansk","asnd"])

### 用法：map(function, iterable, …)
### 参数function： 传的是一个函数名，可以是python内置的，也可以是自定义的。
### 参数iterable ：传的是一个可以迭代的对象，例如列表，元组，字符串…
### map是python内置函数，会根据提供的函数对指定的序列做映射,将func作用于参数iterable中的每一个元素，并将所有的调用的结果作为一个list返回。
### 注意，map不改变原list，而是返回一个新list。

### Python title() 方法返回"标题化"的字符串,也就是首个字母转化为大写

print(series4.map(lambda x: x.title()))

21、如何计算系列中每个单词的字符数

series4.map(lambda x: len(x))

22、如何计算时间序列数据的差分

### 差分，一般在大数据里用在以时间为统计维度的分析中，用下一个数值减去上一个数值
### 当间距相等时，用下一个数值减去上一个数值 ，叫“一阶差分”；再在一阶差分的基础上用后一个数值再减上一个数值一次，就叫“二阶差分"
### 差分的作用是减轻数据之间的不规律波动，使其波动曲线更平稳

series5 = pd.Series([1, 3, 6, 10, 15, 21, 27, 35])

### 一级差分
print(series5.diff())
### 二级差分
print(series5.diff().diff())

Python数据分析100题-（1~22）

Python数据分析100题-（1~22）

1、如何引入pandas并查看版本

2、list或numpy array或dict转pd.Series

3、多个series合并成一个dataframe

4、根据index, 多个series合并成dataframe

5、头尾拼接两个series

6、找到元素在series 1中不在series 3中

7、series的index转dataframe的column

8、两个seiries的并集

9、两个series的交集

10、两个series的非共有元素(互为补集)

11、如何获得series的最小值，第25百分位数，中位数，第75位和最大值？

12、如何获得系列中唯一项目的频率计数？

13、series中计数排名前2的元素

14、如何将数字系列分成10个相同大小的组

15、如何将numpy数组转换为给定形状的dataframe

16、如何从一系列中找到2的倍数的数字位置

17、如何从系列中的给定位置提取项目

18、获取元素的位置

19、如何计算真值和预测序列的均方误差

20、如何将系列中每个元素的第一个字符转换为大写

21、如何计算系列中每个单词的字符数

22、如何计算时间序列数据的差分

友情链接更多精彩内容

Python数据分析100题-（1~22）

1、如何引入pandas并查看版本

2、list或numpy array或dict转pd.Series

3、多个series合并成一个dataframe

4、根据index, 多个series合并成dataframe

5、头尾拼接两个series

6、找到元素 在series 1中不在series 3中

7、series的index转dataframe的column

8、两个seiries的并集

9、两个series的交集

10、两个series的非共有元素(互为补集)

11、如何获得series的最小值，第25百分位数，中位数，第75位和最大值？

12、如何获得系列中唯一项目的频率计数？

13、series中计数排名前2的元素

14、如何将数字系列分成10个相同大小的组

15、如何将numpy数组转换为给定形状的dataframe

16、如何从一系列中找到2的倍数的数字位置

17、如何从系列中的给定位置提取项目

18、获取元素的位置

19、如何计算真值和预测序列的均方误差

20、如何将系列中每个元素的第一个字符转换为大写

21、如何计算系列中每个单词的字符数

22、如何计算时间序列数据的差分

友情链接更多精彩内容

6、找到元素在series 1中不在series 3中