1、join():
用于将序列中的元素使用指定字符合并字符串
如:
str1 = "a"
str2 = ("1", "2", "3") # 字符串序列
print(str1.join(str2))
结果为1a2a3a
2、apply():
基于DataFrame
将函数用到各行或列对应的一维数组上。默认为列,可以嵌套lambda函数
3、for循环:
数组既循环索引,又循环值
for key,value in enumerate(data):
4、remove:
列表中删除某个元素:
a = ['1','2','3']
a.remove('1');
5、根据同一属性合并两个pandas读入的csv:
import pandas as pd
pd.merge(a,b,on=['id'],copy=False)
on为按照某一列合并,copy为是否合并不同项
6、根据所有属性拼接两个pandas读入的csv
import pandas as pd
pd.concat([a,b],ignore_index=True)
axis=1参数可以加上为横向拼接
join='inner'参数为取交集 outer为并集
7、线性回归:
from sklearn import linear_model #表示,可以调用sklearn中的linear_model模块进行线性回归。
model = linear_model.LinearRegression()
model.fit(X, y)
display(model.intercept_) #截距
display(model.coef_) #线性模型的系数
a = model.predict(test)
8、numpy.ndarray转换pandas.dataframe
使用DataFrame()
反向转换使用.as_matrix()或者.values
9、Logistic回归
model = LogisticRegression()
model.fit(x_train, y_train)
# 返回预测标签
print(model.predict(x_test))
# 返回预测属于某标签的概率
print(model.predict_proba(x_test))
10、列表
list.append(object) 向列表中添加一个对象object
list.extend(sequence) 把一个序列seq的内容添加到列表中
list.index(value) 查找value的位置
11、稀疏矩阵和矩阵互转(csr_matrix转ndarray):
(1)稀疏矩阵调用todense()或直接.A就能直接返回矩阵。
(2)矩阵使用sparse.csr_matrix()括号里放矩阵名,生成稀疏矩阵
12、numpy更改格式
使用.astype(float)
如:
valid_Y2 = valid_Y.values.astype(float)
13、pandas.dataframe中取列名
result = pd.read_csv('total_write2.csv')
print(result.columns)
取几列生成新的dataframe
dic_data = {'id':result['id'],'title':result['title_result'],}
result2 = pd.DataFrame(dic_data)