监督学习(supervied learning)(预测)
定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)
目标值 :类别 - 分类问题
目标值: 连续型的数据 - 回归问题
分类 k-近邻算法,贝叶斯算法,决策树与随机森林 、逻辑回归
回归 线性回归、岭回归
无监督学习
目标值: 无 - 无监督学习
输入数据由输入特征值所组成。
聚类 k-means
机器学习开发流程
1)获取数据
2)数据处理
3)特征工程
4)机器学习算法训练 - 模型
5)模型评估
6)应用
数据集
可用数据集
公式内部 -百度
数据接口 花钱
数据集
学习所用数据集:
1)sklearn
2)kaggle
sklearn数据集
1) scikit-learn数据集API
sklearn.datasets
datasets.load_*() 获取小规模数据集
sklearn。datasets
datasets.fetch_*() 获取大规模数据集
*:某个数据集
2)sklearn小数据集
sklearn.datasets.load_iris()加载并返回鸢尾花数据集
sklearn.datasets.load_boston()
3)sklearn大数据集
sklearn.datasets.fetch_20newsgroups(data_home = None,subset = 'train')
subset:"train"或者"test","all"训练模式
4)数据集的返回值
datasets.base.Bunch(继承自字典)
dict['key'] = values
bunch.key = values
数据集的划分
训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效
测试集 20%~30%
sklearn.model_selection.train_test_split(arrays,*options)
x数据集的特征集
y数据集的标签集
test_size 测试集的大小,一般为float
random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
return 训练集特征值,测试集特征值,训练集目标值,测试集目标值
x_train , x_test , y_train , y_testI