2025-05-18

监督学习(supervied learning)(预测)

定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归)

目标值 :类别 - 分类问题

目标值: 连续型的数据 - 回归问题

分类 k-近邻算法,贝叶斯算法,决策树与随机森林 、逻辑回归

回归 线性回归、岭回归

无监督学习

目标值: 无 - 无监督学习

输入数据由输入特征值所组成。

聚类 k-means

机器学习开发流程

1)获取数据

2)数据处理

3)特征工程

4)机器学习算法训练 - 模型

5)模型评估

6)应用

数据集

可用数据集

公式内部 -百度

数据接口 花钱

数据集

学习所用数据集:

1)sklearn

2)kaggle

sklearn数据集

1)  scikit-learn数据集API

sklearn.datasets

datasets.load_*()  获取小规模数据集

sklearn。datasets

datasets.fetch_*()  获取大规模数据集

*:某个数据集

2)sklearn小数据集

sklearn.datasets.load_iris()加载并返回鸢尾花数据集

sklearn.datasets.load_boston()

3)sklearn大数据集

sklearn.datasets.fetch_20newsgroups(data_home = None,subset = 'train')

subset:"train"或者"test","all"训练模式

4)数据集的返回值

datasets.base.Bunch(继承自字典)

dict['key'] = values

bunch.key = values

数据集的划分

训练数据:用于训练,构建模型

测试数据:在模型检验时使用,用于评估模型是否有效

测试集 20%~30%

sklearn.model_selection.train_test_split(arrays,*options)

x数据集的特征集

y数据集的标签集

test_size 测试集的大小,一般为float

random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。

return 训练集特征值,测试集特征值,训练集目标值,测试集目标值

x_train , x_test , y_train , y_testI

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容