利用sklearn生成分类数据集

from sklearn.datasets import make_classification
x, y = make_classification(n_samples=10000, n_classes=2, n_features=60, n_informative=30, n_redundant=30,
                           n_clusters_per_class=2, weights=[0.95, ], class_sep=2)
y[y == 1] = -1
y[y == 0] = 1

n_samples: 生成的样本数量,默认值为100。

n_features: 生成的特征数量,默认值为20。

n_informative: 生成特征中有意义的特征数量,默认值为10。

n_redundant: 生成特征中冗余的特征数量,默认值为0。

n_repeated: 生成特征中重复的特征数量,默认值为0。

n_classes: 生成的分类数量,默认值为2。

n_clusters_per_class: 每个分类中的簇数量,默认值为1。

weights: 每个分类的权重,默认值为None,即每个分类的权重相等。
比如分为两类,默认分类是0、1、2....
第一类占比90% ,weights=[0.9, ]

class_sep: 不同分类之间的距离,默认值为1.0。

random_state: 随机种子,用于重复实验。

shuffle: 是否打乱数据,默认值为True。

flip_y: 是否将标签随机翻转,默认值为0。

noise: 添加到数据中的噪声量,默认值为None。

shuffle: 是否打乱数据,默认值为True。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容