利用sklearn生成分类数据集

from sklearn.datasets import make_classification
x, y = make_classification(n_samples=10000, n_classes=2, n_features=60, n_informative=30, n_redundant=30,
                           n_clusters_per_class=2, weights=[0.95, ], class_sep=2)
y[y == 1] = -1
y[y == 0] = 1

n_samples: 生成的样本数量，默认值为100。

n_features: 生成的特征数量，默认值为20。

n_informative: 生成特征中有意义的特征数量，默认值为10。

n_redundant: 生成特征中冗余的特征数量，默认值为0。

n_repeated: 生成特征中重复的特征数量，默认值为0。

n_classes: 生成的分类数量，默认值为2。

n_clusters_per_class: 每个分类中的簇数量，默认值为1。

weights: 每个分类的权重，默认值为None，即每个分类的权重相等。
比如分为两类，默认分类是0、1、2....
第一类占比90% ，weights=[0.9, ]

class_sep: 不同分类之间的距离，默认值为1.0。

random_state: 随机种子，用于重复实验。

shuffle: 是否打乱数据，默认值为True。

flip_y: 是否将标签随机翻转，默认值为0。

noise: 添加到数据中的噪声量，默认值为None。

shuffle: 是否打乱数据，默认值为True。

利用sklearn生成分类数据集

推荐阅读更多精彩内容