可以实现实现子样本生成和子样本选取。
子样本生成:生成的数据子集小且不属于原数据集
子样本选取:生成的数据子集小且属于原数据集
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
print(sorted(Counter(y_resampled).items()))
X,y均为numpy的数据结构
上述代码实现子样本选取,修改RandomUnderSampler的参数可以自定义选取的模式,如按比例个数选取等等。