离散制造过程中典型工件的质量符合率分类(2019-08-25)

最近,在DataFountain平台由中国计算机学会 & 西门子举办了一个“离散制造过程中典型工件的质量符合率预测”的比赛,就尝试了一下。

1.数据清洗

发现数据集的中每个特征最大最小值相差非常大,而且很大的数字不在少数。尝试用正态分布异常点检测法初步对异常值进行判断,并用均值进行替换。然而,替换完后,还是存在不少的异常点。


清洗前的数据
清洗后的数据

2.构建模型

其实,还可以利用加减乘除构建人工特征……并用多个模型融合以提高准确率,这里就是做了一个Baseline,在没有调参数的情况下,分别用SVM、MLP、CNN、LihtGBM、XGBoost跑了一遍,发现最后一个准确率在50%左右,其他的都是在41%-45%之间。

2.1 SVM (这个使用MATLAB跑的)

Data=csvread('Train_AfterQinXi.csv');

BiLi=0.1;  %注意点 1.最后一列要按顺序排列,并且最后一列一定是类型,需要设定测试集的比例

[m,n]=size(Data);%最后一列是分类的类型,Excel要排序

Testnum=zeros(1,max(Data(:,n))+1);

Speicesnum=Testnum;

kkk=1;

sum0=0;

BJS=Data(1,n);

for j=1:m

    if Data(j,n)==BJS

      sum0=sum0+1;

    else

      Speicesnum(kkk)=sum0;

      Testnum(kkk)=floor(BiLi*sum0);kkk=kkk+1;

      sum0=1;BJS=Data(j,n);

    end

end

Testnum(1,end)=floor(BiLi*sum0);

Speicesnum(1,end)=sum0;

for j=1:length(Testnum)

    if Testnum(j)==0

      Testnum(j)=1;

    end

end

%求出每类的个数

Train_Feature=[];

Train_Label=[];

Test_Feature=[];

Test_Label=[];

for j=1:max(Data(:,n))+1

    if j==1

      Kaishi=1;

    else

      Kaishi=sum(Speicesnum(1,1:j-1))+1;

    end

    JieSu1=sum(Speicesnum(1,1:j))-Testnum(j);

    JieSu2=sum(Speicesnum(1,1:j));

    Train_Feature=[Train_Feature;Data(Kaishi:JieSu1,1:n-1)];

    Train_Label=[Train_Label;Data(Kaishi:JieSu1,n)];

    Test_Feature=[Test_Feature;Data(JieSu1+1:JieSu2,1:n-1)];

    Test_Label=[Test_Label;Data(JieSu1+1:JieSu2,n)];

end

%数据预处理,将训练集和测试集归一化到[0,1]区间

[mtrain,ntrain] = size(Train_Feature);

[mtest,ntest] = size(Test_Feature);

dataset = [Train_Feature;Test_Feature];

[dataset_scale,ps] = mapminmax(dataset',0,1);

dataset_scale = dataset_scale';

Train_Feature = dataset_scale(1:mtrain,:);

Test_Feature = dataset_scale( (mtrain+1):(mtrain+mtest),: );

%SVM网络训练和预测

model = fitcecoc(Train_Feature,Train_Label);

[predict_label] =predict(model,Test_Feature);

accuracy=0;

for j=1:length(Test_Label)

    if Test_Label(j)==predict_label(j)

      accuracy=accuracy+1;

    end

end

accuracy=accuracy/length(Test_Label)

2.2 LightGBM

import lightgbm as lgb

import numpy as np

from pandas import read_csv

from sklearn import datasets

from xgboost import plot_importance

from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split

dataset = read_csv('ZeroOne_Train.csv')

XXX = read_csv('ZeroOne_Test.csv')

values = dataset.values

XY= values

Y = XY[:,10]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:10]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:10]

testY =Y[n_train_hours1:]

X_train=np.array(x_train,dtype=np.float)

X_test=np.array(x_test,dtype=np.float)

y_train=np.array(trainY,dtype=np.int)

y_test=np.array(testY,dtype=np.int)

XXX=np.array(XXX,dtype=np.float)

params = {

'boosting_type': 'gbdt',

'objective': 'multiclassova',

'num_class': 4, 

'metric': 'multi_error',

'num_leaves': 63,

'learning_rate': 0.01,

'feature_fraction': 0.9,

'bagging_fraction': 0.9,

'bagging_seed':0,

'bagging_freq': 1,

'verbose': -1,

'reg_alpha':1,

'reg_lambda':2,

'lambda_l1': 0,

'lambda_l2': 1,

'num_threads': 8,

}

train_data=lgb.Dataset(X_train,label=y_train)

validation_data=lgb.Dataset(X_test,label=y_test)

clf=lgb.train(params,train_data,valid_sets=[validation_data],num_boost_round = 1300,verbose_eval = 100)

y_pred=clf.predict(XXX, num_iteration=1300)

2.3 XGBoost

import xgboost as xgb

import numpy as np

from pandas import read_csv

from xgboost import plot_importance

from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split

dataset = read_csv('ZeroOne_Train.csv')

XXX = read_csv('ZeroOne_Test.csv')

values = dataset.values

XY= values

Y = XY[:,10]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:10]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:10]

testY =Y[n_train_hours1:]

X_train=np.array(x_train,dtype=np.float)

X_test=np.array(x_test,dtype=np.float)

y_train=np.array(trainY,dtype=np.int)

y_test=np.array(testY,dtype=np.int)

XXX=np.array(XXX,dtype=np.float)

params = {

    'booster': 'gbtree',

    'objective': 'multi:softmax',

    'num_class': 4,

    'gamma': 0.1,

    'max_depth': 6,

    'lambda': 2,

    'subsample': 0.7,

    'colsample_bytree': 0.7,

    'min_child_weight': 3,

    'silent': 1,

    'eta': 0.1,

    'seed': 1000,

    'nthread': 4,

}

plst = params.items()

dtrain = xgb.DMatrix(X_train, y_train)

num_rounds = 500

model = xgb.train(plst, dtrain, num_rounds)

# 对测试集进行预测

dtest = xgb.DMatrix(XXX)

ans = model.predict(dtest)

2.4 MLP

from __future__ import print_function

import keras

from keras.models import Sequential

from keras.layers import Dense, Dropout

from pandas import read_csv

batch_size = 100

num_classes = 4

epochs = 200

dataset = read_csv('ZeroOne_Train.csv')

XXX = read_csv('ZeroOne_Test.csv')

values = dataset.values

XY= values

Y = XY[:,10]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:10]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:10]

testY =Y[n_train_hours1:]

y_train = keras.utils.to_categorical(trainY, num_classes)

y_test = keras.utils.to_categorical(testY, num_classes)

model = Sequential()

model.add(Dense(128,input_dim=10,kernel_initializer='normal',activation='relu'))

model.add(Dense(128,kernel_initializer='normal',activation='relu'))

model.add(Dense(128,kernel_initializer='normal',activation='relu'))

model.add(Dropout(0.25))

model.add(Dense(num_classes, activation='softmax'))

model.summary()

model.compile(loss=keras.losses.categorical_crossentropy,

              optimizer=keras.optimizers.Adadelta(),

              metrics=['accuracy'])

history=model.fit(x_train, y_train,

                        batch_size=batch_size,

                        epochs=epochs,

                        verbose=2,

                        validation_data=(x_test, y_test))

prediction=model.predict_classes(XXX)

2.5 CNN

from __future__ import print_function

import keras

from keras.datasets import mnist

from keras.models import Sequential

from keras.layers import Dense, Dropout, Flatten

from keras.layers import Conv2D, MaxPooling2D

from keras import backend as K

from pandas import read_csv

batch_size = 32

num_classes = 4

epochs = 200

# input image dimensions

# 输入图像维度

img_rows, img_cols = 4, 4

input_shape = (img_rows, img_cols, 1)

# the data, shuffled and split between train and test sets

# 用于训练和测试的数据集,经过了筛选(清洗、数据样本顺序打乱)和分割(分割为训练和测试集)

dataset = read_csv('ZeroOne_Train_CNN.csv')

values = dataset.values

XY= values

Featurenumber=img_rows*img_cols

Y = XY[:,Featurenumber]

n_train_hours1 =5398

x_train=XY[:n_train_hours1,0:Featurenumber]

trainY =Y[:n_train_hours1]

x_test =XY[n_train_hours1:, 0:Featurenumber]

testY =Y[n_train_hours1:]

x_train = x_train.reshape(-1,4,4,1)

x_test = x_test.reshape(-1,4,4,1)

y_train = keras.utils.to_categorical(trainY, num_classes)

y_test = keras.utils.to_categorical(testY, num_classes)

model = Sequential()

model.add(Conv2D(16, kernel_size=(3, 3),

                activation='relu',

                padding='same',

                input_shape=input_shape))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Conv2D(32, kernel_size=(3, 3),

                activation='relu',

                padding='same'))

model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Dropout(0.25))

model.add(Flatten())

model.add(Dense(16, activation='relu'))

model.add(Dropout(0.5))

model.add(Dense(num_classes, activation='softmax'))

model.summary()

model.compile(loss=keras.losses.categorical_crossentropy,

              optimizer=keras.optimizers.Adadelta(),

              metrics=['accuracy'])

history=model.fit(x_train, y_train,

                        batch_size=batch_size,

                        epochs=epochs,

                        verbose=2,

                        validation_data=(x_test, y_test))

a=history.history['acc']

b=history.history['val_acc']

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容