自然语言处理实战（二）

自然语言处理实战（一），地址：https://www.jianshu.com/p/cf14318db049
自然语言处理实战（三），地址：https://www.jianshu.com/p/effed68ae9a5

在自然语言处理实战（一）中，我们使用KNN对搜狗新闻语聊进行分类，KNN分类准确率达到的0.864，而且精确率、召回率和F1值也都在0.86以上，说明仅仅是一个192维的向量，在最简单的机器分类算法下，已经达到了相当不错的分类效果。为了分析这个192维的向量的表现力到底能到到什么程度，在本文中，我们使用在文本分类中常用的SVM对预处理后的搜狗新闻数据进行分类。

使用SVM对搜狗新闻预料进行分类研究

SVM模型有两个非常重要的参数C与gamma。其中 C是惩罚系数，即对误差的宽容度。c越高，说明越不能容忍出现误差,容易过拟合。C越小，容易欠拟合。C过大或过小，泛化能力变差。gamma是选择RBF函数作为kernel后，该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多。支持向量的个数影响训练与预测的速度。

为维持模型在过拟合和欠拟合之间的平衡，往往最佳的参数范围是C比较大，gamma比较小；或者C比较小，gamma比较大。也就是说当模型欠拟合时，我们需要增大C或者增大gamma，不能同时增加，调节后如果模型过拟合，我们又很难判断是C过大了，还是gamma过大了；同理，模型欠拟合的时候，我们需要减小C或者减小gamma。

C和gamma的有效范围是：10^-8~10⁸，一般使用网格搜索来寻找最佳的值。下面展示SVM训练模型的代码：

def svm_model():
    # 数据路径
    data_path = 'D:\python\demo\paper\material\\train4\\train3000random.pkl'
    # 读取数据
    data = pd.read_pickle(data_path)
    # x:特征，y:标签
    x = data.iloc[1, :].tolist()
    y = data.iloc[0, :].tolist()
    
    # 划分训练集和测试集
    x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=0)
    
    svc = SVC()
    # 使用网格搜索寻找最好的svm超参数c和伽玛
    c_range = np.logspace(-5, 5, 11, base=2)
    gamma_range = np.logspace(-9, 3, 13, base=2)
    # 设置网格搜索用来优化的参数
    param_grid = [{'kernel': ['rbf'], 'C': c_range, 'gamma': gamma_range}]
    grid = GridSearchCV(svc, param_grid, cv=3, n_jobs=-1)
    
    #训练模型
    print("开始训练模型...")
    grid.fit(x_train, y_train)
    
    # 保存模型
    joblib.dump(grid, 'D:\python\demo\paper\model\sogou_svm.m')
    print("模型保存成功！")

在KNN分类中，我仅仅花了几分钟就跑完了十折交叉验证，但SVM模型的训练却花费了7741秒，两个多小时，所以不建议将模型的预测和评价操作也一同写在一个函数里面，而是应该先保存模型，再调用模型，避免重复训练数据话费大量时间。

接下来，使用训练好的SVM模型对测试数据进行预测，代码如下：

def svm_assess():
    # 加载模型
    svm_v1 = joblib.load('D:\python\demo\paper\model\sogou_svm.m')
    
    # 获得测试数据
    data_path = 'D:\python\demo\paper\material\\train4\\train3000random.pkl'
    # 读取数据
    data = pd.read_pickle(data_path)
    # x:特征，y:标签
    x = data.iloc[1, :].tolist()
    y = data.iloc[0, :].tolist()
    
    # 划分训练集和测试集，一定要注意random_state=0，保证和上次划分相同
    x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.8, random_state=0)
    predict_labels = svm_v1.predict(x_test)
    assess_model(predict_labels, y_test)


def assess_model(predict_labels, y_test):
    """
    将对模型的评估指标抽象为一个函数
    """
    model_confusion_matrix = confusion_matrix(y_test, predict_labels)
    print("混淆矩阵：\n", model_confusion_matrix)

    # 准确率：预测正确的样本占所有样本的比重
    model_accuracy = accuracy_score(y_test, predict_labels)
    print("准确率：", model_accuracy)

    # 精确率：查准率。即正确预测为正的占全部预测为正的比例。
    model_precision = precision_score(y_test, predict_labels, average='macro')
    print("精确率：", model_precision)

    # 召回率：查全率。即正确预测为正的占全部实际为正的比例。
    model_recall = recall_score(y_test, predict_labels, average='macro')
    print("召回率：", model_recall)

    # F1值：同时考虑准确率和召回率，越大越好
    model_f1 = f1_score(y_test, predict_labels, average='macro')
    print("F1值：", model_f1)

最终得到的结果如下：

混淆矩阵：
[[375 3 211 4 2]
[ 4 388 222 4 3]
[ 15 4 577 13 11]
[ 3 6 182 377 5]
[ 6 2 204 5 374]]
准确率： 0.697
精确率： 0.8377886688759263
召回率： 0.6952924712364587
F1值： 0.7225795628388778

尴尬，SVM的分类效果竟然还没有KNN来的好，为了进一步改进SVM的分类效果，需要做两步调整：
第一步：对数据特征进行归一化；
第二部：改进网格搜索的两个超参数C和gamma。

归一化和标准化

归一化是对不同特征维度进行伸缩变换，目的是使各个特征维度对目标函数的影响权重是一致的，即使得那些扁平分布的数据伸缩变换成类圆形，提高迭代求解的收敛速度。这也就改变了原始数据的一个分布。

标准化对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。

介绍两种归一化方法：

最小最大归一化，将数据映射到[0, 1]，转换函数如下：
零-均值归一化，得到的数据均值为0，标准差为1，转换函数如下;

这两种最常用方法使用场景：

1、在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。

2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。

原因是使用第一种方法(线性变换后)，其协方差产生了倍数值的缩放，因此这种方式无法消除量纲对方差、协方差的影响，对PCA分析影响巨大；同时，由于量纲的存在，使用不同的量纲、距离的计算结果会不同。而在第二种归一化方式中，新的数据由于对方差进行了归一化，这时候每个维度的量纲其实已经等价了，每个维度都服从均值为0、方差1的正态分布，在计算距离的时候，每个维度都是去量纲化的，避免了不同量纲的选取对距离计算产生的巨大影响。

数据归一化代码：

def data_normalization(x):
    """
    z-score 标准化(zero-mean normalization)
    """

    # 使用pandas处理数据
    x_D = pd.DataFrame(x)
    
    # 归一化
    # 注意，np.std(）计算的是标准差，df.std()计算的是标准差的无偏估计
    x_norm = x_D.apply(lambda i : (i -np.mean(i)) / (np.std(i)), axis=0)
    
    return np.array(x_norm)

重新选择SVM的两个超参数的搜索空间

def svm_hyperparameter():
    """
    生成SVM所需的C和gamma两个超参数的搜索空间
    """
    # C在0.001到100之间差异化取值
    c1 = np.arange(0.001, 0.1, 0.01)
    c2 = np.append(c1, np.arange(0.1, 1, 0.1))
    c3 = np.append(c2, np.arange(1, 10, 1))
    c4 = np.append(c3, np.arange(10, 101, 5))
    
    # gamma在0.0001到10之间差异化取值
    g1 = np.arange(0.0001, 0.01, 0.001)
    g2 = np.append(g1, np.arange(0.01, 0.1, 0.01))
    g3 = np.append(g2, np.arange(0.1, 1, 0.1))
    g4 = np.append(g3, np.arange(1, 11, 1))
    
    return c4, g4

所以，原来的代码需要做一些修改，分别是:

# 输入特征需要修改为
x = data_normalization(x)

# C和gamma的范围需要修改为
c_range, gamma_range = svm_hyperparameter()

这一修改不得了，模型训练直接花了将近20个小时，一方面可能是我的电脑配置不太好，一方面是SVM在处理大量高维数据的时候确实显得力不从心。

当我使用这个新的SVM模型在测试集上测试的时候，得到以下结果：

混淆矩阵：
[[209 367 14 5 0]
[ 2 612 6 1 0]
[ 8 569 41 2 0]
[ 23 473 15 62 0]
[ 22 505 29 8 27]]
准确率： 0.317
精确率： 0.6438589874100563
召回率： 0.3113569010610703
F1值： 0.253302493767853

发现所有指标都不如之前的结果，C和gamma的搜索空间比之前更加精细了，所以有可能是归一化出了问题，当去除归一化重新训练的时候，得到以下结果：

准确率： 0.8866666666666667
精确率： 0.88692177478191
召回率： 0.8870255143795784
F1值： 0.8866414914602677

果然是归一化的问题，看来我对归一化的理解还是不够准确，并不是所有特征都适合归一化，本项目所使用的特征不具有“特征尺度”差异性，更重要的是特征之间有极强的相关性，所以归一化虽然提高了一点训练速度，但造成了分类效果迅速下降的灾难。（注意，归一化会改变分布！）

总算是得到一个比较好的结果了，但是训练却花费了25个小时，由此可以得知，SVM在处理高维大量数据的时候并不高效。另外，利用网格搜索时，C包括：
[1.0e-03 1.1e-02 2.1e-02 3.1e-02 4.1e-02 5.1e-02 6.1e-02 7.1e-02 8.1e-02
9.1e-02 1.0e-01 2.0e-01 3.0e-01 4.0e-01 5.0e-01 6.0e-01 7.0e-01 8.0e-01
9.0e-01 1.0e+00 2.0e+00 3.0e+00 4.0e+00 5.0e+00 6.0e+00 7.0e+00 8.0e+00
9.0e+00 1.0e+01 1.5e+01 2.0e+01 2.5e+01 3.0e+01 3.5e+01 4.0e+01 4.5e+01
5.0e+01 5.5e+01 6.0e+01 6.5e+01 7.0e+01 7.5e+01 8.0e+01 8.5e+01 9.0e+01
9.5e+01 1.0e+02]
gamma包括：
[1.0e-04 1.1e-03 2.1e-03 3.1e-03 4.1e-03 5.1e-03 6.1e-03 7.1e-03 8.1e-03
9.1e-03 1.0e-02 2.0e-02 3.0e-02 4.0e-02 5.0e-02 6.0e-02 7.0e-02 8.0e-02
9.0e-02 1.0e-01 2.0e-01 3.0e-01 4.0e-01 5.0e-01 6.0e-01 7.0e-01 8.0e-01
9.0e-01 1.0e+00 2.0e+00 3.0e+00 4.0e+00 5.0e+00 6.0e+00 7.0e+00 8.0e+00
9.0e+00 1.0e+01]

交叉验证数是3，所以一共要循环 47 x 38 x 3 = 5358次，这也是造成训练耗时过长的重要原因。

结果似乎是比较满意的，虽然花了很多力气，但准确率和F1值都是比较高的，尤其是所有指标都高于KNN。

然后，打印看看结果最好的地方，C和gamma到底是什么值：

{'C': 20.0, 'gamma': 0.0001, 'kernel': 'rbf'}

非常尴尬，gamma在我们设定的最小边界处取得最好效果，这意味着gamma的搜索空间设置仍然不是最好的。

我们知道，C越大，模型越容易过拟合；C越小，模型越容易欠拟合。gamma越小，模型的泛化性变好，但过小，模型实际上会退化为线性模型；gamma越大，理论上SVM可以拟合任何非线性数据。

既然 gamma 取到了0.0001甚至可能更小，说明样本空间中的样本不用做过多的映射即可做到线性可分，而且，很多问题中，比如维度过高，或者样本海量的情况下，大家更倾向于用线性核，因为效果相当，但是在速度和模型大小方面，线性核会有更好的表现。

Andrew Ng给的建议：

n:特征的维度

m:训练集的条数

1、n相对m很大时，如n=10000，m = 10，......，1000

建议用逻辑回归或者SVM(不带核函数即线性核)

2、n比较小，m居中，如n=1-1000，m=10，......，10000

建议使用带高斯核(rbf，径向基函数)的SVM

我这边n比较小，m在十几万的样子，又没法增加标签做到线性可分，所以用第二个，高斯核

3、n比较小，m很大，如n=1-1000，m=50000+

新增更多的特征，然后使用逻辑回归或SVM(不带核函数即线性核)

所以，将模型更换为线性核，C的搜索范围是 [18. , 18.5, 19. , 19.5, 20. , 20.5, 21. , 21.5]，重新训练模型。耗时： 39183.2230784893，说明线性核并不一定比高斯核快。最终测试结果如下：

混淆矩阵：
[[527 15 31 16 6]
[ 20 562 5 30 4]
[ 45 15 506 36 18]
[ 18 14 31 501 9]
[ 16 6 11 30 528]]
准确率： 0.8746666666666667
精确率： 0.8756794651528986
召回率： 0.8749163662818411
F1值： 0.8747415249077493

选到的C为 {'C': 19.0, 'kernel': 'linear'}。

综上，我们的文本表示模型，在选用 SVM 进行训练的时候，最高能达到0.88以上的准确率和F1值，即使选用线性核，也可以达到0.87以上的准确率和F1值，好于KNN的分类效果。另外，在最好的分类效果时，惩罚系数C达到了19甚至20，说明线性分类时，存在较大的噪声。

参考资料：
https://www.cnblogs.com/yuehouse/p/9742697.html
https://blog.csdn.net/wusecaiyun/article/details/49681431
https://www.zhihu.com/question/20467170?sort=created
https://blog.csdn.net/pipisorry/article/details/52247379

最后编辑于：2019.04.30 10:40:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,907评论 6赞 506
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,987评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,298评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,586评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,633评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,488评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,275评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,176评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,619评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,819评论 3赞 336
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,932评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,655评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,265评论 3赞 329
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,871评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,994评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,095评论 3赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,884评论 2赞 354

自然语言处理实战（二）

使用SVM对搜狗新闻预料进行分类研究

归一化和标准化

推荐阅读更多精彩内容