iOS使用CoreML分类汽车评论

前言


上一篇【iOS使用CoreML来分类垃圾信息】文章中用的是英文语料,而苹果的文本分类其实是支持多语言的,而中文的训练在国内更具实用价值,所以本文介绍如何针对中文语料进行训练。

使用的数据来自汽车论坛的评论,有9000+条数据,已经进行了标记。

构建模型


使用的原始数据格式如下,包含评论和已经标记的主题、ID、观点等,我们模型只使用了评论和主题:

train.csv

模型训练:

import Cocoa
import CreateML
import NaturalLanguage

let data = try MLDataTable(contentsOf: URL(fileURLWithPath: "/Users/Jiao/Desktop/SecurityKeeper/CommentClassify/data.json"))
var (trainData, testData) = data.randomSplit(by: 0.8, seed: 5);
let param = MLTextClassifier.ModelParameters(validationData: testData, algorithm: MLTextClassifier.ModelAlgorithmType.maxEnt(revision: 1), language: NLLanguage.simplifiedChinese)
let commentClassifier = try MLTextClassifier(trainingData: data, textColumn: "content", labelColumn: "subject", parameters: param)
let evalMetrics = commentClassifier.evaluation(on: testData)
let evalAcc = 1 - evalMetrics.classificationError
print(evalAcc)

let metadata = MLModelMetadata(author: "Jiao", shortDescription: "comment classify", license: "MIT", version: "1.0", additional: nil)
try commentClassifier.write(to: URL(fileURLWithPath: "/Users/Jiao/Desktop/SecurityKeeper/CommentClassify/mlmodel/classifier.mlmodel"), metadata: metadata)

这里原始数据的中文中有很多格式是CreateML无法处理的,如果不清洗的话会卡在文本映射向量阶段,而且内存会一直上涨,有其他帖子说中文训练很耗内存可能就是这个原因。最后我将数据中部分格式清洗过后就能正常训练,9000多条评论训练速度也就几十秒还是可以接受。

模型使用


有了模型后使用就很简单了,跟英文语料生成模型使用一样,导入mlmodel后,xcode会自动生成类和接口函数。

代码如下:

//
//  MainTableViewController.m
//  CarComment
//
//  Created by Jiao Liu on 6/20/19.
//  Copyright © 2019 ChangHong. All rights reserved.
//

#import "MainTableViewController.h"
#import "classifier.h"

@interface MainTableViewController () {
    NSMutableArray *data;
    classifier *model;
}

@end

@implementation MainTableViewController

- (void)viewDidLoad {
    [super viewDidLoad];
    data = [NSMutableArray arrayWithObjects:@"这玩意都是给有钱任性又不懂车的土豪用的,这价格换一次我妹夫EP020可以换三锅了",
            @"听过,价格太贵,但一直念念不忘",
            @"说实话,基本上用不上车上导航,用手机更方便!音响效果不用纠结,毕竟不是想成为移动音乐厅。",
            @"换4条静音轮胎才是正道",
            @"2.0 平均油耗10个 不到四千公里",
            @"同样的颜色 你们觉得是16款好看还是19款好看",
            @"女孩子打算买国六1.5t中配,12万多,首付20%不到3万,上路5万左右,分4年,一月还2500左右。贵吗?",
            @"我想问一下 16寸轮毂要比17寸轮毂小,那车子底盘离地面的距离是不是16寸的比17寸的还要矮上很多???",
            @"这车没有自动落锁吗",
            @"想要动力强提速快就菲斯塔 情怀就思域 我们开本田125长大的就是喜欢买本田",
            nil];
    model = [[classifier alloc] init];
    self.tableView.allowsSelection = NO;
}

#pragma mark - Table view data source

- (NSInteger)numberOfSectionsInTableView:(UITableView *)tableView {
    return 1;
}

- (NSInteger)tableView:(UITableView *)tableView numberOfRowsInSection:(NSInteger)section {
    return data.count;
}


- (UITableViewCell *)tableView:(UITableView *)tableView cellForRowAtIndexPath:(NSIndexPath *)indexPath {
    UITableViewCell *cell = [tableView dequeueReusableCellWithIdentifier:@"Cell" forIndexPath:indexPath];
    
    NSString *comment = [data objectAtIndex:indexPath.row];
    cell.textLabel.text = comment;
    cell.textLabel.numberOfLines = 0;
    cell.detailTextLabel.text = [[model predictionFromText:comment error:nil] label];
    
    return cell;
}

- (IBAction)AddClicked:(id)sender {
    UIAlertController *alert = [UIAlertController alertControllerWithTitle:@"New Post" message:nil preferredStyle:UIAlertControllerStyleAlert];
    UIAlertAction *action = [UIAlertAction actionWithTitle:@"cancel" style:UIAlertActionStyleCancel handler:nil];
    [alert addAction:action];
    
    [alert addTextFieldWithConfigurationHandler:^(UITextField * _Nonnull textField) {
        textField.clearButtonMode = UITextFieldViewModeWhileEditing;
    }];
    
    UIAlertAction *confirm = [UIAlertAction actionWithTitle:@"confirm" style:UIAlertActionStyleDefault handler:^(UIAlertAction * _Nonnull action) {
        NSString *newComment = alert.textFields.firstObject.text;
        if (newComment.length != 0) {
            [self->data insertObject:newComment atIndex:0];
            [self.tableView reloadData];
            [self.tableView scrollToRowAtIndexPath:[NSIndexPath indexPathForRow:0 inSection:0] atScrollPosition:UITableViewScrollPositionTop animated:YES];
        }
    }];
    [alert addAction:confirm];
    
    
    [self presentViewController:alert animated:YES completion:nil];
}

@end

运行效果


源码地址:https://github.com/JiaoLiu/CommentClassify 🏎️

demo.gif
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 中文自然语言处理开放平台 由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含...
    Paddle阅读 9,239评论 0 6
  • 要查看原文,请参看:原文地址 简介 自然语言处理是当今十分热门的数据科学研究项目。情感分析则是自然语言处理中一个很...
    凌冰_lonny阅读 13,771评论 0 55
  • 1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类...
    高永峰_GYF阅读 28,316评论 4 21
  • 今天我们继续分享诸葛越的精品课《如何培养面对未来的孩子》 是第四节课《用工作方法培养孩子》,那我们看看精英妈妈是如...
    白天的前奏阅读 191评论 2 0
  • 60是一个神奇的数字,我把它称为“轮回之数”。 秒针走了六十下,是一个轮回,进入了几世前的分针历程;分针走了六十下...
    夏念念阅读 151评论 0 1