机器学习之CreateML使用(二)

上篇文章, 我们介绍了 CreateML 制作图片分类模型, 在这篇文章里我们研究一下自然语言处理中的文本分类, 以及回归分析.

机器学习的一般步骤:

准备数据(数据预处理) -> 编写分类器算法 -> 训练模型 -> 评估模型表现 -> 保存模型 -> 使用模型

文本分类

CreateML 对于文本分类是没有专门的UI的, 但是我们可以自己写UI, 这里先直接展示文本分类的纯代码实现.
此次我们使用的数据集是这个, 我们要做的是一个垃圾邮件检测器模型, 通过识别文本内容, 来判断该内容是 spam(垃圾邮件) 还是 ham(火腿).

import CreateML
import Foundation
import NaturalLanguage

// 路径不要有中文, 否则可能无法读取成功.
let srcDir = URL(fileURLWithPath: "/Users/xx/Downloads/")
let data = try MLDataTable(contentsOf: srcDir.appendingPathComponent("spam.json"))
// 随机分割数据
let (trainData, testData) = data.randomSplit(by: 0.8, seed: 5)

let params = MLTextClassifier.ModelParameters(validationData: nil, algorithm: .maxEnt(revision: 1), language: .English)


// 创建Model, 并开始训练
let textClassifier = try MLTextClassifier(trainingData: trainData,
                                            textColumn: "text",
                                            labelColumn: "label",
                                            parameters: params
                                        )


// 打印结果
let trainAccuracy = (1 - textClassifier.trainingMetrics.classificationError) * 100
let validateAccuracy = (1 - textClassifier.validationMetrics.classificationError) * 100

print("trainAccuracy: \(trainAccuracy), validateAccuracy: \(validateAccuracy)")

// 测试数据
let evaluationMetrics = textClassifier.evaluation(on: testData)
let evaluationAccuracy = (1 - evaluationMetrics.classificationError) * 100

print("evaluationAccuracy: \(evaluationAccuracy)")

// 保存模型
let metadata = MLModelMetadata(author: "LC", shortDescription: "text classifier", license: nil, version: "1.0", additional: nil)
try textClassifier.write(to: srcDir.appendingPathComponent("TextClassifier.mlmodel"),
                         metadata: metadata)

使用模型

image.png

通过观察这个模型的一些参数, 发现评测模型需要一个 String 的输入参数, 指的是文本内容, 模型会输出一个 String类型的 label, 指的是 spam 或者 ham.

let model = TextClassifier()
    
guard let result = try? model.prediction(text: "I love you") else {
    fatalError("Prediction failed!")
}
print("输出:", result.label)  // ham 

代码里有详细的注释, 这里不再做赘述.
有几点比较我在意

  • 训练数据不再是依靠文件夹的名字为 label (图片分类是这样), 而是将所有数据以字典的形式写在同一个文件中, 这意味, 如果我们手头上有10000份电影评论的数据, 需要做情绪分析的话, 我们需要做数据预处理, 将所有数据写在同一个文件中再来读取.
  • 创建模型里面的参数, 目前模型的基础算法有 maxEntcrf 两种, 对于文本的处理有一个 NLLanguage, 属于 NaturalLanguage 框架.

表格分类(回归分析)

此次使用的数据集是这个, ;我们要做的是一个预测房价的模型.
表格里面涉及到四个参数,

  • RM(每个住宅的平均房间数)
  • LSTAT: 人口中被认为地位较低的百分比
  • PTRATIO: 城镇学生与学生的比率
  • MEDV: 自住房屋价格的中位数

我们通过这3个特性(RM, LSTAT, PTRATIO)来计算最终的价格(MEDV)

import CreateML
import Foundation

let srcDir = URL(fileURLWithPath: "/Users/xx/Downloads/")
let data = try MLDataTable(contentsOf: srcDir.appendingPathComponent("HouseData.csv"))
// 随机分割数据
let (trainData, testData) = data.randomSplit(by: 0.8, seed: 0)

// 创建Model, 并开始训练
let priceModel = try MLRegressor(trainingData: trainData,
                             targetColumn:  "MEDV")


// 保存模型
let metadata = MLModelMetadata(author: "LC", shortDescription: "通过房子的特征预测价格", license: nil, version: "1.0", additional: nil)
try priceModel.write(to: srcDir.appendingPathComponent("HousePricer.mlmodel"),
                         metadata: metadata)
  • 使用模型


    image.png

通过观察这个模型的一些参数, 发现评测模型需要三个 Double 的输入参数, 指的是房屋房间数, 低位较低的占比, 城镇学生占比, 模型会输出一个 Double 类型的 值, 指的是 房屋价格.

let model = HousePricer()
    
// RM(每个住宅的平均房间数)
// LSTAT: 人口中被认为地位较低的百分比
// PTRATIO: 城镇学生与学生的比率
guard let result = try? model.prediction(RM: 5, LSTAT: 5, PTRATIO: 5) else {
    fatalError("Prediction failed!")
}
print("房屋价格:", result.MEDV) // 407177.23193359375

总结

  • 到目前为止, CreateML 能做的只有三类, 图片分类, 自然语言处理, 回归分析
  • 而且只能依靠Mac本身来计算, 算力无法进一步提升, 意味着做出来的模型还远远达不到工业级的标准.
  • 除了 CreateML, 还有 TuriCreate, TFiwS 都可以应用在ML领域, 后面会继续补充.

参考
Apple官网- Machine Learning
WWDC2018之Create ML(二)
Create ML : 如何在Xcode 10中训练您自己的机器学习模型

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容