Introducing Create ML

前言


去年加入的CoreML framework大获成功,相信许多开发者都已经尝试在自己的app里加入机器学习的功能了,然而从哪里获取模型的问题一直不太好解决。即使苹果提供了一个python工具 --- CoreML Tool,可以将caffe等模型转成coreML模型,但支持的文件类型有限(后面支持了大多数类型),我尝试过,对于我这种ML领域小白,感觉也不太好用。所以苹果今年提供了一个全新的库---createML,他是swift专属的framework,可以解决获取CoreML模型的难题。

CreateML

这个topic主要介绍了

  • Transfer Learning(迁移学习)
  • 图像识别
  • 文本识别
  • 表格数据推断

通过createML和CoreML,可以只用swift一种语言,在mac上解决创建/训练/评估模型-跑模型-部署到端上运行,并且训练、评估模型都是一两句代码就可以实现。对于iOS开发者来说,引入机器学习的成本可以说非常低了,值得关注。

机器学习工作流

CreateML目前只能训练三种类型的数据:图像、文字和表格数据。
对应目前的识别能力就是图像、文本识别和根据表格数据推断等。

Transfer Learning


我准备开始训练数据,然而难题出现了,我上哪找大量用来训练的数据?
得益于transfer learning,仅仅需要少量数据就足够了。由于苹果本身在端上已经内置了多个自己的识别模型(应该是一些大文件,苹果训练了多年的数据,我理解是万物识别),我们训练的模型是基于苹果模型的一种增强,具体就是将他的模型最后几层layer重新根据我们的数据训练。最终做推断时会结合苹果的训练结果和你提供的数据的训练结果来推断。

Labeled Fruits是我们提供的数据,通过createML重新训练苹果模型的最后几层,最终输出一个coreML模型

这样训练时间大大减少,甚至几秒钟就能训练完成。
模型大小也能从100MB级别减少到KB级别。

transfer learning让模型可以复用,个人开发者可以轻松训练出体积小的模型,让app更加智能。同时体积小的文件方便下发到端上,甚至内置在安装包里发布。

图像


首先要自己将图像数据分类好,准备好用来训练的数据和用来评估的数据。下图是一种分类方式,将每种类型的图片放在一个文件夹里。然后创建一个swift playground

注意:需要macOS mojave 10.14Beta,Xcode10Beta,并且playground项目最好放在桌面,多试几次import CreateML才能出来。

两行代码,run,就出现一个可视化的窗口

png或jpg文件都可以,尺寸没有要求,把TestImages文件夹和TrainImages文件夹分别拖进来就可以了,当然也可以用纯代码的方式训练,流程是:

指定数据源 - 创建模型 - 评估模型 - 保存模型

如下图。

纯代码训练和评估模型,#!/usr/bin/swift变成可执行文件

这里我使用了https://github.com/Rubenfer/CreateML里提供的图片,故意使用8张图片来训练,只有猫和狗两种类型,19张图片用来评估预测,准确率居然100%,模型文件只有17KB。
然后我将dog文件夹名字改成cat,cat改成dog,发现识别准确率依然100%,对于错误分类的数据也能“正确”的预测出来,当然,你给一张猫狗以外的图片肯定识别错,因为结果枚举里只有猫狗这两种。不过transfer learning还是很牛逼了。

如果对模型满意,只要将模型文件拖到项目里即可,具体CoreML文件的使用参考去年的https://developer.apple.com/videos/play/wwdc2017/703

建议自己尝试https://github.com/Rubenfer/CreateML

文本


data source的格式支持以文件夹分类的txt文本、csv文件和json格式的文件。

文本识别的流程被极大简化了,识别前的语言预测和文本分段都不需要考虑。流程和图片识别类似,只是将MLImageClassifier换成了MLTextClassifier,如下图。

文件夹作为数据源的NLP workflow
json文件作为数据源,使用MLDataTable

虽然今年NLP支持了中文的词性识别和中文机构识别,但我在testData里加入中文好像导致死循环了,不太确定中文数据能否用在createML里。
关于NLP的使用,以前是用NSLinguisticTagger,今年有了一整套新的NL开头的api,参考https://developer.apple.com/videos/play/wwdc2018/713/

建议自己尝试https://github.com/Flight-School/Programming-Language-Classifier,可以获得一个能够识别多种编程语言的模型文件。

识别准确率高达99.64%

表格(TabularData)


createML使用MLDataTable来处理表格数据,datasource支持csv、json,它是基于Turi的。

表格的行是一个example,列是一个feature,通常选取一个列作为target来预测,以example为单位挖掘每个feature之间的关系。这里把price作为target,评估数据时target列的数据对于模型是隐藏的,通过挖掘到的关系来对price做一个inference(预测),再和真实数据里的price比较,评估准确率。

可以方便地筛选想要的example

流程和上面的类似。randomSplit可以将你提供的数据源随机按比例划分成训练数据和评估数据。这里返回的元组,80%的数据是用来训练的,20%是用来评估的。table数据的训练有很多训练器,包括MLBoostedTreeRegressor、MLDecisionTreeRegressor、MLRandomForestRegressor、MLLinearRegressor等,如果不知道要用哪个,可以直接用MLRegressor,他会自动选择一个最合适的。

TabularData workflow

总结


我的理解:createML训练出来的模型必然是依赖苹果模型的,其实本质是用苹果的模型来识别,所以离开苹果的环境应该无法使用。而我们日常开发中费很大力气训练出一个可用的模型,是希望它能运行在多平台的,这样看来CreateML最终产出的CoreML只支持iOS/macOS,在这点上有很大局限性,所以这可能是苹果接下来要解决的另一个难题。
能否让CoreML运行在android等其他平台,将成为CoreML普及的一个关键,目前来看只有纯粹的开发iOS/macOS平台的个人开发者会使用CoreML和CreateML。
虽然如此,我们还是应该开始尝试,毕竟ML的准入门槛已经降低了很多,以后ML也必将成为每个app的标配。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,937评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,503评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,712评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,668评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,677评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,601评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,975评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,637评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,881评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,621评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,710评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,387评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,971评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,947评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,189评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,805评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,449评论 2 342

推荐阅读更多精彩内容

  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    阳明先生_x阅读 15,967评论 3 119
  • 如果可以,我愿意做一名麦田守望者 只有我——唯一的大人,和孩子们 播种,等待发芽,看它长高,秋天收获 如果可以,我...
    叽咕叽咕guanguan阅读 255评论 0 0
  • 很高兴遇见这样一个平台,也很欣喜在简书的泥土里生根,慢慢学习,顺便采撷珍珠,以供自己高山仰止。 虽然无奈地发现有很...
    周小臣阅读 231评论 0 1
  • 意想不到:这个电话,让毓沣同学很快做出了决定。告诉我订了来武汉的票。发现:一旦人心定。真的就是一念之...
    福娃婧阅读 137评论 0 0
  • 莫露提了一箱酸奶来看余生。余生问:“万一我不在家咋办?你扔门口啊?”莫露眯着眼看看余生,笑笑:“就扔门口啊。再说,...
    土申哥哥阅读 265评论 0 1