你将被机器人取代!数据科学即将迎来“无代码”时代


我们正在进入数据科学实践的新阶段,即“无代码”时代。 像所有重大的变化一样,这个变化还没有在实践中清晰地体现,但这个变化影响深远,发展趋势非常明显。


现在,每一周都会有一些自动代码行业的最新进展。创业公司的集成产品是有一些进展的,不过更多见的是基于现有分析平台供应商新添加的功能或模块。

自从自动化机器学习(AML)平台出现以来,我一直在关注它们的成长。

我在2016年春天,撰写了一篇关于它们的文章,题目是“数据科学家将被自动化机器学习平台取代并在2025年失业!”。

当然,我的预测不是绝对准确的,但在过去的两年半里,自动化功能在我们机器学习行业中的发展确实非常引人注目。 

不需要人工写代码的数据科学

无代码数据科学(即不需要人工写代码的数据科学),或自动机器学习,或者可以称为简单易用的 “增强型”数据科学产品,范围包括:

附带指导的平台:具有高度指导功能的建模程序平台(当然还是需要用户完成一定步骤,这样的平台有BigML,SAS,Alteryx)。经典的简易操作平台(drag-and-drop )是这一代的基础。很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习企鹅群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

自动机器学习(AML):全自动机器学习平台(例如DataRobot)。

会话分析:在最新版本中,用户只要提出可以通过常用英语解决的问题,平台就会提供最佳答案,选择数据,特征,建模技术,甚至可能是最佳数据可视化。

不仅仅为了先进的分析

我们工具的智能扩展从预测和规范建模,已经扩展到了数据混合和数据准备领域,甚至扩展到数据视觉设计的领域。这意味着无代码智能功能可提供传统商学院的商业智能分析师(BI business analysts)使用,当然也可以为公民数据学者(又名Citizen Data Scientists)提供支持。

这种演变的市场驱动因素众所周知。在高级分析和人工智能中,核心的困难在于精英数据科学家的短缺,以及其高昂的成本和迫切的需求。在这个领域,最需要的是洞察力,效率和一致性。简而言之,就是效率高,速度快。

然而,上述工具在数据准备,混合,特征识别领域,对数据科学家来说也很重要,但是这些工具真正吸引的是有着更多数据分析师/ BI从业者的世界。在这个世界中,经典静态数据的ETL仍然是一个巨大的负担和时间的延迟,它正在从IT专家的功能迅速转向自助服务。

简易平台->写代码->回到简易平台

我在2001年开始从事数据科学研究时,SAS和SPSS是主要的工具,并且已经从他们的专有代码转向简易操作平台,这便是机器学习自动化的最早形式。

在这之后的7~8年,学术界转向R语言教学,因为虽然SAS和SPSS向学生免费开放,但是他们仍然向教师收费(尽管给学术界的折扣很大)。但是,R一直是免费的。

然后我们就到了这样一个时代,一直持续到今天。在这个时代里,成为数据科学家意味着成为程序员。用代码作业,这就是当前这一代数据科学家受到教育的方式,也是他们在数据科学实践的方式。

人们有着一个并不正确的误解:在简易操作系统平台中,不允许微小超参数的调试,而这应该被允许。如果你曾经使用过SAS Enterprise Miner或其竞争对手的平台上,那么您知道这个想法并不对,事实上,微调非常容易做到。

在我的脑海里,总需要写代码是一个不必要的弯路—这往往会让新的数据科学实践者忽视基础知识,而致力于学习另一种编程语言。

模型质量怎么样

我们倾向于将“提高模型的准确性”视为高级分析是否成功的标准。有一种观念认为,依靠自动化的无代码解决方案会丢失部分准确性。事实并非如此。

像DataRobot,Tazi.ai和OneClick.ai这样的AutoML平台不仅支持并行运行数百种模型类型,还包括超参数,而且它们还可以执行变换,特征选择甚至进行一些特征工程。在准确度上击败这样的平台是很困难的。

需要注意的是,应用特征工程领域的专业知识仍然是人类的优势。

也许更重要的是,你在开发上花费几周时间得到的结果和这些AutoML平台提供的几天甚至几小时的结果相似,那到底哪个更值?

无代码化带来更深远的影响

在我看来,无代码化的最大受益者实际上是传统数据分析师和数据学者,他们仍然最关注BI静态数据。独立的数据混合和准备平台,对这个群体(以及工作量将大大减轻的IT工作者)来说,是一个巨大的好处。

这些无代码化数据准备平台,例如ClearStory Data,Paxata和Trifacta正在迅速将机器学习功能纳入它们的流程,帮助用户选择合适的数据源进行数据混合,判断哪些数据项有价值,甚至它们的功能扩展到了特征工程和特征选择。

现代数据平台正在使用嵌入式机器学习技术,作为智能数据自动清洗或异常值处理的典范。

其他公司,例如Octopai公司,刚刚被Gartner评为“5大酷炫公司”之一,专注于让用户通过自动化技术快速查找可信数据,使用机器学习和模式分析来确定不同的数据要素,创建的背景数据,以及数据的预使用和转换之间的关系。

这些平台还通过强制执行权限以及保护PID和其他类似敏感数据来实现数据安全的自助服务。

甚至数据可视化技术的领导者Tableau也正在使用自然语言处理(NLP)和其他机器学习(ML)工具推出会话分析功能,允许用户以简单的英语提出查询要求,并收到最优可视化效果。

这对数据科学家而言究竟意味着什么

Gartner认为,在两年内,即到2020年前,公民数据学者(即citizen data scientist)所完成的高级分析将在数量上和价值上超越数据科学家。他们建议数据科学家专注于专业问题,并将企业级模型嵌入到应用程序中。

我不同意此想法,这似乎会使数据科学家降级去做QA和产品实施(Implementation)的工作。这不是我们的本职工作。

我的看法是,由于较小的数据科学家团队能够处理越来越多的项目,这将迅速将高级分析的使用范围扩大到更深入的项目组织层次。

在一两年之间的我们的技术已经整合了数据科学家必备的数据混合以及数据清洗功能,以及选择最适合某个项目的预测算法的能力。这正是自动无代码化数据科学工具正在取代的领域。

需要创建,监控和管理成百上千个模型的公司是这种技术最早的采用者,特别是保险和金融服务行业。

那还剩下了什么?剩下了分析优化师的高级角色。麦肯锡最近认为这是任何数据科学项目中最重要的角色。简而言之,分析优化师的工作如下:

1、引导并识别在公司业务中,在哪里数据分析可以发挥作用。

2、优化分析的流程排序。

3、在项目中,能够胜任项目经理。

4、积极采用有效优化成本效益解决方案。

换句话说,将业务问题转化为数据科学项目,并引导优化各种类型的风险和成果,使这些项目优先化。 

那所谓的人工智能呢?

是的,我们最近在图像,文本和语音处理中使用卷积神经网络(CNNs)和递归神经网络(RNNs)的最新进展中,也正在促进迅速推广自动化无代码化的解决方案。它们发展的速度还不够快,是因为缺少具有深度学习技能的数据科学家,这个问题比普通的数据科学行业还要严重。

微软和谷歌都在去年推出了自动深度学习平台。这些平台从迁移学习起步,正朝向完整的AutoDL平台进发。详细请参阅微软 Custom Vision Services和Google的类似条目Cloud AutoML。

还有一些研究集成AutoDL平台的初创公司。我们今年早些时候关注了OneClick.AI。它们包括了完整的AutoML和AutoDL平台。 Gartner最近提名DimensionalMechanics称其拥有AutoDL平台的“5大炫酷公司”之一。

曾经有一段时间,我试图持续更新和整合无代码化AutoML和AutoDL的供应商列表,并提供有关其功能的更新。但因为该行业的快速发展,使得这个整合的工作量急速上升。

我希望Gartner或其他一些团队能够继续全面的对这个领域进行关注。在2017年,Gartner做了一个相当详细的报告,名为“未来数据和分析的深度分析技术”。这是一个非常棒的供应商总结报告,虽然有一些我留意的供应商并没有被囊括其中。


据我所知,当前没有全面整合所有完全自动化或基本全自动化功能平台供应商的统计表格。然而,Gartner的报告中,你可以看到,从IBM和SAS这些大企业,到小型的初创公司都在提供类似服务。

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习企鹅群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容