机器学习项目失败的9个原因,你中招了吗?

摘要: 失败了!知道自己败在什么地方了吗?还不进来看看?

本文总结了数据科学项目失败的最常见原因,希望能够帮助你避免陷阱。

1.问错了问题

如果你问了错问题,你将会得到错误的答案。比如金融业中的欺诈识别问题,这个问题最初可能是“这个特定的交易是否存在欺诈”。为了确定这一问题,你将需要一个包含欺诈和非欺诈交易示例的数据集。这个数据集可以在一组专门负责侦测欺诈行为的专家(SME)的帮助下生成。但是,由于专家们依据的是过去对欺诈行为的认识进行的标记,用该数据集训练的模型只会捕获符合旧模式欺诈,而对于新兴的欺诈方式,这一模型将无法识别。如果将问题改为“这个交易是否反常”,它只需寻找不符合“正常”签名的交易,依靠人类进一步分析预测的欺诈交易以验证模型结果即可。但这种方法的副作用是,它很可能会比以前的模型产生更多的误报。

2.试图用它来解决错误的问题

我们经常会忽视一个问题:我们费尽心思解决了一个问题,但是解决后是否能实现我们的目的。比如,你想出了用人工智能开发出一个将人的全身照传上网站就能根据提醒量身定做一套合身的衣服的项目。完成这个项目我们需要完成以下任务:

• 开发AI/ML技术以确定照片中的身体测量值;

• 设计并创建一个网站和手机应用,以便与客户进行互动;

• 进行可行性研究以确定此产品是否有市场。

作为技术专家,我们最熟悉的就是产品设计与编码,因此我们可能想开始研究前两个任务。如果我们在执行前两项任务后进行可行性研究并且研究结果表明我们的产品没有市场,那将很可怕。

3.没有足够的数据

有一些数据十分敏感并且受到严密的保护,对它的访问可能会受到很大的限制,我们可能获取不到相关数据。

比如,在一些与生命科学领域相关的项目中,由于生命科学行业对存储和传输受保护的健康信息(PHI)非常敏感,大多数可用数据集都会将这些信息删除。例如,密西西比人比康涅狄格州的人患糖尿病的可能性更高。但是由于这些信息可能无法获得,我们将无法使用。

4.没有正确的数据

就算你拥有超棒的模型,使用错误数据或者有缺陷的数据也可能导致预测错误。在监督学习中,我们使用以前标注过的数据,由于这种标签通常是人做得,可能会存在一些错误。举一个极端的例子,假设有一个具有完美准确性的模型但使用了不准确的数据,如MINIST数据集,图像的人工标记是100%准确的。现在,假设三分之一的数字被贴错了标签,就如古老格言所说的,如果是垃圾输入,你将得到垃圾输出。

5.拥有太多数据

从理论上讲,你永远不需要很多的数据(只要它是正确的数据)。在实践中,即使存储和计算成本和性能取得了巨大的进步,我们仍然受到时间和空间的物理限制。所以数据科学家最重要的工作之一就是明智地挑选他们认为会对实现精准的模型预测产生影响的数据源。例如,预测婴儿出生体重。与母亲的年龄及住处似乎相关,但与母亲的名字可能不相关。在本例中,需要人工干预来确定删除不相关的数据。在运行模型之前,确定哪些因素相关仍是一个潜在的陷阱,可能会破坏你的数据科学项目。

6.雇佣错误的人

如果你有的是一个小型数据科学实践,你可能别无选择,只能依赖一个或几个来执行所有任务。但是,随着团队的发展你应该考虑为每项任务聘请专家。特别是对于生物技术、金融等行业拥有专业的领域知识是非常有价值的,甚至是至关重要的。同时,拥有一个主题专家(SME)和具有良好沟通技巧的数据科学家也很重要。随着你团队的不断发展,拥有正确的资源和人才库是你实践成功的最重要因素之一。

7.使用错误的工具

举个例子:你最近派遣团队在MySQL上进行训练,他们回来后,你需要设置一个分析管道。由于他们的想法已经被重新训练,于是他们建议使用他们的新工具。但是,根据管道将要处理的数据量以及你需要对结果执行的分析量,这个选择可能是对作业的错误选择。许多SQL产品对可以存储在单个表中的数据量有严格的限制。在这种情况下,更好的选择可能是使用像MongoDB这样的NoSQL产品或者像AWSRedshift这样的高度可扩展的列式数据库。

8.没有合适的模型

“无免费的午餐”(NFL)是数学中的著名定理。它指出没有一种模型是可以解决所有问题的。例如,在营销应用程序中,保留客户电子邮件和地址等属性可能很重要。而在医疗环境中,患者的身高、体重和血型可能更为重要。这表明在某种情况下运作良好的模型可能在另一种情况下不起作用。所以在数据科学中使用多个模型进行迭代,以找到最合适给定情况的模型是很常见的。在监督学习中更是如此。验证或交叉验证通常用于评估不具有复杂性的多个模型的准确性,以找到最合适的模型。此外,一个有效地模型也可以通过多种算法进行训练—例如,可以使用正规方程(Linear least squares)或使用梯度下降(Gradient descent)来训练线性回归。

9.没有正确的尺度

在机器学习中,根据对数据的训练和测试来衡量模型的性能是非常重要的。该信息将用于选择要使用的模型、超参数和确定模型是否已准备好用于生产使用。为了衡量模型的性能,最重要的是选择最佳的评估标准来完成手头的任务。

关于度量选择的文献有很多,对此不在深入探讨,但在选择指标时要牢记以下一些参数:

• 机器学习问题的类型:监督学习、无监督学习和强化学习。

• 监督学习的类型:二元、分类或回归。

• 数据集类型:如果数据集不平衡,则不同的度量标准可能更合适。

本文作者:【方向】

作者:阿里云云栖社区

链接:https://www.jianshu.com/p/8abf20bc3a07

來源:简书

简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容

  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,869评论 1 10
  • 你听 年的脚步近了 年味儿也浓了 你看 高挂的大红灯笼 喧天的威风锣鼓 快过年了 听到最温暖的一句话 莫过于回家过...
    行云流水joy阅读 162评论 0 1
  • 中午回到家,书童正在玩。见到我,她立刻指着冰箱旁的一角说:“妈妈,我的伞,很漂亮!” 我抬头愣了愣,看着先生,希望...
    小书童妈妈阅读 277评论 0 0
  • 晚间散步路过街边,一小女孩坐在小摇车上,听着小螺号的歌曲,晃着小脑袋,眨着一双水灵灵的大眼睛,裂着嘴,两个小酒窝镶...
    我笔知我心阅读 154评论 0 0
  • 34.做合格的产品经理-产品经理个人基础素质-个人管理与审美能力 审美能力 明度和纯度(饱和度)的区别 明度: 如...
    LBQ_DS阅读 182评论 0 0