人工智能项目开发实战(上)

人工智能项目开发和云平台服务之间的关系。

一、人工智能项目开发规划与准备

序号为4的数据信息有着明显的不一致性问题

对数据资源的管理。针对企业数据全生命周期所涉及应用数据的管理,对数据变化的管理,或者说是针对描述数据的数据的管理(即元数据)。把整个关于数据管理的定义称之为面向应用的数据管理。

数据管理包含数据治理。在数据管理的过程当中,要保证一个组织能够将数据转换成有用的信息,这项工作所需要的流程和工具,那就是数据治理的工作。

数据不足——解决方案:a. 收集更多的数据,可以尝试找到更多相同源的数据源作为原始数据,或者从另一个相似度比较高的源来收集更多的数据;b. 创建具有轻微变化的同一数据的多个副本来增强数据,可以以非常低的成本来产生大量的额外的图像,eg. 裁剪、旋转、平移、缩放图像,添加一些噪点、模糊、改变颜色、阻挡部分噪音来实现。在所有的情况下,需要确保数据仍然代表的同一个类。术语上可以管这个过程叫做“数据扩充”。

特征提取强调的是特征转换的方式来得到一组具有明显物理和统计意义的特征。而特征选择是从特征的集合当中挑选一组具有明显物理和统计意义的特征子集。

二者都可以很好地减少特征的维度和数据的冗余。特征提取有时能发现更有意义的特征属性。特征选择过程经常表现出哪个特征的重要性与模型构建的重要性。特征是可以多维度角度进行提取的。

四、人工智能项目开发验收与维护

在实际情况中,通常会通过“测试误差”来评价学习方法的泛化能力。讨论机器学习模型的学习和泛化的好坏的时候,通常的术语是“过拟合”和“欠拟合”。

过拟合(Overfitting)指的是模型在训练数据上表现得过于优秀,但在未见数据上表现较差。过拟合可以比喻为一个学生死记硬背了一本题库的所有答案,但当遇到新的题目时无法正确回答。这种情况下,模型对于训练数据中的噪声和细节过于敏感,导致了过度拟合的现象。

欠拟合(Underfitting)指的是模型无法很好地拟合训练数据,无法捕捉到数据中的真实模式和关系。欠拟合可以比喻为一个学生连基本的知识都没有掌握好,无论是老题还是新题都无法解答。这种情况下,模型过于简单或者复杂度不足,无法充分学习数据中的特征和模式。

图中最右列错了,自上而下应该是假反例和真反例

混淆矩阵(Confusion Matrix)是在机器学习和统计学中常用的一个概念,用于评估分类模型的性能。它是一个矩阵,用于展示分类模型预测结果和实际标签之间的对应关系。

混淆矩阵通常是一个2×2的矩阵,其中行表示实际标签的类别,列表示模型预测的类别。混淆矩阵中的四个元素分别表示:真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)、假反例(False Negative,FN)。如下图所示。

假正例(False Positive,FP)、假反例(False Negative,FN);真正例(True Positive,TP)、真反例(True Negative,TN)

真正例(矩阵左上角);真反例(矩阵右下角)。

假反例:模型预测为反,但实际上样本的标签为正。(位于混淆矩阵的右上角)

假正例:模型预测为正,但实际上样本的标签为反。(位于混淆矩阵的左下角)

“真”、“假”代表预测与真实之间的对应关系,判决正确的话,就是“真”。混淆矩阵的左对角线上是判决正确的样本数目。

“正”、“反”表示的是模型预测数据的标签类别。

混淆矩阵可以帮助我们计算出各种评估指标,如准确率、召回率、精确率、F1值等。同时,通过观察混淆矩阵,我们还可以了解分类模型在各种情况下的分类表现。

“准确率”表示的就是对角线上判断正确的数据的个数,左对角线上的这2个数值加起来除以所有的样本的数目,就是准确率的定义,它并不区分模型判断正确的类别究竟是什么。

准确率(Accuracy):指分类模型正确预测的样本数占总样本数的比例,即(TP+TN)/(TP+TN+FP+FN)。

在所有预测为“正”的样本当中,模型预测为“正”,预测正确的样本所占有的比例就是精确率。

精确率(Precision):指分类模型正确预测为正例的样本数占预测为正例的样本数的比例,即TP/(TP+FP)。

在所有真正标签为“正”的样本当中,被模型能够预测为“正”的样本所占的比例就是召回率。

召回率(Recall):指分类模型正确预测为正例的样本数占实际正例样本数的比例,即TP/(TP+FN)。

总结一下:精确率也叫做查准率,考察的就是我们的机器学习模型到底准不准的问题。召回率有时也叫查全率,考察的就是机器学习模型到底找的全不全的问题。

模型的泛化性能以及相关的性能调优问题

偏差与泛化之差就是模型预测的方差。

模型验证阶段的目标是多方面的。

模型集成步骤包括2个主要的活动:1)构建运行模型的基础架构(系统工程),2)可以使用和支持的形式来实现模型(机器学习的领域)。

- TBC -

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容