机器学习与人工智能基础:价值估算(第四章-训练数据)

训练数据
Training Data


前言叨B叨

机器学习, 数据是必不可少的. 本章就带大家一起过一下示例文件中用于机器学习的房价数据.

1. 浏览房价数据

让我们先从浏览数据开始我们的项目。在示例项目中找到ml_house_data_set.csv。双击预览, 这是一个简单的逗号分隔的文件,你也可以用Excel打开。然鹅,由于文件太大,直接打开会有点慢。


ml_house_data_set.csv

数据集中共有40000多条房价信息,因此,我们将使用pandas来加载数据集,并创建一个表格来显示前100条房价信息,这样便于我们在Web浏览器中查看它。
用pandas加载数据集非常简单。首先我们使用read_csv命令来加载数据到数据表(data table)。

view_data.py

数据表有点像一个虚拟的可编程电子表格。一旦我们的数据存入数据表对象中,我们就可以用电子表格应用程序中的数据进行许多相同的计算。接下来我们就要抓取前100行数据然后使用to_html函数将数据转换成一个网页。pandas提供了许多像这样的帮助函数来将数据转换成其他格式。
最后,我们将在这里编写HTML文件,然后使用我们的Web浏览器使用Python内置的Web浏览器模块打开它。
让我们运行代码并查看数据集中的前100行。右键单击并选择运行。下面是Web浏览器中的数据。

data.html

每一行都是一条房价信息。让我们看看数据属性:

  • 在第一栏里,建造年份(year_built)。小伙伴们都知道,房龄是会影响它的价格的,所以这个属性对我们来说应该乎很有用。
  • 第二列是层数,就是说这房子是单层的,还是复式的,或者是多层的.
  • 接下来,有卧室的数目,也有完整的卫生间或者半个卫生间。一个完整的卫生间意思是包含淋浴, 能洗澡的那种。
  • 其次,还有房子的占地面积和实用面积。这告诉我们房子的大小。
  • 接下来我们有车库类型。车库分为独立的还是集成的。一个独立的车库是一个独立的建筑。还有车库的大小。

让我们滚动到最后。我们也有几个true/false标志。has_fireplace,has_pool,has_central_heating和has_central_cooling。这些告诉我们,每个房子的特点。你可以想象,有没有游泳池或空调可能会影响房子的价值,所以这对我们来说是很有用的信息。我们也有每个房子的地址,包括门牌号、街道名称、单位编号、城市编号和邮政编码。

最后,我们有一个房子的实际销售价格。这个就是我们要用机器学习系统预测的价值。要建立任何新的机器学习项目时,首先要做的就是对数据集有一个全面的了解。对你现有的数据有一个大致的了解, 对于选择解决问题的最佳方法是至关重要的。

2. 训练数据 的命名标准约定

我们的房屋销售数据集每个房屋信息有19个字段。前18个字段描述了房子本身。他们告诉我们它有多大,它在什么地方,等等。这18个字段称为特征(feature)。特征是输入到预测模型中的值。

features

最后一个字段 售价(sale_price),就是我们试图预测的价值。当我们使用有监督的学习来解决问题时,我们总是有相同的设置。特征输入到有监督学习算法中后,该算法返回一个或多个目标值。为了便于与其他程序员统一口径,有一些标准来约定命名。

naming convension

要输入算法的特征集合称为X,右边我们试图预测的值称为Y,当你阅读scikit-learn文档或看任何机器学习代码时,你会看到这样的命名惯例几乎无处不在。

3. 确定你需要多少数据

在我们的数据集中,我们有超过40000条房屋的销售记录。对于每一套房子,我们捕捉到18个不同的特征,如房龄,几室几厅,等等。当您在自己的程序中使用机器学习时,您可能无法拿到数以万计的记录。那么,究竟需要多少数据才能成功地使用机器学习呢?当您的数据集涵盖了模型中所有可能的特性组合时,机器学习算法起到了最大的作用。例如,我们希望我们的房价数据集包括房子的价格,卫生间数量,有没有车库,有没有游泳池等等。

表现出的组合越多,模型就越能捕捉到这些属性是如何影响房屋最终价格的。如果你的数据集没有某个特定特征组合的数据点,机器学习模型就不能做出很好的预测。

biiiiig house

例如,如果我们要求我们的机器学习模型给我们一个有100个卧室和80个卫生间的巨大宫殿的价格估计,它将不能给我们一个非常准确的估计,因为在我们的数据集中没有这样的房子。至少,在建立机器学习模型时,一个好的点子是在数据集中的数据至少是模型中特征数量的10倍。
我们有18个特征,在我们的住房数据集,所以我们希望有至少180个房子工作。但并不是一定要求要这样。在某些情况下,获取更多的数据是不可能的。数据的数量比特征数少,会这使得问题更具挑战性。
最后,数据多一般总是比数据少更好。你需要训练的数据越多,你就越有可能建立一个能在不同场景中做出准确预测的系统。所以,如果你有很多可用的数据,一定要使用它。
在接下来的课程中,我们将学习如何检测机器学习系统的准确性。精确度测量(Accuracy measurements)让你知道何时已经有足够的数据,或者何时需要再收集更多数据。

结语

如有错误请高手指正.

你的 关注-收藏-转发 是我继续分享的动力!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,923评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,154评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,775评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,960评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,976评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,972评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,893评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,709评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,159评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,400评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,552评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,265评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,876评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,528评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,701评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,552评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,451评论 2 352

推荐阅读更多精彩内容