离散值

机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有有限或无限可数个值,可以用或不用整数表示。属性hair_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。注意,离散属性可以具有数值值。如对于二元属性取0和1,对于年龄属性取0到110。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customer_ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的(可以建立这些值与整数集合的一一对应)。邮政编码是另一个例子。

如果属性不是离散的,则它是连续的。在文献中,术语“数值属性”与“连续属性”通常可以互换地使用。(这可能令人困惑,因为在经典意义下,连续值是实数,而数值值可以是整数或实数。)在实践中,实数值用有限位数字表示。连续属性一般用浮点变量表示。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容