数据的定义,这个每个人都应该有自己的理解,有规律无规律的信息,客观事物的逻辑归纳,具体的数,文字,图像等等... ... 但是我个人的角度来看,并不是以上所有都能称之为“数据”,有些东西必须经过处理和筛选,能够使用的数据才是我们口中的“数据”。
数据类型
1.数值型
说白了就是能够用数字直接记录或者表示属性,比如今天气温40℃,我身高172cm等等。我们编程包括数值型(正负号、小数点和字母E),浮点型(float),双精度型(double),整型(int)
2.连续型
用能取若干且密集小数的实数表示属性(也可以用整数),比如今天气温40.23124515℃,身高172.234123123cm(按严格定义的话,他们应该是连续的,必须从某些数值变化,不能我今年12岁,明年就14岁了,中间总得有个13岁让他们连续起来)
3.离散型
只能用自然数或整数表示属性,比如周一周二,三月四月,我中午吃了三碗饭
ps:其实连续性和离散型的区别真的有那么明显吗,现实世界中出现不了1.5个人,但是我们在预测的时候出现了1.5个,甚至1.55个怎么办呢?更合适的处理方法应该是把这1.55个人当做是更偏向于2个人
4.标称型
限定了目标属性的取值集合,包括数值和文本。比如 0-1型/布尔型,只有0,1两个选择;性别分类,男或者女或者那啥的;made in China,产地只可能是广州,上海等这些中国城市。
5.序列型
有序的数值型或标称型值串。比如“学到老活到老”这句话,过去3天的气温是40℃,39℃,41℃
6.序数型
具有偏序关系的离散数值,比如世界五百强公司排名
我们来举个栗子,用上面的数据类型表示描述一筐苹果
该筐苹果内苹果的个数 <— 离散型
该筐苹果的重量 <— 连续性
该筐苹果是否包邮 <— 标称型
该筐苹果的出产省份 <— 标称型
该筐苹果的评论 <— 序列型
该筐苹果商家在百度的好评度排名 <— 序数型