标量、向量和空间
单个数字特征也称为标量。标量的有序列表成为向量。向量位于向量空间中。在绝大多数机器学习应用中,对模型的输入通常表示为数字向量。
向量可以被可视化为空间中的一个点。(有时人们从原点到那一点画一条线和一个箭头。在这本书中,我们将主要使用这一点)。例如,假设我们有一个二维向量 𝑣=[1,−1] 。也就是说,向量包含两个数,在第一方向 𝑑1 中,向量具有1的值,并且在第二方向 𝑑2 中,它具有 −1 的值。我们可以在二维图中绘制 𝑣 。
在数据世界中,抽象向量及其特征维度具有实际意义。
例如,它可以代表一个人对歌曲的偏爱。每首歌都是一个特征,其中1的值相当于大拇指向上,-1的值相当于大拇指向下。假设向量 𝑣 表示一个听众 Bob 的喜好。Bob喜欢 Bob Dylan 的 “Blowin’ in the Wind” 和 Lady Gaga 的 "Poker Face"。其他人可能有不同的喜好。总的来说, 数据集合可以在特征空间中可视化为点云.
相反,一首歌可以由一组人的个人喜好来表示。假设只有两个听众,Alice 和 Bob。Alice 喜欢 Leonard Cohen 的 “Poker Face”, “Blowin’ in the Wind” 和 “Hallelujah”,但讨厌 Katy Perry 的 “Roar” 和 Radiohead 的 “Creep”。Bob 喜欢 “Roar", “Hallelujah”和“Blowin’ in the Wind”,但讨厌 “Poker Face” 和 “Creep” 。在听众的空间里,每一首歌都是一个点。就像我们可以在特征空间中可视化数据一样,我们可以在数据空间中可视化特征。图2-2显示了这个例子。