One-hot vector是把所有的词汇变成列,例如我们有10000个词汇,那么就有10000列。
对于每个句子,如果单词出现,则该列为1,例如,有两句话:
'Time flies flies like an arrow.', 'Fruit flies like a banana.'
他们的one-hot vector如下图所示:

TF-IDF用于计算文章中词语的出现次数。
因为常用词的出现次数远远大于非常用词。为了让非常用词也能露脸,所以加了个IDF作为修正。IDF中词语出现的文章数作为分子(),总文章数作为分母,然后求对数值,具体公式如下:

把词语的出现次数TF和IDF相乘(TF*IDF),得到了TF-IDF.
上面两个句子的TF-IDF图如下:

sklearn包实现了one-hot和tf-idf的计算,具体的方法如下:
one-hot:CountVectorizer
if-idf:TfidfVectorizer()
https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction