NLP之数据预处理(二)

NLP中数据预处理主要是为文本数据的处理过程。文本处理的一般步骤:分词、构建词汇表、向量化。

  1. 单词分割(分词):Tokenization(Text to Words)
    分词是NLP的基础任务,按照特定需求能把文本中的句子、段落切分成一个字符串序列(其中的元素通常称为token 或叫词语)方便后续的处理分析工作。
    分词的目的是将复杂问题转化为数字问题,即指将文本的非结构化数据转化为【结构化的数据】,这样就可以将数据转化为数学问题。因为机器学习中绝大多数模型是不支持字符串的(除了决策树模型),想要模型能够进行顺利有效地学习,必须对字符串数据先数值化。
    Tokenization按切分的粒度分成了三大类,一是按词粒度来分,二是按字符粒度来分,三是按subword(子词粒度来分)。

  2. 统计频率构建词汇表(vocabulary)

  3. 词向量(word embedding)化

词向量,也称词嵌入技术,是通过将单词、句子甚至图像转化为计算机可认识的向量数据,它不仅仅改善了文本的表示方式,更重要的是,它捕捉到了语言的本质和丰富的语义。今天,词嵌入技术也是LLM的核心技术之一,也是Transformer的初始输入形式(Input Embedding)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容