登录注册写文章

NLP之数据预处理（二）

种花家的码农

NLP之数据预处理（二）

NLP中数据预处理主要是为文本数据的处理过程。文本处理的一般步骤：分词、构建词汇表、向量化。

单词分割（分词）：Tokenization（Text to Words）
分词是NLP的基础任务，按照特定需求能把文本中的句子、段落切分成一个字符串序列（其中的元素通常称为token 或叫词语）方便后续的处理分析工作。
分词的目的是将复杂问题转化为数字问题，即指将文本的非结构化数据转化为【结构化的数据】，这样就可以将数据转化为数学问题。因为机器学习中绝大多数模型是不支持字符串的（除了决策树模型），想要模型能够进行顺利有效地学习，必须对字符串数据先数值化。
Tokenization按切分的粒度分成了三大类，一是按词粒度来分，二是按字符粒度来分，三是按subword(子词粒度来分)。
统计频率构建词汇表（vocabulary）
词向量（word embedding）化

词向量，也称词嵌入技术，是通过将单词、句子甚至图像转化为计算机可认识的向量数据，它不仅仅改善了文本的表示方式，更重要的是，它捕捉到了语言的本质和丰富的语义。今天，词嵌入技术也是LLM的核心技术之一，也是Transformer的初始输入形式（Input Embedding）。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

NLP预处理
英语: 1.去杂乱: 1.1 转化为小写字母 1.2 数字转化为words 或者移除数字 1.3 移除标点符号其他...
混沌游灵阅读 365评论 0赞 0
134自然语言处理通关手册--文本数据预处理
文本数据预处理正则表达式假设有一天，你的上司给你几百个 txt 文本，并且布置了一个任务，找出文本中所有出现的...
Jachin111阅读 696评论 0赞 0

第52章文本数据预处理
无论是深度学习还是自然语言处理，一个非常重要的话题就是将自然语言转换成计算机可以识别的特征向量。文本的预处理一般都...
杰克斯阅读 306评论 0赞 0
利用PySpark 数据预处理（特征化）实战
前言之前说要自己维护一个spark deep learning的分支，加快SDL的进度，这次终于提供了一些组件和...
祝威廉阅读 7,222评论 0赞 8
NLP第1课：中文自然语言处理的完整机器处理流程
2016年全球瞩目的围棋大战中，人类以失败告终，更是激起了各种“机器超越、控制人类”的讨论，然而机器真的懂人类吗？...
米饭超人阅读 21,546评论 3赞 57

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文