自然语言处理实验演示 - 05. 文本标准化 (Text Normalization)
文本标准化也叫文本正则化。英语中有些单词的拼写、发音和表达方式都不同,Mumbai 和 Bombay(孟买)虽然不同,但指的是同一件事。还有一些不同形式的单词需要转换为基本形式。does 和 doing 等词转换为基本形式时就变成了 do。文本标准化是将不同文本变体转换为标准形式的过程。本实验主要进行词语替换操作,英语中有很多简写,可以使用替换操作,将这些意思一样,但写法不同的词汇进行统一。
#知识# #校园学习# #NLP# #AI# #自然语言处理# #人工智能专业建设# #文本数据标准化# #文本正则化# #实验视频# #Python# #文本挖掘# #人工智能实验室#
个人用户获取相关代码及数据集,请访问企业网站 (www.080910t.com),扫描【知识微店(个人用户)】二维码关注或订阅。注:全部实验演示视频、代码、数据集仅授权予个人用户学习与实验使用,禁止用于二次销售、课堂教学及培训用途。
视频原创制作:广州跨象乘云软件技术有限公司
Bilibili 官方主站:https://space.bilibili.com/189064479