特征转换主要指将原始数据中的字段数据进行转换操作,从而得到适合进行算法模型构建的输入数据(数值型数据),在这个过程中主要包括但不限于以下几种数据的处理:
• 文本数据转换为数值型数据
• 缺省值填充
• 定性特征属性哑编码
• 定量特征属性二值化
• 特征标准化与归一化
分词
分词是指将文本数据转换为一个一个的单词,是NLP自然语言处理过程中的基础;因为对于文本信息来讲,我们可以认为文本中的单词可以体现文本的特征信息,所以在进行自然语言相关的机器学习的时候,第一操作就是需要将文本信息转换为单词序列,使用单词序列来表达文本的特征信息。
分词: 通过某种技术将连续的文本分隔成更具有语言语义学上意义的词。这个过程就叫做分词。
分词的常见方法
1、按照文本/单词特征进行划分:对于英文文档,可以基于空格进行单词划分。
2、词典匹配:匹配方式可以从左到右,从右到左。对于匹配中遇到的多种分段可能性,通常会选取分隔出来词的数目最小的。
3、基于统计的方法:隐马尔可夫模型(HMM)、最大熵模型(ME),估计相邻汉字之间的关联性,进而实现切分。
4、基于深度学习:神经网络抽取特征、联合建模。
Jieba分词
jieba:中文分词模块;
Python中汉字分词包:jieba
安装方式: pip install jieba
Github:https://github.com/fxsjy/jieba
jieba分词原理:
1、字符串匹配:把汉字串与词典中的词条进行匹配,识别出一个词。
2、理解分词法:通过分词子系统、句法语义子系统、总控部分来模拟人对句子的理解。(试验阶段)
3、统计分词法:建立大规模语料库,通过隐马尔可夫模型或其他模型训练,进行分词(主流方法)
jieba分词模式:
1、全模式 jieba.cut(str,cut_all=True)
2、精确模式 jieba.cut(str)
3、搜索引擎模式 jieba.cut_for_search(str)
分词特征提取: 返回TF/IDF权重最大的关键词,默认返回20个。
jieba.analyse.extract_tags(str,topK=20)
自定义词典: 帮助切分一些无法识别的新词,加载词典:jieba.load_userdict(‘dict.txt’)
调整词典: add_word(word, freq=None, tag=None)
和 del_word(word)
可在程序中动态修改词典。使用suggest_freq(segment, tune=True)
可调节单个词语的词频。