如今有体量巨大的非结构化文本数据,与此相关的挑战主要有两点。
一、数据的有效储存和管理。文本化数据通常是非结构化的,要么储存于SQL数据库中或者NoSQL的系统中。海量文本数据集的组织通常用基于。
二、数据分析,现有的机器学习和数据分析技术,多适用于数值型,必须借助自然语言处理领域和专门的技术变换算啊来分析文本数据。
1.1自然语言
人类基于自然使用交流演化而来的语言。
研究语言的结构和句法如何为予以奠定基础,结构化的组织有自身意义的句子。可以用句法、语义、语法和分析书解决。同时也要考虑非语言因素如身体语言、既有经验和心理作用等。
度量表达的试试符合度有语义三角模型和方向匹配。
方向匹配
词-世界:语言反应现实,匹配正在发生或已经发生的事。
世界-词:谈论语言使用可以改变现实的情况。
语言习得机制=认知能力+特定语言相关知识(词和语法信息)
1.3 语言句法结构
分层句子树
句子-从句-短语-单词
语法
依存语法(动词视为句子的根(动词没有依存性))
成分语法(通常由动词或者名词作为顶端展开)
语序类型学
主谓宾顺序
1.4语言语义
可以转化为符号
1.5 文本资料库
1.6 文本处理的应用
机器翻译
语音识别系统
问答系统
语境识别与消解
文本摘要
文本分类
文本分析(文本分类、文本距离、文本摘要、情感分析、实体抽取与识别、相似性分析与关系建模)
(垃圾邮件检测、新文分类、社交媒体分析与监视、生物医疗、安全智能、市场营销和客户关系管理、情感分析、广告投放、聊天机器人、虚拟助理)