第一章、自然语言基础

如今有体量巨大的非结构化文本数据，与此相关的挑战主要有两点。
一、数据的有效储存和管理。文本化数据通常是非结构化的，要么储存于SQL数据库中或者NoSQL的系统中。海量文本数据集的组织通常用基于 $\color{red}{文件的系统格式储存}$ 。
二、数据分析，现有的机器学习和数据分析技术，多适用于数值型，必须借助自然语言处理领域和专门的技术变换算啊来分析文本数据。

1.1自然语言

人类基于自然使用交流演化而来的语言。
研究语言的结构和句法如何为予以奠定基础，结构化的组织有自身意义的句子。可以用句法、语义、语法和分析书解决。同时也要考虑非语言因素如身体语言、既有经验和心理作用等。

度量表达的试试符合度有语义三角模型和方向匹配。

方向匹配
词-世界：语言反应现实，匹配正在发生或已经发生的事。
世界-词：谈论语言使用可以改变现实的情况。

语言习得机制=认知能力+特定语言相关知识（词和语法信息）

1.3 语言句法结构

分层句子树
句子-从句-短语-单词

语法
依存语法（动词视为句子的根（动词没有依存性））
成分语法（通常由动词或者名词作为顶端展开）

语序类型学
主谓宾顺序

1.4语言语义

可以转化为符号

1.5 文本资料库

1.6 文本处理的应用

机器翻译
语音识别系统
问答系统
语境识别与消解
文本摘要
文本分类
文本分析（文本分类、文本距离、文本摘要、情感分析、实体抽取与识别、相似性分析与关系建模）
（垃圾邮件检测、新文分类、社交媒体分析与监视、生物医疗、安全智能、市场营销和客户关系管理、情感分析、广告投放、聊天机器人、虚拟助理）

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。