第一章、自然语言基础

如今有体量巨大的非结构化文本数据,与此相关的挑战主要有两点。
一、数据的有效储存和管理。文本化数据通常是非结构化的,要么储存于SQL数据库中或者NoSQL的系统中。海量文本数据集的组织通常用基于\color{red}{文件的系统格式储存}
二、数据分析,现有的机器学习和数据分析技术,多适用于数值型,必须借助自然语言处理领域和专门的技术变换算啊来分析文本数据。

1.1自然语言

人类基于自然使用交流演化而来的语言。
研究语言的结构和句法如何为予以奠定基础,结构化的组织有自身意义的句子。可以用句法、语义、语法和分析书解决。同时也要考虑非语言因素如身体语言、既有经验和心理作用等。

度量表达的试试符合度有语义三角模型方向匹配

方向匹配
词-世界:语言反应现实,匹配正在发生或已经发生的事。
世界-词:谈论语言使用可以改变现实的情况。

语言习得机制=认知能力+特定语言相关知识(词和语法信息)

1.3 语言句法结构

分层句子树
句子-从句-短语-单词

语法
依存语法(动词视为句子的根(动词没有依存性))
成分语法(通常由动词或者名词作为顶端展开)

语序类型学
主谓宾顺序

1.4语言语义

可以转化为符号

1.5 文本资料库

1.6 文本处理的应用

机器翻译
语音识别系统
问答系统
语境识别与消解
文本摘要
文本分类
文本分析(文本分类、文本距离、文本摘要、情感分析、实体抽取与识别、相似性分析与关系建模)
(垃圾邮件检测、新文分类、社交媒体分析与监视、生物医疗、安全智能、市场营销和客户关系管理、情感分析、广告投放、聊天机器人、虚拟助理)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容