#6801#

第4章 语料库与语言知识库

语料库统计

两层含义:利用语料库对于语言的某个方面进行研究;一句语料库所反应出来的语言事实对现行语言学理论进行批判,提出新观点和理论。

  • 平衡语料库 平行语料库
    同一种语言的语料上平行(国际英语语料库)
    两种或多种语言之间的平行采样和加工

  • 通用语料库和专用语料库
    抽样时仔细从各个方面考虑了平衡问题的平衡语料库

  • 共时语料库和历时语料库
    为了对语言进行共时研究而建立的语料库
    历时:为了对语言进行历时研究而建立的语料库。判断四条准则:必须开放的、动态的;所有语料库都应该来源于大众传媒,都具有不同统计计算方法与传媒特色相应的流通度属性;随着语料的动态采集,预料也应该进行动态加工;语料的加工结果也应该是动态和历时的。

  • 生语料和标注语料库
    标注:
    根据加工程度,汉语为主的分词语料库、分词与磁性标注语料库、tree bank、proposition bank、discourse tress bank。

分词问题始终是困扰中文信息处理的问题,因此建立了汉语自动分词系统提供训练数据以建立汉语分词库和分析与词性标注库。

汉语语料库建设等问题(略)

典型语料库:

  1. LDC中文树库(Chinese Tree Bank)
    UPenn负责开发,收集语料取材新华社和香港新闻等媒体,165w汉子,文件由GBK和UTF-8两种编码格式存储。

  2. 命题库(PropBank)、名词化树库(NomBank)、语篇树库(Penn Discourse Tree Bank)是PTB扩展

  3. 布拉格依存树库
    三个语料库:捷克语依存树库、捷克语-英语、阿拉伯语一寸树库

  4. BTEC口语语料
    主要用于语音翻译

5.现代汉语口语语料

  1. 台湾中研院语料库
    汉语平衡语料库和汉语树库
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • References: 《speech and language processing 》2nd & 3rd 《统...
    艺术叔阅读 12,321评论 1 8
  • 常用概念: 自然语言处理(NLP) 数据挖掘 推荐算法 用户画像 知识图谱 信息检索 文本分类 常用技术: 词级别...
    御风之星阅读 13,193评论 1 25
  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 13,618评论 1 35
  • 大头说:你主动这样 我很高兴 哈哈哈哈 说的是我主动亲他 白眼哈哈哈 自家男票 我有啥不主动的 我骨子里可是相当火...
    鼓鼓的大头阅读 2,675评论 0 1
  • 奶茶小夏 小夏十多岁的时候,最喜欢喝奶茶。在小夏眼里,夏天的时候,捧上一杯冰奶茶,穿着热裤,汗流浃背地在街上走,真...
    喜糖阅读 2,701评论 0 1

友情链接更多精彩内容