知识抽取与挖掘
- 知识抽取任务定义和相关比赛
- 面向结构化数据的知识抽取
- 面向半结构化数据的知识抽取
- 实践展示:基于百科数据的知识抽取
知识抽取任务定义和相关比赛
- 知识抽取技术
实体抽取
关系抽取
事件抽取
知识抽取:从结构化数据,半结构化数据,纯文本数据进行知识抽取。 - 知识获取关键技术与难点
从结构化数据库中获取知识:D2R;难点:复杂表数据的处理
从链接数据中获取知识:图映射;难点:数据对齐
从半结构化(网站)数据中获取知识:使用包装器;难点:包装器定义,包装器自动生成、更新与维护
从本文中获取知识:信息抽取;难点:结果的准确性与覆盖率 - 子任务
命名实体识别:检测、分类
术语抽取
关系抽取
事件抽取:触发词,“发生爆炸”
共指消解(指代消解)
相关竞赛和数据集
MUC
- 任务
命名实体识别(NER)
共指消解(CR)
ACE
- 五大任务
实体检测和识别(EDR)
数值检测与识别(VAL)
时间表达检测与识别(TERN)
关系检测与识别(RDR)
时间检测与识别(VDR)
KBP
- 任务
实体发现与链接(EDL)
槽填充(SF)
事件抽取
信念和情感
端到端冷启动知识构建
Semantic Evaluation (SemEval)
实体抽取定义
抽取文本中的原子信息元素
人名,组织/机构名,地理位置,时间/日期,字符值,金额值
序列标注方法
人工特征
词本身的特征
- 边界特征:边界词概率
- 词性
- 依存关系
前后缀特征 - 姓氏:李*、王
- 地名:**省、 **市
字本身的特征 - 是否是数字
- 是否是字符
HMM
有向图模型
生成式模型,找到使P(X,Y)最大的参数
假设特征之间是独立的
CRF
无向图模型
判别式模型,找到使P(Y|X)最大的参数
没有关于特征之间是独立的假设
LSTM+CRF
判别式,端到端,Dropout,特征自动提取
实体识别与链接
- Wikipedia Miner
- DBpedia Spotlight
- OpenCalais
实体链接
消岐,属性消岐,上下文消岐
关系抽取简介
从文本中抽取出两个或多个实体之间的语义关系
方法分类
- 基于模板的方法
基于触发词的Pattern
基于依存句法分析的Pattern
优点:容易实验,构建简单
缺点:特定领域需要专家构建,难以维护,召回率很低 - 监督学习方法
轻量级特征:实体前后的词,实体的类型,实体之间的距离
中等量级特征:Chunk序列,词组/phrase
重量级特征:实体间的依存关系路径,实体间树结构的距离
深度学习方法特征设计:Position embeddings,Word embeddings, Knowledge embeddings
方法: - Pipeline:CR-CNN模型,Att-CNN模型,Att-BLSTM模型
- Joint Model:LSTM-RNNs模型
优点:准确率高,标注数据越多越准确;
缺点:标注数据成本太高,不能扩展新的关系 - 半监督学习——远程监督
- 半监督学习——Bootstrapping
给定种子集合
从文档中取出包含种子实体的新闻,将抽取的Pattern去文档集中匹配
缺点:存在语义漂移问题,准确率较低 - 弱监督学习方法
事件抽取
从自然语言中抽取事件信息,并以结构化的形式呈现出来。
- 事件描述
- 事件触发
- 事件元素
- 元素角色
Joint Inference
Joint Modeling
Joint Modeling with Structured Prediction - 基于深度学习的事件抽取方法
基于动态多池化卷积神经网络的事件抽取方法
扩充语料的方法
从网络获取事件信息
面向结构化数据的知识抽取
R2RML概述
Triple
数据库表映射
视图映射
面向半结构化数据的知识抽取
- Zhishi.me
Web 网页数据抽取 - 包装器的生成
包装器:一个软件程序能够将数据从HTML网页中抽取出来,并将它们还原为结构化的数据
- 手工方法
- 包装器归纳:网页输入>网页清洗>网页标注>包装器空间的生成>包装器评估>包装器归纳结果
- 自动抽取
比较 | 手工方法 | 包装器归纳 | 自动抽取 |
---|---|---|---|
优点 | 对任何一个网页通用 | 需要人工标注训练结果 | 无监督方法,可用到大规模网站的信息抽取 |
缺点 | 需对网页数据标注;维护成本高 | 需人力去标注,可维护性差 | 需要相似网页作为输入,会抽取出一些无关信息 |
- Web table
基于百科数据的知识抽取
实践:佛学知识图谱构建
抽取框架:Wikipedia,zhishi.me
Knowledge Collection
Knowledge Fusion
- 主语融合
- 谓语融合
- 宾语融合
单值融合,多值融合 - 对infobox属性进行补全
- 在线接口
数据访问地址:www.kg-buddhism.com
应用:问答微信公众号