摘要
提出一种基于CRF的时间关系提取算法。以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式。以63份实际病历作为实验文本。
引言
时间关系非常重要,如,哥伦比亚大学Zhou等开发的TimeText系统。中文面向医学临床文本,服务于医疗信息化的研究仍处空白。
1 条件随机场
CRF 避免了隐马尔可夫模型(hidden Markov model,HMM)的独立性假设,解决了最大熵模型(MaximumEntropy,ME)所带来的标记偏见问题,不像ME 在每一节点都要进行归一化,而是对所有特征进行全局归一化,可以求得全局的最优值,因此在自然语言处理领域的众多序列化标注任务中得到广泛应用。
1. Zhao Hai,Huang Changning,Li Mu. An improved Chinese word segmentation system with conditional random field[A]. In: Dale R,eds. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing [C ]. Sydney: 2006 Association for Computational Linguistics,2006. 162 - 165.
2. Peng Fuchun,McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing & Management,2006,42(4): 963 - 979.
2 中文病历文本中的时间关系提取
定义医学问题时间属性标签。
处理流程:首先利用各种医学语言处理技术实现对于病历文本中医学问题和时间信息的自动语义标注,然后以医学问题为中心的模式对其进行手工时间关系标注,形成CRF训练预料,最后根据训练预料中时间与问题之间的规律,设计CRF学习模板,使用学习模板通过训练获得CRF模型,基于生成的CRF模型可以实现对时间关系的自动提取。
2.1 语义标注
对于医学问题的予以标注依赖于简历的一个具有语义注释的医学术语库(包含医学问题和描述问题变化的词语),采用反向最大匹配法来实现。采用正则表达式匹配~
2.2 语料准备
采用crf++。
手工按照[表1]所示类型为训练数据标注正确的时间关系,最终形成的训练语料第一列数据是原始文本分解后的token,第二列是相应的予以标注,第三列是用于crf++学习的时间关系标注正确结果。总共63个病历文本,319个病历语句。
2.3 模板准备
基于对样本标注模式的窗口跨度等的统计,一维原子模板选取距当前标记距离为4的上下文标记,多维复合模板为原子模板的组合。高维特征能把握更多的长距离依赖关系,但也需要更大的训练开销,并带来更严重的数据稀疏问题,本文最高维设定为4维。
3 实验以及结果的讨论
有一定的应用潜力,准确率在80%以上。
某个特定模板是否引起过拟合现象不仅在于训练预料的特点,亦和模板文件中个模板之间的关系相关。