工作的目标是:完成关于光伏行业(未来可扩展到其他行业)的知识图谱,事理知识图谱以及问答系统。
这周主要做的是关于知识图谱的构建的前期工作,从产业的招股说明书中提取出三元组。
首先是对实体的识别,从表格中抽取出实体包括公司,产品,指标和技术,创建词典,然后构建训练预料走一遍ner模型(Bi_LSTM+CRF,其中为什么使用Bi_LSTM? 后面为什么接CRF?首先,CRF在给定了观察序列情况下,对整个的序列的联合概率有一个统一的指数模型,且其损失函数是凸的。其次,CRF模型相比于改进的HMM模型可以更好更多的利用待识别文本中所提供的上下文信息以得更好的实验结果。CRF在中文组块识别方面有效,并避免了严格的独立性假设和数据归纳偏置问题。再次,词性标注主要面临兼类词消歧以及未知词标注 的难题,传统HMM方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。CRF建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。Bi_LSTM是为了使特征提取自动化,双向可以获取上下文中单词的向量表示),将ner中发现的新的实体加入词典,回滚两到三次得到最终实体识别的结果。
第二步就是出去需要构建的知识图谱的三元组,将关系主要分为三大类,公司与公司之间的关系,公司与产品之间的关系,产品与产品,技术指标之间的关系,每种关系下又细分为客户,供应商,参股; 原材料,上下游,产品的技术指标等,根据三元组构建图谱。
后面应该要跟着做kbqa了。