最近的项目是做金融文本抽取,具体来说是从公告(包含表格、文本)中抽取需要的字段,记录一下从需求分析到模型选择的思路。
1.基本需求
公告格式类似下图:
如需要从公告中抽取以下字段
2.需求分析
查看多条公告数据,发现表格分为多种类型,包括质押、累计质押、解除质押、延期质押。不同类型的表格包含的字段不同。具体如下:
因此考虑先对表格类型进行多分类,区分出是哪种类型的表(质押、累计质押、解除质押),由于质押和延期质押抽取的字段是相同的,所以将两种类型合并。区分出表的类型后再对表头的字段进行多分类,区分出具体是哪个字段(如:T003股东名称、T004质押方......)
股东名称和控股关系是对应的,同一条公告中可能存在多对股东-控股关系,使用事件抽取模型。
表格中的股东名称可能是简称也可能是全称,最后需要都转化为全称。公告文本中有全称-简称的注释。全称-简称是有对应关系的,且同一条公告中可能存在多对全称-简称,使用事件抽取模型