实验目的:熟悉python的基本数据结构,以及文件的输入与输出。
实验环境:anaconda3
实验数据:
利用2015年中国机器学习会议的评测数据和评测任务,数据包括训练集(7813条)和测试集(2610条),评测任务为通过给定的训练数据,预测测试集中的关系是正例还是负例,在每个样本最后给出1或者0。数据描述如下。
训练集如下图所示,第一列为关系类型,第二列和第三列为人名,第四列是标题,第五列是关系为正例还是负例,1为正例,0为负例;第六列表示训练集还是训练集。
测试集如下图所示,格式基本与训练集类似,唯一不同的是第五列没有关系是正例还是负例的标记。
实验内容:
1对训练集数据进行处理,只留下前面五列,输出文本命名为exp1_1.txt。
2在第一步得到的数据的基础上对19类关系进行分类,生成的文本存放在exp1_train文件夹下,按照关系类别出现的顺序,第一个关系类别的数据存放在1.txt中,第二个关系类别存放在2.txt中,直到19.txt。
3测试集按照训练集的19个类别的顺序将各个样本按照关系类别归类,即相同关系类型的数据放到一个文本文件中,同样生成19个类别的测试文件,格式仍旧和测试文件保持一致。
存放在exp1_test文件夹下,每个类别的文件仍旧命名为1_test.txt,2_test.txt…同时对每个样本在原测试集中出现的位置进行记录,和19个测试文件一一对应起来。比如第一类“传闻不和”的每个样本在原文中处于第几行,在索引文件中进行记录,保存在文件index1.txt,index2.txt….
一起做实验吧!