这几天因为项目需要,写了个程序来解析arff文件。先解释一下什么事arff文件格式吧。Arff文件来源于Weka软件,Weka是一款用于数据挖掘的开源分析软件,而arff是weka指定的存储数据的文件格式。
Arff文件主要分为头文件和数据两部分,头文件部分说明了数据包括哪些属性,以及每一个属性的取值范围等信息。举个栗子:比如我们要记录一个班里的同学,能够想到会有Name,Gender,Height等属性,于是在arff文件里,能够看到这样的信息:
@ATTRIBUTE Name string
@ATTRIBUTE Gender {Male,Female}
@ATTRIBUTE Height real
可以看出来,头文件里每行第一个关键字@ATTRIBUTE表明这是一个属性,第二个关键字是属性的名称,比如Name,Gender,Height,第三部分是属性的取值范围,可能是个字符串string,可能是枚举型变量,也可能是个实数。
Arff文件的数据部分用@DATA开头,随后一行代表一个数据,紧跟上面的例子,数据部分会是这样的:
@DATA
Lily Female 160
Mitchel Male 175
Jack Male 178
介绍完了Arff文件,我的任务就是写一个程序分析arff文件。我的方法是建立一个arff文件结构体,里面包括两种小的结构体:”属性结构体”和“数据结构体”,就像这样:
属性结构体
struct ArffAttribute
{
char Name[16];
char Candidates[8];
ArffAttribute* Next;
};
数据结构体
struct ArffDataLine
{
char classType;
char* dataLine;
ArffDataLine* Next;
};
Arff文件结构体
struct ArffFile
{
ArffAttribute* FirstAttribute;
ArffAttribute* LastAttribute;
ArffAttribute* AttributeList;
ArffDataLine* FirstDataLine;
ArffDataLine* LastDataLine;
ArffDataLine* DataLineList;
int AttributeCount=0;
int DataLineCount=0;
};
ArffFile中用两种方式存储属性,第一种是用FirstAttribute和LastAttribute把属性按链表存储,第二种是用AttributeList把属性按照数组方式存起来。
今天在把属性链表转换成数组的时候卡住了,原因是我不清楚这个数组的元素应该是ArffAttribute,还是ArffAttribute的指针。过了一会才想明白了,由于我是把链表元素ArffAttribute保存的内容复制到数组里,所以数组的元素应该是ArffAttribute,而不是它的指针。如果我选择不是复制内容,而是原封不动的使用链表里本来就有的元素,由于这些元素在内存里不能移动,所以只能用指针指向他们,那么数组的内容就应该是指针。
今天写程序的时候在这里卡了好一会,在加上别的用指针的地方,一天里面起码有40%的时间用来思考指针的用法,或者调试指针带来的错误,特别消耗时间。记得大一的时候,教材里就写着指针是个非常危险的东西,最近一段时间对此深有体会,写程序时最需要考虑的就是指针的使用,而最容易出错的地方往往也是指针。所以平时写程序还是能避免就避免用指针吧~