评估指标
如 F1、CEM、EM 等方式
EM:完全匹配
F1: 将预测值和标准答案都看作词语(tokens)的集合,计算两个集合的交集。
CEM(Correctness Evaluation Metric): CEM 并不是一个像 F1 那样标准的单一公式,它通常指代一种基于语义或加权的综合评估框架,在生成式 AI(AIGC)场景下应用较多。
- 使用模型(如 BERT 或 LLM)计算预测向量与答案向量的余弦相似度。
- 对关键词赋予更高权重(核心词错了扣大分,语气词错了不扣分)。
如 F1、CEM、EM 等方式
EM:完全匹配
F1: 将预测值和标准答案都看作词语(tokens)的集合,计算两个集合的交集。
CEM(Correctness Evaluation Metric): CEM 并不是一个像 F1 那样标准的单一公式,它通常指代一种基于语义或加权的综合评估框架,在生成式 AI(AIGC)场景下应用较多。