上一篇我们具体介绍了垂直领域智能问答的具体实现，那么小马的AI应用落地在“大语言模型落地--智能问答系统”下已经暂告一段落了。实现完了自然就到了系统评估指标环节了，由于需求场景差异，指标方案不一定完全适用，本文抛砖引玉，仅供参考。

本文将分别从大模型评估指标、问答系统评估指标、自定义评估指标参考等几个方面来简单阐述问答系统的评估指标。

一、大模型评估指标

我们说了这么久的大模型，好像从来没有提起用大模型自己来回答我们对大模型的疑问。哎，今天你就看到了。其实很多问题都可以通过直接提问大模型来求解。话不多说，那就先来问问它标题这个问题的答案吧。

小马试了些许模型，回答大同小异。以百川2的为例。

问：大模型的评估指标？

答：

大模型的评估指标通常用于衡量模型的性能和准确性。以下是一些常用的评估指标：

1. 准确率（Accuracy）：准确率是分类问题中最常用的评估指标，它表示模型预测正确的样本数占总样本数的比例。

2. 精确度（Precision）：精确度表示模型预测为正例的样本中实际为正例的比例。

3. 召回率（Recall）：召回率表示实际为正例的样本中被模型预测为正例的比例。

4. F1分数（F1 Score）：F1分数是精确度和召回率的调和平均值，用于综合评估模型的性能。

5. AUC-ROC曲线（Area Under the Receiver Operating Characteristic Curve）：AUC-ROC曲线是一种用于评估分类器性能的图形表示方法，它表示在不同阈值下真正例率（True Positive Rate）和假正例率（False Positive Rate）之间的关系。AUC值越接近1，表示模型性能越好。

6. 均方误差（Mean Squared Error, MSE）：MSE是回归问题中常用的评估指标，表示模型预测值与实际值之间的平方差的均值。

7. 平均绝对误差（Mean Absolute Error, MAE）：MAE也是回归问题中常用的评估指标，表示模型预测值与实际值之间的绝对差的均值。

8. R-squared（决定系数）：R-squared是衡量模型拟合优度的指标，表示模型解释的数据变异占总变异的比例。

这些评估指标可以帮助开发者了解模型的性能，从而进行优化和改进。需要注意的是，不同的任务和场景可能需要关注不同的评估指标。

我们再来看百川2开源仓库官方提供的资料。大模型评估指标框架（内含的评估指标不同侧重点不同）：

如果是模型情感分析或者分类我们可以使用如下矩阵验证精确度、召回率和支持率等。

浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

一、大模型评估指标

推荐阅读更多精彩内容

浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

一、 大模型评估指标

推荐阅读更多精彩内容

一、大模型评估指标