浅谈AI大语言模型的企业落地(八)- 问答系统评估指标

上一篇我们具体介绍了垂直领域智能问答的具体实现,那么小马的AI应用落地在“大语言模型落地--智能问答系统”下已经暂告一段落了。实现完了自然就到了系统评估指标环节了,由于需求场景差异,指标方案不一定完全适用,本文抛砖引玉,仅供参考。

本文将分别从大模型评估指标、问答系统评估指标、自定义评估指标参考等几个方面来简单阐述问答系统的评估指标。

一、 大模型评估指标

我们说了这么久的大模型,好像从来没有提起用大模型自己来回答我们对大模型的疑问。哎,今天你就看到了。其实很多问题都可以通过直接提问大模型来求解。话不多说,那就先来问问它标题这个问题的答案吧。

小马试了些许模型,回答大同小异。以百川2的为例。

问:大模型的评估指标?

答:

大模型的评估指标通常用于衡量模型的性能和准确性。以下是一些常用的评估指标:

1. 准确率(Accuracy):准确率是分类问题中最常用的评估指标,它表示模型预测正确的样本数占总样本数的比例。

2. 精确度(Precision):精确度表示模型预测为正例的样本中实际为正例的比例。

3. 召回率(Recall):召回率表示实际为正例的样本中被模型预测为正例的比例。

4. F1分数(F1 Score):F1分数是精确度和召回率的调和平均值,用于综合评估模型的性能。

5. AUC-ROC曲线(Area Under the Receiver Operating Characteristic Curve):AUC-ROC曲线是一种用于评估分类器性能的图形表示方法,它表示在不同阈值下真正例率(True Positive Rate)和假正例率(False Positive Rate)之间的关系。AUC值越接近1,表示模型性能越好。

6. 均方误差(Mean Squared Error, MSE):MSE是回归问题中常用的评估指标,表示模型预测值与实际值之间的平方差的均值。

7. 平均绝对误差(Mean Absolute Error, MAE):MAE也是回归问题中常用的评估指标,表示模型预测值与实际值之间的绝对差的均值。

8. R-squared(决定系数):R-squared是衡量模型拟合优度的指标,表示模型解释的数据变异占总变异的比例。

这些评估指标可以帮助开发者了解模型的性能,从而进行优化和改进。需要注意的是,不同的任务和场景可能需要关注不同的评估指标。

我们再来看百川2开源仓库官方提供的资料。大模型评估指标框架(内含的评估指标不同侧重点不同):

如果是模型情感分析或者分类我们可以使用如下矩阵验证精确度、召回率和支持率等。

还有 58% 的精彩内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。
支付 ¥1.02 继续阅读

推荐阅读更多精彩内容