工作中,我接触过不少AI大模型对话工具,到底哪一款效果最好呢?同样一个问题,一般我会多个平台对比试试。刚好接到一个任务,是跟视频安防工程测算有关的,我就实际评测了10多款AI工具,包括国内国外目前主流的大模型,包括GPT-4o,Claude 3.5 sonnet,LLama 3.1,阿里通义千问、文心一言、讯飞星火、KimiChat、智谱等共计15款,17个版本。可以说是基本囊括了目前大部分主流大模型。当然,这份评测目前只对我在工作中实际遇到的工程测算场景为例,并不代表他们在其他能力上面就不强,相反,各个模型在其他方面都各有专长,后面我也会逐个介绍下。如果你希望评测其他能力,可以留言提出你关心的问题,我再根据这个问题再问下它们,再出一篇文章。对比后的一个主观打分如下(仅针对本次工程测算回答的评估):序号模型名称得分1GPT-4o952GPT-4o mini953Claude 3.5 sonnet 954Llama 3.1 405B955Llama 3.1 70B936Gemini 1.5 Pro907阿里通义千问858讯飞星火809百小应8010智谱清言8011KimiChat7512万知6013文心一言3.55514豆包5515腾讯元宝5516秘塔搜索5517天工搜索55这个任务是我实际工作中遇到的,简单来说,就是根据摄像机的性能参数,来评估下识别出的物体目标的像素尺寸大小,以此来分析是否适合进行计算机视觉方式的算法识别。一般是要达到50像素X50像素以上才好去检测和识别的。由于有一定的专业度和计算复杂度,一刚接到这个任务,我觉得计算起来也比较麻烦,干脆问问AI吧,顺便对比看看谁回答得对。以后工作中也更倾向于使用对应工具来处理工程计算方面的问题。提示词都是一样的:你是优秀的安防摄像头研发专家,请问球机摄像头大概规格是:焦距大于1000mm,50倍变焦,使用1/1.8"传感器,分辨率为1920*1080;要求15公里外,可以看到大小7米*4米的飞机;6公里们可以看到1.6米*1.6米的起落架, 你看能不能帮忙计算一下,这个距离大概的目标大小是多少像素。请一步步思考,详细作答。1、首先登场的是GPT-4o,回答步骤详细,帮我节省了不少计算步骤,答案也是正确的。主观打分:可以打95分。之所以不打满分是防止骄傲。
2、
再试试国产的AI大模型,我这里先试了下
腾讯元宝
,答案有点……错得离谱。
首先1/1.8"传感器的尺寸大小搞错了。这个值我在CSDN上搜了搜,是7.18*5.32mm,GPT-4o是回答正确的:
其次它的计算公式有点让人摸不着头脑,而GPT-4o给出的先通过FOV视场角公式,再求出最终结果的方法是OK的。主观打分:只能打55分。不是说腾讯元宝不好,而是在处理此类工程计算问题上,还得客观看待。不过,我平时喜欢用腾讯元宝进行搜索问题,它的深入研究模型会查很多资料后再回答,很详细,而且参考引用里面也包括很多微信公众号文章,本身公众号文章的质量一般都是比较优质的。
3、
国产模型还有不少选择,这里我再试试
阿里通义千问
。
第一步给出的传感器尺寸为8.8mm*6.6mm是错的,它旁边有个数字16的标号。说明是引用的一篇网文,我看了下,参考的是知乎的文章,但知乎这篇文章说的是对角线长度,通义居然理解错了。
好在后面的回答都是正确的,公式也对了,最后的结果仅仅是因为一开始传感器尺寸错误导致出现偏差,但整体的思路没问题。主观打分:能打85分。
4、
再看下
讯飞星火
的回答,也是栽在了传感器尺寸上,后面的计算过程问题不大,不过计算飞机的像素大小的时候,换算成了小数点位数很多的角度,在此基础上再计算比例,我觉得这样不是特别好理解,不如GPT-4o换算成长度好些,不过好歹结果误差不算太大。主观打分:能打80分。
5、
再看一款,
万知
,这个我平时用得少,因为出得确实要晚些,不过它是李开复带队孵化的AI公司零一万物的作品,还是有口碑的。我现在来试试效果。还是跟通义、讯飞一样的问题,传感器尺寸搞错了,步骤2的视场角计算公式是给对了,但为啥没有算出结果来呢,而且到了第3步,居然又整出一个莫名奇妙的新公式,还把传感器尺寸传入,算出的结果让人摸不着头脑。明显太小了,看来,至少在工程测算上,万知还不太会。主观打分:能打60分。
6、
下一个出场的选手,是
字节的豆包
,也是一个好手,用户体验做的也不错。但是这道题,我们细看答案,一开始传感器尺寸给对了不假,不过给的是对角线的尺寸,这不打紧,后面能换算成长和宽也行。视场角公式也给对了,我以为开始要按正确回答的方法走了,没想到水平视场角的计算用到了传感器对角线长度,垂直视场角也算错了。到了后面,算7米*4米飞机在15公里外所占的角度,居然带入错误的单位,7米变成了7公里,导致最后的结果大得离谱。看来,豆包的工程测算还得再好好练练了。主观打分:也只能打55分。
7、
再来试试擅长AI搜索的
天工搜索和秘塔搜索
,天工搜索没有列对公式,然后也没有计算过程,只是说应该考虑这考虑那;秘塔搜索虽然计算了,但是公式也用得不对,最后算的答案也错得离谱。所以,针对AI搜索类应用,我还是更倾向于用他们去搜索资料,确实更在行,什么pdf文档、word文档都能找出来并引用好,但是对于工程测算,还是不要为难它们了。主观打分:都只能打55分。
(秘塔搜索)
(天工搜索)
8、
接下来继续对比4款国内大模型:(1)
文心一言
我试了他们家的免费版3.5,看了下答案,虽然回答了很多,看似很认真,不过传感器尺寸给错,焦距居然还能根据1000mm和50倍变焦得出50000mm的结果,后面的公式也错了,导致最后结果也是不忍直视。当然,文心3.5免费,对文字处理类的问题回答得还行,还是不能以偏概全。主观打分:也只能打55分。
(2)而接下来出场的是
百小应
,也就是百川大模型,是搜狗前掌门王小川创业的作品,之前介绍过,最擅长的是作诗和医疗领域,这次试了下工程测算,发现它除了传感器尺寸给错,后面的公式和计算过程都没毛病,不过最后偷懒了下,只计算了长度,没有计算宽度,不过再追问下就可以算出来,百小应能够达到这个程序,已经超出我的预期了。主观打分:能打80分。
发现国内的大模型大部分都把传感器尺寸搞错了,不知道是不是因为1.8英寸是英制单位,国内的语料库普遍这方面比较少的原因。
(3)然后是
智谱清言
,它号称全面对标GPT-4o,最近还推出了GPT-4o语音版类似的语音对话模式,后面有时间我试试这个功能。今天重点还是看看它如何回答这个问题,传感器尺寸还是弄错了,HFOV虽然计算公式对了,但不知道为什么后面的步骤却没有用到,用另外一种相似三角形的公式也是可以的,算是另一种解题思路,但是因为前面传感器尺寸的偏差,造成最后结果不够令人信服。主观打分:能打80分。
(4)
KimiChat
,也是明星选手,之前火过一段,强在其长文本能力上,最近更新了新版本,选择“探索版”,即自带思维链功能,跟进的最新GPT-4 o1版本的能力。所以我一问他这个问题,确实不急着回答,先一阵子思考,查找资料,再来计算,我们看整个计算步骤,有条有理,传感器尺寸终于弄对,在国产大模型里面算是难能可贵了,后面的计算公式也是对的,只是到了最后第3步,明明公式、带入数值都是对的,可为啥最后的计算结果却功亏一篑了,两个答案都算错了。有点可惜。主观打分:能打75分。
9、
最后,我们再拿出4款国外大模型作为对比:(1)首先是GPT-4o的劲敌
Claude 3.5 sonnet
,也是目前ChatGPT公认最强的对手。我们来看看回答,答题思路跟GPT-4o几乎一致,只是文字排版没那么漂亮,整体没毛病。主观打分:同样可以打95分。
(2)然后是谷歌推出的
Gemini 1.5 Pro
,前面计算步骤都没毛病,最后采用了跟智谱一样的相似三角形计算公式,因为传感器尺寸用对,所以最后结果是对的。不过,还是更倾向于用视场角公式来计算更具有说服力一些。主观打分:可以打90分。
(3)然后是Meta开源的
Llama 3.1 405B
,这是迄今为止,最强且参数最大的开源模型,我们来看看答案,回答得跟GPT-4o几乎一致,无懈可击。可以打95分。
其实这道题即使交给Llama 3.1 70B这个更小参数版本也是能够正确解答的,只是用词更加简洁一些。
(4)最后我拿出了
GPT-4o的小版本mini
,回答这个问题起来居然跟GPT-4o也难分伯仲。
最后,你也许会说,GPT-4o都这么强了,那他们最新的GPT-4o1不是要强得离谱?至少这道题,也未必,我试了下
o1- mini
,它的思考时间确实更长,而且回答更加详细,考虑因素更多,但是在关键的计算水平视场角的计算中,它居然算错了,我一开始还怀疑是不是其他大模型算错了,至少我自己求证并计算了下,确实是o1-mini失误了。所以,有时候想得太复杂未必是件好事,当然,最强的o1-preview我还没试,这话也许说早了。
总结来看
,国内的大模型至少在工程测算这块,与国外优秀大模型还是有一些差距,但是有几个优秀的已经快追上来了,差距不大。在这里,希望国内大模型越做越好,早日一览众山小。
P.S.
上面对比评测的GPT-4o,Claude 3.5 sonnet,Gemini Pro,Llama 3.1等大模型,其实使用了Sider这款工具,它整合了GPT-4o,Claude 3.5,Gemini Pro等国外主流大模型,并可以在国内方便使用,感兴趣可以关注同名公号,后台回复“gpt”了解具体使用方法。
制作不易,欢迎点赞、关注加转发,感谢感谢。