当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
我国004号航母什么时候下水?
MiniMax Week第三天推出通用 Agent,体验如何?对行业会带来哪些影响?
鱼缸有没有简单的过滤配置搭配方式?
如何评价《绝区零》艾莲的激发潜能?
曾经的班花,现在还多少人惦记?
如何评价“寡姐”斯嘉丽·约翰逊的身材?
新买的移动硬盘该格式化为 NTFS 还是 exFAT?
为什么有的女生喜欢穿紧身牛仔裤?
狗头萝莉究竟做错了什么?
为什么都对TLC乃至未来的QLC嗤之以鼻呢?
iOS 26 的新设计被吐槽丑,苹果在设计更新时考虑了哪些因素?你对这一设计都有哪些评价?
flutter为什么不用Go语言,而用Dart?
如果看待林丹这句话 “网球的强度远远没有羽毛球大”?
SpaceX 星舰 36 号火箭静态点火测试爆炸,爆炸的原因是什么?会对星舰发展产生什么影响?
伊朗这次会崩溃灭亡吗?
核武器最小当量能做到多少?
2025年了 Rust前景如何?
如何看待jemalloc停止维护?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
为什么要在鱼缸里养水草?
印度人为什么总觉得比中国强?
能发一张在暧昧期的聊天记录吗?
中年夫妻有多少是生活和谐的?
美军航母编队有能力拦截DF-21D和DF-26吗?
以色列为什么突然敢打伊朗了?不怕被报复?
请问买个nas,能够直接把游戏装进去吗?
怎么通俗的解释路由这个词?
每次去国外,别人一眼就看出我是中国人,是中国人身上有什么特质吗?
特朗普大力推行稳定币,背后的真实目的是什么?
如何评价《一人之下》第721(764)话?