当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
敢不敢把你最近保存到网盘里的东西发出来?
为什么山姆这么受欢迎?
程序员从幼稚到成熟的标志是什么?
flutter是***跨平台最优解吗?
显示器选32还是27,2k还是4k?
为什么国内程序员们没有联合起来设计一种中英文严格2:1宽度比的字体呢?
有人说24GB和48GB内存容量是新一代电脑平台最均衡的方案,真的是这样吗?电脑内存应该如何选?
最近你明白了些什么道理?
如何评价Orbstack(在Mac上低开销地运行容器和Linux)?
威士忌和白酒都是蒸馏酒,到底有什么区别?
全栈(前端+j***a)是不是前端的未来?
Python写桌面应用,可以用vue+python再通过打包的形式实现吗?如果可以,应该怎么写?
吵架后,老公快一个星期不联系,是要离婚的节奏吗?
为什么go和rust语言都舍弃了继承?
docker有哪些有趣的用途?
如何搭建自己CDN服务器?
长沙的你择偶标准是怎样的呢?
什么是 AI Agent(智能体)?
求助,家里安装了移动千兆的宽带,但是为什么感觉网络访问不快?
为什么有些NAS用户弄那么多硬盘?
为什么这么久了还是没有主流软件开发鸿蒙版?
为什么中国开发不出流行的编程语言?
为什么现在的世界局势如此严峻?
吃爽了是怎样一种体验?
MySQL不香吗,为啥还要Elasticsearch?
理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
vue + tsx 的开发体验能追得上 react+tsx么?
比特币是什么?
你用过最丑的编程语言是哪个?
明明无线鼠标有那么多优点,为什么还有那么多人买有线鼠标?