两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
golang为什么要内置map?
如果现在南京市整体穿越到1937年,能守住南京吗?
你们的腰椎间盘突出,怎么治好的?
一个练过功夫的姑娘能打过一个没练过的男人吗?
洲际导弹能打到任何地方,为什么还需要轰炸机?
为何 Linus 一个人就能写出这么强的系统,中国却做不出来?
有没有人能从俄罗斯的角度说说为啥不与中国进行全面战略合作,安稳的做一个中国的大后方?
鸿蒙PC操作系统是不是就是手机操作系统?
字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
postgres集群的选择?
印度公开藏南地区我方战士口咬手雷坚守的***,是想表达什么?
我应该设置多少kb才能让他不能玩游戏?
MacOS真的比Windows流畅吗?
不看攻略游玩《艾尔登法环》是一种什么体验?
为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?
如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
中国预警机世界领先吗?
如何看待CCTV13批评“L2.999智驾”等误导性宣传,若导致事故车企可能需要担责?
如何评价首个女性友好的编程语言HerCode?
鸿蒙电脑会在国内逐渐取代windows电脑吗?
特厨隋坡探店成都快餐店,给出80分以上的高分,为什么评分远高于大饭店?
为什么都说武器越怪,死的越快?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
如何看待 Rust 的应用前景?
这种裙子是不是对直男爆杀?
我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
什么是bootloader?
微软edge浏览器为什么逐渐被其他的浏览器代替?
有人说x86是条必沉的船,苹果早就跳船了,微软也有弃船的意图,你怎么看?
Golang与Rust哪个语言会是今后的主流?