2017年5月,当时世界围棋*的柯洁惨败于AlphaGo,在机器是否会比人类更聪明这个事关全人类尊严的问题上,我们*次有了一个确定性的答案。
一年前尚且能赢一局的李世石,成为人类棋手在AI面前最后的夕阳。
不过,人类善于寻找理由,比如将智力转换为更复杂且难以解释的“智慧”,那就显得我们还在赢,还有是更“高级的”赢法。而且作为在智慧这条路径上的先行者,人类可以既做选手又做裁判,给出一套套的测试标准,美其名曰测试AI,AI超过了人类水平,那是人类推动的科技进步,AI没有超过人类,那人类再次赢赢赢。
但“青出于蓝而胜于蓝”这件事,虽然人类希望AI快点做到,可当快到像迎面而来的一阵冰雹猛地砸到脸上时,绝大多数人还是会不适应到懵逼。
最初,我们轻松地用游戏来测试AI,现在,人类能参与地最难的考试,也即将无法用来考验AI了。
在一个周前,马斯克发布了最新版的Grok-4,这款大模型,用老马的话来说,“比所有领域的博士都聪明”。
而其在各项考试中的成绩,可以说是怪物般的存在:
我们比较熟悉的SAT和GRE考试几乎满分,不太熟悉但更难的考试,GPQA准确率为88.9%,AIME25(美国数学邀请赛)准确率为100%,USAMO25(美国数学奥林匹克竞赛)准确率为61.9%。
最引人注目的是“人类最后的考试”,听这个名字,大家就能知道它代表的意思。
这个考试是由Scale AI 和 Center for AI Safety发布的,包含3000个高难度的问题,涉及超过100个学科,题目来自数百位不同领域的专家,可以说,这套试题涵盖了人类智力任务中*挑战性的部分,足以用来衡量AI是否具备“类人智能”。
其中题目分为两类,一类是简答题,需要输出一个完全匹配的字符串作为答案,另一类是选择题(Multiple-Choice Questions),需要从五个或更多选项中选择一个正确答案。
不过,前者占到了80%,而且数学相关的题目占到了全部问题的42%,所以不要指望碰运气能刷出高分。
来自题库的题目之一,感受一下无知的痛苦吧
据说,以普通人的水平,大概能答对5%的题目,而当时的大模型也纷纷折戟,没有一个能超过10%。你问人类最多能打多少分?这不重要,反正题目也是人类出的。
但Grok-4的出现,却让AI通过“人类最后的考试”的时间大大缩短了,达到了50.7%的准确率,成为*突破50%的大模型。
这个分数,高的惊人,但因为考试的难度过大,距离大家的生活又太远,所以很难直观的说明有多难得,不过好在,后来笔者找到了一个差不多所有中国人都能理解的参考系。
在Grok-4发布的差不多同一时间,上海交大联合深势科技团队,使用 DeepSeek-R1-0528 作为驱动智能体的推理模型,在“人类最后的考试”上拿下了32.1%的新纪录,可以说代表着国内大模型的最高水平。
而大概一两周之前,国内的大模型正在集体测试另一套“国民考试”——高考试题。
比如,字节跳动Seed 团队就用最新推出的通用模型 Seed1.6 对2025年山东卷高考真题进行测试,语数外采用新课标全国Ⅰ卷,其余科目为山东省自主命题,满分750分,并找来了两位来自重点高中、有联考判卷经验的高中老师进行匿名评估和多轮质检。
所以,以高考试卷为标准,那么DeepSeek和豆包、混元间几十分的差距,是考上985和考上清北的差距;而以HLM为标准,DeepSeek和 Grok-4 差了接近40%的分值……
“比所有领域的博士都聪明”的真假还不确定,但在刚刚高考完的这一届高三考生中,文科成绩能超过AI的真的不多了。也许下一年,大模型们的高考成绩,就要彻底吊打人类考生了,能考上清北的人被称为天才,但天才努力跨过的门槛,只是AI的保底志愿。
但我更倾向于认为,就像人们对AI在围棋领域对人类的碾压再无兴趣一般,高考,还有其他人类能参与的考试,包括“人类最后的考试”,最终都会呈现AI一边倒的*优势,以至于让人习以为常。
可能到时候,人类会制定新的考试,但不再考虑将人类和AI进行对比,而是AI之间纯粹的竞赛;也可能将不存在这样的考试或者变得很少,人们将更关注AI的应用落地和性价比,毕竟人类也好,AI也好,考试都只是过程之一,创造出价值才是最终的目的和结果。
不过到那时,人类在智慧上的优越感,又要靠什么来维持呢?
5月16日晚8点,天猫618现货开卖。全球大牌大疆、富士、任天堂,奢侈品牌Cartier卡地亚、MiuMiu、MaisonMargiela,时尚运动品牌adidas、Salom...
科创“新势力”企业重庆行活动18日至19日在重庆举行,为创新型人才、高成长型团队、科技型企业提供交流合作的平台。2025明月湖硬科技创业者大赛在现场启动,面向全球征集优质项目。...
7月12日,第22届长春国际汽车博览会盛大启幕。一汽-大众大众品牌以众进向新惠聚春城为主题,携旗下全系明星车型登陆长春东北亚国际博览中心...
面对增长瓶颈,掌阅科技持续加码短剧等新业务,试图通过内容视频化实现破局。尽管转型方向较为明确,但从半年报预告看,盈利能力未见起色,亏损幅度持续扩大,或反映出公司在战略调整过程中...
7月14日,上汽南京生产基地整装车间,东来紫色的全新MG4完成最后的质检工序后驶出生产线,意味着MG品牌新百年新能源战略的首款车型正式量...
近日,车质网从相关渠道获悉,奇瑞旗下新能源品牌iCAR在网络上发布了iCARV23S车型的官图,新车针对外观细节进行调整,着重对动力系统进行了升级。 车尾造型棱角分明,熟悉的...
临沂是中国北方知名商城,以专业批发市场集群著称。2025兰华(马来西亚)海外商城临沂优质产品展销会18日在吉隆坡开幕,200余家企业参展。 据介绍,本次展销会设置万余平方米展...
从携手宁德时代、亿纬锂能等中国供应商伙伴推进BMW第六代动力电池大规模量产,到同阿里巴巴让AI大语言模型“上车”,再到官宣与Moment...
近期,上汽大通MAXUS带来了一款纯电MPV——MIFA...
如今的油价,让燃油车的用车成本不断上升,可以说一定程度上...
2022年6月30日,几何E正式上市,定位纯电小型SUV...
今天编辑不想讨论技术落后不落后,对于老百姓来说,成熟稳定...