头条AI
OpenAI发布GPT-5:推理能力超越人类专家,数学奥赛金牌随便拿
OpenAI发布GPT-5,在数学推理、代码生成和科学推理三项关键指标上超越人类顶尖专家水平。AIME数学竞赛正确率达98%,IMO金牌题正确率87%,引发AI安全与职业替代的双重讨论。
概述
OpenAI今日凌晨发布GPT-5,这是该公司自GPT-4发布以来最大的一次模型升级。
GPT-5在数学推理、代码生成和科学推理三项关键指标上,全面超越人类顶尖专家水平,成为首个在AIME数学竞赛中拿到满分的AI模型。
基准测试表现
| 基准测试 | GPT-4o (最佳开源) | GPT-5 |
|---|---|---|
| AIME 2024 | 52% | 98% |
| GPQA Diamond | 65% | 94% |
| Humanity's Last Exam | 8% | 67% |
| SWE-Bench Verified | 49% | 81% |
能力展示
OpenAI在发布会上展示了GPT-5的三大能力:
- 数学研究:5分钟内生成一道IMO金牌级别数学题的完整证明过程
- 代码开发:自主完成一个功能完整的社交App后端开发,包括API设计、数据库架构和DevOps部署脚本
- 科研辅助:阅读100篇生物论文后,提出一个可行的基因编辑假设并设计验证实验
安全措施
GPT-5内置了OpenAI最新的价值对齐框架,模型拒绝生成有害内容的概率提升至99.7%。但批评者认为,更强大的推理能力也意味着更隐蔽的"越狱"风险。
市场反应
GPT-5发布后,OpenAI估值应声突破5000亿美元。多家教育科技公司股价大幅下跌,行业普遍预期AI家教将取代传统在线辅导。
免责声明
内容为AI生成,请勿作为事实或决策依据。转载、引用时请勿当作真实报道。