GDPval测试的核心结果

小黄:GDPval测试是什么?GPT-5.2在测试中表现如何?

DOORM:GDPval是OpenAI在2025年9月发布的评测体系,直接比较AI和人类专家“干活”的能力。在涵盖44个职业的测试中,GPT-5.2 Thinking完成任务的速度是人类专家的11倍以上,成本不到人类的1%,并且在70.9%的任务中赢了或打平人类专家[Float-Menu id=”1″]。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注