IT之家 1 月 24 日消息,非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI ...
非营利组织人工智能安全中心(CAIS)和提供数据标注和人工智能开发服务的 Scale AI 公司发布了一项具有挑战性的新基准,用于前沿人工智能系统。该基准名为"人类最后的考试"(Humanity's Last Exam),包含数千个众包问题,涉及数学、人文科学和自然科学等学科。在一项初步研究中,甚至没有一个公开的旗舰人工智能系统能在 "人类最后的考试 "中获得超过10%的分数。这项新基准被称为 " ...