
Модели ИИ приблизились к прохождению «Последнего экзамена человечества»
Исследователи зафиксировали рост результатов искусственного интеллекта в тесте «Последний экзамен человечества» (Humanity’s Last Exam). За год показатели увеличились с нескольких процентов до десятков.
Тест «Последний экзамен человечества» разработали специалисты Scale AI и некоммерческой организации Center for AI Safety. В основу легли 70 тысяч вопросов, которые подготовили ученые из 50 стран. Из них авторы выбрали 2500 заданий. Каждый вопрос требует уровня подготовки, сопоставимого с докторской степенью. Формат предполагает короткий и точный ответ, который сложно найти через открытые источники.
В 2024 году модели показывали низкие результаты. ChatGPT набрал около 3%, показатели Gemini и Claude оказались немного выше. Тогда тест зафиксировал заметный разрыв между возможностями языковых моделей и уровнем научных специалистов.
Сейчас ситуация изменилась. По данным разработчиков, Gemini достигла 45,9%, Claude — 34,2%. Представитель Scale AI Кэлвин Чжан допустил, что модели могут выйти на 100% уже в течение нескольких месяцев или года. В таком случае, по его словам, потребуется создавать задачи, на которые нет готовых ответов даже у специалистов.
При этом разработчики считают, что даже при максимальном результате ИИ не заменит человека полностью. Речь идёт о задачах, требующих нестандартных решений, а также о работе в узких научных областях, где важны интерпретация и креативный подход.
