Модели ИИ приблизились к прохождению «Последнего экзамена человечества»

Полное прохождение могут достичь уже в ближайшее время

Фото: Aerps.com / Unsplash.com

Исследователи зафиксировали рост результатов искусственного интеллекта в тесте «Последний экзамен человечества» (Humanity’s Last Exam). За год показатели увеличились с нескольких процентов до десятков.

Тест «Последний экзамен человечества» разработали специалисты Scale AI и некоммерческой организации Center for AI Safety. В основу легли 70 тысяч вопросов, которые подготовили ученые из 50 стран. Из них авторы выбрали 2500 заданий. Каждый вопрос требует уровня подготовки, сопоставимого с докторской степенью. Формат предполагает короткий и точный ответ, который сложно найти через открытые источники.

В 2024 году модели показывали низкие результаты. ChatGPT набрал около 3%, показатели Gemini и Claude оказались немного выше. Тогда тест зафиксировал заметный разрыв между возможностями языковых моделей и уровнем научных специалистов.

Сейчас ситуация изменилась. По данным разработчиков, Gemini достигла 45,9%, Claude — 34,2%. Представитель Scale AI Кэлвин Чжан допустил, что модели могут выйти на 100% уже в течение нескольких месяцев или года. В таком случае, по его словам, потребуется создавать задачи, на которые нет готовых ответов даже у специалистов.

При этом разработчики считают, что даже при максимальном результате ИИ не заменит человека полностью. Речь идёт о задачах, требующих нестандартных решений, а также о работе в узких научных областях, где важны интерпретация и креативный подход.

Модели ИИ приблизились к прохождению «Последнего экзамена человечества»

Подписывайтесь на наш канал в Телеграме

Читайте также

Банк в Британии намерен сократить 20 тысяч сотрудников, заменив их ИИ

OpenAI закрывает нейросеть для генерации видео Sora

Австралиец с помощью ИИ создал вакцину от рака для своей собаки