— Что такое искусственный интеллект и что такое нейронные сети?
На обывательском уровне искусственный интеллект — это некая математическая модель в компьютере и, по сути, что-то считает. Никакого процесса мышления, никаких когнитивных навыков, которыми обладает человек, того, что мы называем «белковый интеллект», конечно же, у него нет. Скорее он имитирует данные навыки настолько хорошо, что мы склонны верить в их существование, и, как следствие, AI многими субъективизируется. Главное, что надо понимать, что искусственный интеллект — это результат математических операций. В какой-то момент количество нейронов в искусственном интеллекте стало большим — десятки, сотни миллиардов, — и собранная из простых сущностей математическая модель стала показывать эмерджентный эффект (проявление свойств и навыков в сложной системе, не присущих каждому отдельному элементу, входящему в данную систему) и имитировать когнитивные навыки путем обычных математических операций. Поэтому не стоит драматизировать и мифологизировать искусственный интеллект.
— Вопрос, который волнует всех: обладает ли машина человеческим интеллектом? И, если учесть, что человеческий интеллект не до конца изучен, как же мы строим искусственный?
— AI с каждым днем становится все ближе к человеческим навыкам, и его все чаще отождествляют и сравнивают с человеческим интеллектом. Но надо понимать, что ничего общего AI с нашим интеллектом не имеет. Еще некоторое время назад были две параллельные истории: ученые с мировым именем, которые занимались нашим «белковым интеллектом», в том числе российский нейробиолог, доктор медицинских наук, профессор, академик РАН. Директор Института перспективных исследований мозга МГУ имени М. В. Ломоносова Константин Владимирович Анохин и плеяда людей, увлеченных искусственным интеллектом, не «белковым», а, если можно выразиться, полупроводниковым. Это отдельная когорта ребят — математиков, айтишников, — и им не нужно было отвечать на сложные вопросы о том, как наш интеллект устроен, потому что то, чем они занимались, и искусственный интеллект до 2022 года преимущественно были классическим машинным обучением (в основном фокус был на автоматизацию и роботизацию обработки данных, начиная от распознавания документа (OCR — Optical Character Recognition) до сегментации и классификации объектов в цифровых изображениях). У них не было задачи воспроизвести в AI наши когнитивные навыки. Они занимались продвинутой статистикой, а потом перешли на этап генерации. Если раньше искусственный интеллект был намерен роботизировать, автоматизировать какие-то профессии, то с 2022 года AI стал что-то синтезировать и создавать принципиально новое, например, изображения по текстовому запросу (нейросеть Kandinsky), писать текст (GigaChat). И искусственный интеллект начали одушевлять, пытаться понять, есть ли какой-то интеллект внутри машины. Конечно, его там нет, но как великолепно он начал имитировать когнитивные навыки и проявлять эмерджентность — те свойства, которым ранее он не был обучен. Например, языковые модели не были обучены переводить с одного языка на другой, но они это делают и делают хорошо. Хотя явно их об этом не просили. Мы сбились со счета, сколько таких навыков эти модели приобрели. Вначале их было порядка нескольких сотен, но потом пришли к пониманию, что с точки зрения количества решаемых задач большие языковые модели становятся универсальными: любая задача, сформулированная текстом, может быть решена с той или иной точностью языковой моделью. И люди начинают понимать: «Мы о нашем-то мозге ничего не знаем, а об этом — тем более». Мы начинаем сталкиваться с общими проблемами как в искусственном интеллекте, так и в естественном интеллекте, в проявлении таких навыков, как эмпатия, сознание, моделирование прошлого и будущего (что свойственно только человеку). С возникновением проблемы стало больше пересечений. Но в научной среде не было намерения найти ответы в естественном интеллекте, чтобы создать искусственный. К этому пришли эволюционно и эмерджентно, местами — случайно. Сейчас время, когда растет большой интерес двух областей друг к другу.
— Может ли машина обладать человеческими способностями — например, познавать, учиться, находить закономерности, логически мыслить, структурировать информацию, планировать, принимать правильное решение, понимать, общаться и творить? А еще: как научить AI быть осмысленным?
— Закономерности он уже находит, не говоря о структурировании, принятии решения и обучении. AI не может планировать и хотеть, и это принципиальное отличие. У человека есть свобода выбора между внешним импульсом и реакцией на него (один из ключевых навыков человека), у искусственного интеллекта его нет. Человек умеет и может хотеть. Стимулы и мотивации порождают наши желания и приводят к действию. С AI сейчас мы можем взаимодействовать по принципу пинг-понга — давать запрос и получать ответ, ставить ему задачу, которую он должен решить. К слову, следующим в эволюции AI после генеративного искусственного интеллекта ожидается фаза развития интерактивного AI, способного предугадывать наши потребности и с некоторой долей автономности закрывать их автоматически, взаимодействуя с другими цифровыми агентами (другими моделями AI, сервисами и др.). Но у искусственного интеллекта нет мотивации, желаний и выстраивания действий в соответствии с ними. И некоторые склонны считать, что это вопрос времени.
— Какими технологиями, а точнее — направлениями, занимается Сбер? Что уже запущено и работает, а что — в планах запустить?
— Легче сказать, чем Сбер не занимается. Для обывателей и непрофильных специалистов, если говорить «продуктово», у нас есть свои флагманы. Это большая языковая модель GigaChat. И Kandinsky — генерация реалистичных изображений и любых изображений по текстовому запросу. Когда мы создаем AI, который в состоянии синтезировать одну модальность c другой (например, чтобы получить картинку или видео), мы используем мультимодальные подходы.
Если мы в состоянии под конкретный запрос создать конкретную картинку, удовлетворить потребность, то уже совсем скоро мы сможем под себя создать кино, игнорируя реальный съемочный процесс. В этом смысле «Меккой» генеративного AI в продуктовой логике станет глубокая персонализация, создание цифрового контента под желания и потребности каждого: сегодня это — музыка, завтра — кино. Уже сейчас с помощью генеративных моделей пишутся сценарии, создаются образы персонажей и синтезируется видео.
По сути, уже совсем скоро эту задачу AI может закрыть. Сегодня глубина проникновения искусственного интеллекта внутри компании очень велика. Мы начали с внутренних потребностей банка — это риски, выдача кредитов. Сейчас поставлены более амбиционные и сложные задачи — создавать модели для внешней аудитории, для B2C и B2B. Мы хотим стать лидерами по развитию искусственного интеллекта на международной арене. И уже сейчас в научной среде мы подтверждаем уровень технологичности наших решений.
— А как пользоваться нейросетью Kandinsky? Нужны ли специальные знания? Чем нейросеть может быть полезна художникам и дизайнерам? Кому вы можете порекомендовать ее освоить?
— Первая версия появилась два года назад. Сначала это была демонстрация того, как развивается сеть. Потом, когда вышел Kandinsky 2.0, стали появляться первые эксперименты с внутренними и внешними заказчиками. Например, с «Кофеманией» мы делали дизайн десертов.
В марте прошлого года вышел Kandinsky 2.1, который стал интересен массовому пользователю. Появились разные идеи — например, дизайн коллекции посуды с Императорским фарфоровым заводом. РБК выпустил газету с помощью GigaChat. И вот тогда пошла история сотрудничества и коллабораций искусственного интеллекта с художниками. Дальше хотим попробовать зайти в область дизайна. От эстетического дизайна мы хотим шагнуть к дизайну промышленному.
— В каких областях AI будет прекрасным помощником для человека?
— Думаю, легче назвать, в каких областях AI им не станет. Через некоторое время трудно будет сказать, в какую область искусственный интеллект не зайдет. Одна из важных областей, где он будет присутствовать, — это здравоохранение: превентивная медицина и диагностика. Основная беда в заболеваниях сердечно-сосудистой системы и новообразований — в отсутствии преждевременной диагностики.
— Сколько лет понадобится людям, чтобы они приняли нейросети и перестали их бояться?
— Есть философский способ ответа на этот вопрос — и прагматичный. Философский: люди всегда боятся того, чего до конца не понимают (любую новую технологию), и поэтому чем выше уровень неопределенности в технологиях, тем больше страхов. И могу сказать: чем больше искусственного интеллекта будет в нашей жизни, тем меньше останется неопределенностей. Это с одной стороны. С другой — технологии не стоят на месте и развиваются быстрее, чем мы ожидали. Чем больше уровень неопределенности, тем больше места для фантастики и развития креатива. Потому что креатив позволяет заполнить нишу неопределенности. С технократичной точки зрения важна популяризация AI. Но не на словах, а на деле. Мы должны реально видеть факты, когда искусственный интеллект спасает жизни в медицине и делает мир лучше. Поэтому чем больше пользователей будет у продвинутых, сложных систем, тем быстрее мы освоим эту технологию и поймем все ее возможности реализации.
— С появлением нейросетей появилась новая профессия — промпт-инженер. В нашей стране их уже много? И где можно научиться этой профессии?
— Промпт-инженерия появляется, когда запрос пользователя в систему должен быть правильно сформулирован. Вот, например, Kandinsky. Я задаю запрос нейросети: «Нарисуй-ка мне поздравительную открытку». Нейросеть на такой запрос выдаст обычный рисунок, потому что для нее слишком много слов и мало конкретики. Этого недостаточно — для красивой генерации и качественного контента нужно добавить больше специфических признаков. Например, открытка в какой технике, цветовой палитре, стиле, в каком размере, разрешении и т. д. И модель тогда генерирует нужное красивое изображение.
Чем сложнее генерируемый объект, тем больше нюансов, связанных с промптами. Поэтому промпт-инженер — это профессия будущего, ведь чем больше генеративного искусственного интеллекта будет в нашей жизни, тем больше будет вариативность генерируемых объектов. Но это не означает, что все население должно пройти курсы промпт-инженерии. Порог вхождения в группу пользователей со временем снижается, и поэтому на обывательском уровне ими может воспользоваться кто угодно. А вот чтобы сделать что-то профессиональное, потребуются специальные навыки: это понимание, как сделать нужный промпт.
Это пока мы говорим о картинках, дальше идем в модальность генерации видео. А она куда сложнее. Потому что, помимо того, что нужно сделать качественный контент, там нужно следить, чтобы соблюдались базовые законы физики и перспективы. Инженеры, которые будут работать с видеогенерациями, должны обладать обширными знаниями. Поэтому уже сейчас есть массовый пользователь и профессиональный. Уже сейчас промпт-инженеров сотни тысяч. Кстати, у нас есть бесплатные курсы по обучению нашим AI-сервисам.
— Больше всего AI боятся творческие люди — художники, дизайнеры, писатели, поэты и музыканты. Вы уже продемонстрировали, на что способен искусственный интеллект в этих областях. Например, Симфонию № 1 «Космос» нейросеть Сбера SymFormer написала вместе с музыкантом и композитором Петром Дрангой. Это произведение исполнил Большой симфонический оркестр на Приморской сцене Мариинского театра. В третьей и четвертой частях зрители услышали импровизацию от нейросети в режиме реального времени. А что дальше?
— Скажите, художники боятся Photoshop? У меня жена — художник, она не очень испугалась появления Kandinsky. Она с ней экспериментирует в свободное время. Думаю, это хороший помощник для создания новых видов творчества. Не надо бояться — надо уметь им пользоваться. Если мы на эксперименты с образами можем сократить время и у нас получится результат, превышающий наши ожидания, то почему бы и нет. Вот пример: кинораскадровки. Раньше художники тратили на это очень много времени, сейчас раскадровку можно генерировать с помощью генеративных моделей, и это экономит огромное количество времени для художника.
— ChatGPT уже сейчас пишет неплохие эссе. И известен факт, что один подросток отослал эссе о климате, который сделал ChatGPT, на конкурс, и работа была принята с вердиктом: неплохо, но неоригинально. Так как мы знаем, что AI не перестает обучаться, то что дальше? Не окажутся ли писатели и поэты невостребованными?
— Текущие возможности GPT-систем таковы, что они могут сгенерировать вполне интересные тексты. Уже генерируется квазинавык создавать что-то новое. Если посмотреть топовые модели, то уже сейчас они способны выдавать интересные и оригинальные тексты. Мы можем вам показать 50 вариантов продолжения одного и того же текста и попросить сказать, что написал человек и что сгенерировала машина, и, поверьте, это будет очень сложно. Есть момент, на котором можно поймать машину: намеренно спровоцировать ее на фактологические неточности.
— Сбер взял на себя прекрасную миссию оцифровать коллекцию ГМИИ им А. С. Пушкина. Есть ли планы создать цифровые интерактивные копии других российских музеев? И готовятся ли другие музейные проекты?
— Вектор направлений таков: оцифровать картины из запасников музея, обучить Kandinsky, заложив в него коды высокой живописи. Интересно, как наша нейросеть эволюционирует на ценностях Пушкинского музея. Например, в музее огромная коллекция импрессионистов и много рукописей. Фронт большой. В целом поженить AI и искусство — задача интересная.
— Останется ли ценно то, что создано руками человека?
— Есть теория, что в некоторых индустриях продукты, созданные без искусственного интеллекта, вручную, будут дороже, чем созданные AI. Искусственный интеллект будет все автоматизировать и упрощать, а человек будет все меньше заниматься рутиной, и в этой парадигме продукты, произведенные человеком, будут иметь большую ценность.
Фото предоставлено пресс-службой Сбер