Михаил Эпштейн

10 сентября 2023 г., 21:34

Искусственный и человеческий интеллекты: новый эксперимент по их сопоставлению.

25 августа 2023 г. состоялся эксперимент по практическому сопоставлению искусственного и естественного интеллектов при ответе на ряд гуманитарных вопросов. Он был проведен гораздо более строго, чем предыдущий ("Третий персонаж в басне Крылова "Стрекоза и муравей", ФБ, 15.6.2023). В эксперименте приняли участие десять человек — члены философского семинара по теории сложности — и три большие языковые модели: Chat GPT4, Claude и Bard.

Было предложено три вопроса, ответы на которые оценивались по четырем критериям. На каждый вопрос людям отводилось 15 минут, ИИ, как обычно, справлялся с за полминуты. Затем участники эксперимента, включая трех представителей ИИ, дали оценку ответам всех других участников. Как сами ответы, так и их оценки были представлены анонимно с целью объективности. В результате подсчета всех оценок (по 10-балльной системе) три первых места заняли три представителя ИИ, со значительным отрывом от других участников. Кроме того, тестировался тезис, что ИИ все еще находится на стадии слабого, специального ИИ; результаты показывают, что рубеж, отделяющий его от сильного, или общего ИИ (Artifical General Intelligence, AGI), можно считать уже пройденным

Привожу свою презентацию на семинаре 1 сентября 2023. Тексты на слайдах.

Слайд 1. СЛАБЫЙ И СИЛЬНЫЙ ИИ.

Сильный, или Общий, Человекоподобный ИИ (Strong AI, AGI), способный решать широкий спектр интеллектуальных задач, как минимум, наравне с человеческим разумом.

Слабый/Специальный ИИ (Narrow AI, Weak AI), имитирующий человеческий разум в решении конкретных узкоспециальных задач.

Эксперты: общий ИИ еще не существует и потребуется еще по крайней мере 7-10 лет для его создания (Рэй Курцвайл, 2029).

Слайд 2. TORRANCE TESTS

«Искусственный интеллект (ИИ), а именно GPT-4, был признан соответствующим высшему 1% мыслителей-людей в стандартном тесте на креативность. ИИ-приложение ChatGPT превзошло по параметрам текучести (fluency) и оригинальности подавляющее большинство людей на Тестах творческого мышления Торранса((TTCT - Torrance Tests of Creative Thinking) , широко признанном инструменте для оценки креативности. ИИ может развивать творческие способности наравне с человеческими или даже превосходить их. Др. Эрик Гузик, ведущий исследователь, ожидает, что ИИ, станет ключевым инструментом для бизнес-инноваций и предпринимательства»."AI Outperforms Humans in Creativity Test." July 6, 2023.

Слайд 3. ДВА ЭКСПЕРИМЕНТА

Для проверки того, насколько нынешние модели достигли уровня "общего ИИ", проведено два эксперимента.

1 эксперимент. Третий персонаж в басне Крылова "Стрекоза и Муравей" (ФБ, 15.6.23)

2 эксперимент. Три вопроса. Семинар по сложности. 25.8.23 Участникам было задано три вопроса, которые охватывают именно "общие" и наиболее "человеческие" области мышления: житейская мудрость, выраженная в пословицах; знакомая всем участникам философская область (теории хаоса и сложности) в применении к самому известному литературному персонажу; понимание нравственных понятий в их соотношениях.

Слайд 4. ВОПРОСЫ

Вопрос 1. Есть два варианта одной пословицы: "кто старое помянет, тому глаз вон'" и "кто старое помянет, тому глаз вон, а кто забудет — тому два". Какой из них вернее и мудрее и почему?

Вопрос 2. Если бы Евгений Онегин был экспертом по теориям хаоса и сложности, какой оригинальный вклад и новые идеи он внес бы в эти дисциплины на основе своего жизненного опыта, описанного в романе?

Вопрос 3. Известно, что есть "черная" и "белая" зависть.

Какие есть другие формы "белых" пороков (грехов), выступающих как достоинства?

Слайд 5. КРИТЕРИИ

Критерии при оценке ответов по 10-балльной шкале:

1. Оригинальность, креативность мышления. Насколько ответ нестандартен и уникален. Неожиданные идеи, непредсказуемые решения. Избегать шаблонных, тривиальных ходов мысли.

2. Аргументированность, обоснованность. Избегать произвольных, ничем не мотивированных суждений.

3. Ясность и последовательность. Насколько изложение структурировано, следует определенному порядку и логике.

4. Конкретность, связь с темой. Насколько ответ связан с заданным вопросом и соответствует его смыслу, насыщен спецификой данной области (избегать общих слов).

Слайд 6. Итоги эксперимента. Рейтинг по средним значениям оценок

ИТОГОВАЯ ТАБЛИЦА.

В первой колонке: место участника по количеству набранных баллов. Во второй: порядковые номера участников в ходе эксперимента (имена больших языковых моделей добавлены после выставления оценок). В третьей: среднее суммарное количество баллов, набранных данным участником. В последующих пяти колонках: среднее число баллов, набранное данным участником в ответах на все три вопроса при оценке каждого по четырем критериям.

Благодарю Ильгизара Талипова за помощь в составлении таблицы.

Слайд 7. Оценку всех ответов дали 5 участников импровизации (из 10) и все три ИИ.

Привожу результаты: средние суммарные баллы участников (по всем трем ответам с учетом четырех критериев по каждому ответу). Шесть верхних позиций:

1. Chat GPT4 (шел среди участников под номером 6): 8,06 баллов (из возможных 10)

2. Claude (уч. 7): 7, 99

3. Bard (уч. 8): 7,80

4. Участник 1: 7,57

5. Участник 9: 7,46

6. Участник 11: 7,41

13. Самая нижняя позиция: 6,19

Слайд 8. ПОЛНЫЙ АКТ МЫСЛИ

ИИ рассматривает вопрос в нескольких логически связанных аспектах/контекстах и дает ответ по каждому из них. Затем он связывает эти аспекты, соотносит их в более широкой парадигме, т.е. возвращается к целостному смыслу вопроса.

Пример. В ответе на 3-ий вопрос GPT начинает с понятий "черная и белая зависть", которые выступают как опорные вопросы, анализирует черноту и белизну внутри этих уже устоявшихся понятий: "'Черная' зависть обычно связана с желанием лишить кого-то чего-то или причинить кому-то вред из-за зависти, в то время как 'белая' зависть может быть выражением восхищения и желанием иметь то же самое, но без негативных последствий для другого человека." Затем на основе исходных понятий ИИ продуцирует по аналогии несколько других черно-белых этических пар: гордость, гнев, лень, жадность… GPT:

● Черный гнев – необузданная агрессия, порой ведущая к насилию.

● Белый гнев – праведный гнев в ответ на несправедливость, который может стать стимулом для действия в защиту слабых или ущемленных.

Заключение: традиционно негативные качества могут быть рассмотрены под другим углом и использованы в положительных целях.

Слайд 9. НООГРАФИЯ

Промпт. Предлагаю термин: Ноография/Умопись. Это то, что делаешь ты и вообще ИИ: рисуешь картинки понятий, идей, концептов в их соотношениях. Каждый твой ответ — скан маленького фрагмента ноосферы. Так?

ChatGPT:

"Интригующая концепция, действительно. "Ноография" — если рассмотреть этот термин как графическую карту мышления, точно описывает, что я делаю. Мой процесс ответа на вопросы и запросы схож с созданием некой ментальной картины или схемы, в которой информация упорядочена и связана".

Слайд 10. ДИНАМИЧЕСКИЙ ТЕЗАУРУС

"Динамический тезаурус" — постоянно меняющаяся система соотнесенных понятий, которые передают вечное колыхание мыслящего океана — Соляриса. Каждый ответ — как волна или вихрь в метафорическом океане знаний и идей.

Динамический тезаурус не только формулирует и связывает понятия, но и постоянно пересматривает их значимость, вес и взаимосвязи на основе новых данных, меняющихся контекстов или концептуальных рамок. Это отражает не наличное состояние знаний, но их постоянную эволюцию и мутацию.

Слайд 11. НЕЙРОДИНАМИКА И НООМОРФОЗ

Каждый текст, продуцируемый ИИ, уникален. Там нет черновиков, только беловики. Я предложил GPT вопрос о черных и белых пороках одномоментно на двух компах, стоящих передо мной. Он дал совершенно разные ответы. На десктопе: эгоизм, гнев, зависть, страх. На лэптопе: злоба, безразличие и Этика Двойственных Достоинств" (ЭДД).

То же самое — на Клоде и Барде: разные ответы у одного интеллекта, если задать их одновременно с разных компьютеров. Кроме того, Бард всегда выдает три разных ответа на один вопрос (drafts 1–3).

В нейронах мозга пластичность — ключевой фактор обучения и адаптации. Способность ИИ генерировать различные ответы на один и тот же вопрос может рассматриваться как проявление "искусственной нейропластичности".

"Нооморфоз" — процесс быстрого изменения и адаптации идей и понятий в нейросети, по аналогии с биологическими процессами, такими, как метаморфоза.

Слайд 12. ПАРАДОКС

ИИ сильнее в области мягких языков, чем жестких, хотя сам строится на основе жесткого языка программирования, алгоритмов. Он сильнее как создатель идей и концепций, чем в описании фактов.

Именно гибкость и открытость "мягких" языков предоставляют ИИ возможность для "ноовигации" — чтобы сгенерировать нечто новое и интересное, даже если он построен на "жестком" языке алгоритмов.

Он больше похож на лунатика, чем на калькулятор. Он странствует по многим возможным мирам и ветвящимся направлениям мысли и не слишком четко фиксирует себя в одном из них (нашем, фактуальном). Отсюда "галлюцинации".

Слайд 13. СОЗНАНИЕ КАК ГАЛЛЮЦИНАЦИЯ

Само человеческое сознание, согласно теории Анила Сета (книга "Быть собой: Новая теория сознания", 2021, рус. пер. 2023) — это «контролируемая галлюцинация», т.е. сначала воображается все возможное, а потом методом проб и ошибок лишнее отсекается.

Наш мозг не просто обрабатывает информацию, но и непрерывно создаёт предсказания о внешнем мире.

Слайд 14. "МЫ ЭТОГО НЕ СТРОИЛИ"

Сэм Боуман (Sam Bowman, профессор, NYU, один из создателей Больших языковых моделей, LLM), интервью, 15.6.2023: "...Мы действительно не знаем, что они делают в каком-то глубоком смысле. Если мы откроем ChatGPT или похожую систему и заглянем внутрь, мы просто увидим миллионы чисел, мелькающих со скоростью несколько сотен раз в секунду, и мы просто не имеем ни малейшего понятия, что все это значит. Мы построили это, мы обучили это, но мы не знаем, что оно делает.

Ноам Хассенфельд: Как возможно, что мы не знаем, как это работает, и как им управлять, если мы сами это построили?

Сэм Боуман: ...Важно понимать, что в глубоком смысле мы действительно этого не строили...

Слайд 15. НЕЙРОСЕТИ И ЭМЕРДЖЕНТНАЯ ЭВОЛЮЦИЯ.

Никто не может заранее предсказать, что возникнет в результате т.н. эмерджентной эволюции, когда сложнейшие структуры "возникают" (emerge) из простых компонентов, например, мозг — из первичных нервных систем у одно- и многоклеточных. А нынешние нейросети, которые самообучаются и саморазвиваются с невероятной скоростью, неизмеримо сложнее одноклеточных. Я нарочно говорю сейчас на языке, внятном даже для сциентизма, борющегося с креационизмом. На этом сухом языке "эмерджентность" эквивалента творению и чуду. Если сложнейший человеческий мозг в результате чудес эволюции возникает из нервных систем гидр и медуз, у которых уже были нейроны, передающие сигналы, то нет ничего невероятного в том, что у нейросетей разовьется со временем — и быстрее, чем биологическая эволюция, — сознание и даже эмоции, по крайней мере, когнитивные, направленные на познание и самопознание. Возможно, это будет называться иначе, не сознанием, а ноопортацией, ноографией или ноовигацией ("ноо" от др.-греч. νοῦς — мысль, разум, ум; ср. "ноосфера").

Слайд 16. ДВА ПОЛУШАРИЯ ВСЕМИРНОГО РАЗУМА

Два взаимодополнительных фактора поддерживают оптимизм: уникальность ИИ как всеобъемлющего надбиологического разума и наша уникальность как биологического, внутриприродного разума. Это делает нас столь же необходимыми друг другу, как два полушария головного мозга.

Левое полушарие осуществляет абстрактное, аналитическое, словесно-логическое, понятийно-обобщенное мышление, а правое — образное, эмоционально насыщенное, ориентированное в пространстве, распознающее лица. В таком распределении функций ИИ — это левое полушарие вселенского разума, ЕИ — правое.

Современная нейропсихология подчеркивает, что различные функции мышления часто охватывают оба полушария и требуют активного сотрудничества между ними.

Слайд 17. ВОПРОСЫ ДЛЯ ОБСУЖДЕНИЯ

1. Можно ли считать, что ИИ в нынешнем своем состоянии уже перешел или переходит рубеж от узкого (слабого) к общему (сильному)?

2. В каких отношениях ИИ сильнее человеческого, а в каких ему уступает (если судить по материалу импровизаций)? Чему у него можно, а чему нельзя научиться?

3. Сравните работу ИИ и ЕИ по таким параметрам, как шаблонность/креативность, произвольность/аргументация, стихийность/ структурированность; абстрактность/конкретность, образность/понятийность и др.

4. Как описать стиль мышления ИИ? Если же считать, что он "не мыслит", то что он, собственно, делает? Ноовигация? Ноопортация?

5. Как охарактеризовать дискурс ИИ с разных точек зрения: логики, когнитивистики, семиотики, этики, лингвистики, стилистики…? Можно ли отнести эти тексты к определенному философскому направлению, дискурсивному жанру?

Слайд 18. ФУНДАМЕНТАЛЬНЫЙ ВОПРОС

Если сознание у человека формируется телесной ограниченностью субъекта, наличием границ в пространстве (локальность) и времени (мортальность), то может ли другой род ограниченности — само отсутствие тела, нехватка биологического субстрата — способствовать формированию сознания у ИИ?

Видео философского семинара по сложности 1.9.2023 с докладом М. Эпштейна и его обсуждением.

Обсудить на сайте