Разбираемся, как же генеративные "ИИ" работают на самом деле, почему искусственный интеллект по-прежнему существует лишь в книгах фантастов, почему генераторы изображений не демократизируют искусство, и причём здесь капитализм и классовая борьба.
Что из себя представляет генеративный искусственный интеллект
Правда ли, что GenAi работает также, как человеческий мозг
Нео-луддиты: против чего на самом деле протестуют работники творческой сферы
Скандалы, интриги и судебные разбирательства
Нейросети и порнография
Opt-in и opt-out: что это такое и в чём разница
Демократизация искусства
Война против "капитализма": кто "спасает" правообладателей из под "гнёта" авторского права
Чужой среди своих: разработчики GenAI против эксплуатации
Суммируя вышесказанное (краткое содержание статьи)
Генеративные ИИ (GenAi), на самом деле, имеют крайне мало общего с тем представлением об искусственном интеллекте, которое сложилось в массовой культуре. В отличие от искусственного интеллекта в фантастических книгах, видеоиграх и телешоу, существующие модели ИИ не являются целостной личностью — и вообще, на самом деле, не осознают себя. Потому называть их искусственным интеллектом было бы не совсем правильно: до создания настоящего искусственного интеллекта человечеству пока что очень далеко (да и то, насколько силён запрос на подобные инновации в нашем обществе — это вопрос дискуссионный).
Генеративный искусственный интеллект способен генерировать текст, изображения, видео или аудиофайлы в ответ на промпт — то есть, подсказку пользователя, введённую в специальное поле. Именно поэтому GenAi (даже image-to-image и video-to-video, где вместо текстового запроса используется изображение либо видеоролик) обязательно опирается на языковую модель. Например, DALL-E (нейросеть компании OpenAi, ныне находящейся во владении Microsoft) полагается на языковую модель GPT.
Нейросетевые языковые модели, такие как, например, GPT — это большие нейронные сети, которые обучаются предсказывать следующее слово в тексте с учетом предыдущего контекста. Для того, чтобы получить этот контекст, текстовая модель обучается на невероятном массиве текстовых данных, об источнике (и авторах) которых нам еще предстоит поговорить.
Да, в основе любого GenAi лежит нейронная сеть — та самая структура, которая частично имитирует работу человеческого мозга. И именно из этого проистекает ряд заблуждений вокруг работы Gen-Ai.
Работа нейросети с принципом image-to-image на примере Блохастой — персонажа автора статьи.
К подобным выводам, к сожалению, приходит огромное количество людей, имеющих крайне приблизительное представление и о творческой сфере, и о генеративных ИИ. Также её транслируют маркетологи, чтобы ввести рядового пользователя в заблуждение, создать ажиотаж вокруг своего проекта и привлечь инвесторов.
С текстовыми моделями мы с вами худо-бедно разобрались: обученные на колоссальных массивах текста, они предсказывают слова, которые с наибольшей долей вероятности последуют за предыдущими, а также способны цитировать тексты из базы данных в ответ на заданный им вопрос. При этом, всегда существует опасность "галлюцинаций" (когда в ответ на запрос выдаётся заведомо неверный ответ), одна из причин которых кроется, конечно же, в источнике данных, на которых обучалась модель. При дата-скрейпинге (автоматическом сборе информации с вебстраниц), при помощи которого создавались базы данных для обучения вероятностных языковых моделей, в эти самые базы попадало всё, что придётся: и литературные произведения, и научные статьи, и тексты конспирологов. Иными словами, иногда там попадается несусветная чушь.
Но что же с генеративными ИИ, создающими изображения?
Основной аргумент, используемый в доказательство сходства между ними и работой человеческого мозга — это то, что и художник, и генеративный ИИ имеют некоторую "визуальную базу". Якобы и человек, и нейросеть однаково смотрят на изображения, созданные другими людьми и запоминают, а затем и воспроизводят их содержание. Если судить очень поверхностно — то это, конечно, можно ошибочно принять за правду. Да, генеративный искусственный интеллект копирует исходные изображения из базы (чаще всего лишь частично, но при очень специфических и точных запросах — полностью), но ведь и человек учится рисовать, в том числе, копируя работы мастеров, разве не так?..
Чтобы опровергнуть этот аргумент, сейчас мы разберём, как же именно происходит генерация изображений — естественно, несколько упрощённо.
Генеративный искусственный интеллект (например, Stable Diffusion) состоит из нескольких основных компонентов: Text Encoder (текстовый кодировщик), Image Information Creator (создание информации изображения) и Image Decoder (декодер изображений).
Любая нейросеть обучается на огромном количестве данных: на миллионах пар текст-изображение, собранных со всей сети Интернет. При вводе промпта, нейросеть перерабатывает текстовый запрос в массив чисел (векторов) и пропускает его через множество слоев нейронов - особых функций, способных предсказывать (угадывать), какой вычислительный результат лучше соответствует искомому запросу, основываясь на переработанных данных, полученных во время обучения.
Иллюстрация из статьи "Как работает Stable Diffusion: объяснение в картинках» с habr.
Процесс создания информации изображения действует полностью в так называемом "скрытом пространстве" и называется diffusion (диффузия).
Диффузия — это пошаговая обработка информации, приводящая, в итоге, к генерации изображения в высоком качестве. Denoising Diffusion Probabilistic Models — вероятностные модели устранения шума — сначала накладывают на изображение, находящееся в базе данных шум в несколько этапов, а затем устраняет этот шум (также в несколько этапов). Для ускорения процесса генерации изображений процесс диффузии выполняется не с самими пиксельными изображениями, а с их сжатым представлением.
Модель нейронной сети может "предсказывать" пиксели, необходимые для "дорисовки" изображения с высокой точностью: за счёт этого работает не только генерация изображений text-to-image, но и увеличение разрешения изображений с помощью искусственного интеллекта (upscaling). Иными словами, генеративный ИИ анализирует определённые паттерны и затем использует их при генерации новых изображений по запросу пользователя.
Возвращаясь к терминологии пользователей, склонных к "очеловечиванию" генеративных ИИ — модель не понимает, какой объект (или объекты) она должна изобразить. Она ориентируется на паттерны, которые научилась распознавать и воспроизводить.
При этом данные, на которых обучается нейронная сеть, критически важны. Существует такое понятие, как overfitting (переобучение): чем больше в модели изображений с определённым объектом, тем лучше модель научится его распознавать. Проблема в том, что при этом она может потерять способность распознавать другие объекты, либо начинает распознавать их ложно. Мы к этому ещё вернёмся.
На результат работы нейросети влияет также и то, какие изображения встречаются в её базе чаще всего. В качестве примера — нейросеть, увеличивающая разрешение изображения, в 2020 году сменила расу Бараку Обаме, так как, вероятнее всего, в её базе было значительно больше фотографий людей европеоидной расы.
Вдобавок, у нейросетей существует ещё одна особенность: с некоторой долей вероятности, GenAi может выдать и практически точную копию изображения, находящегося в базе данных — и иногда это тоже бывает связано с переобучением, например, когда базе данных оказывается очень много копий одного и того же изображения. При вводе достаточно безобидного промпта "девушка с жемчужной серёжкой" любая популярная модель, с очень большоей долей вероятности, выдаст почти неизменённую копию картины Яна Вермеера.
Также имеет значение формулировка и точность самого промпта: чем больше совпадений между ним и "тегами" конкретного изображения в базе данных, тем больше вероятность того, что конечный результат будет иметь сильное сходство с этим изображением. Вплоть до случаев, когда "генерация" совпадает с оригиналом почти на сто процентов. Причина подобного поведения моделей GenAi — проблема эффективности и ресурсоёмкости. Выдать почти полную копию идеально подходящего к запросу пользователя изображения из базы данных для нейронной сети значительно менее ресурсоёмко, чем создать радикально новое, но со схожими параметрами.
Теперь давайте разберёмся с вами, как работает живой художник и каким образом он учится. Спойлер: это не имеет никакого отношения к запоминанию паттернов и их копированию (даже в художественных ВУЗах практика копирования занимает очень небольшой процент обучения).
Художник изучает реальные объекты, существующие в пространстве, и последовательно учится строить на бумаге и пространство, и объект в нём. Даже в практике рисования с натуры смысл совершенно не в том, чтобы скопировать картинку: художники учатся рисовать натюрморты, фигуру человека и портреты для того, чтобы достоверно изображать форму, объём и фактуру объекта.
Понимание формы предмета, его текстуры, светотональных отношений, цвета и перспективы позволяет художнику достоверно изображать объекты, которые не находятся у него перед глазами, а иногда даже те, которых не существует в реальности. При этом досконально скопировать увиденное когда-то давно изображение человек попросту не может: у него в голове нет никакой базы данных увиденных картин и фотографий, откуда он мог бы "вытащить" исходную картинку. Именно поэтому далеко не каждый человек может, не глядя, нарисовать точное изображение человеческой руки, двери в собственную комнату или повторить рисунок с любимой кружки, даже несмотря на то, что эти объекты находятся у него перед глазами каждый день.
Короче говоря, если разобраться в процессе работы GenAi , он значительно меньше напоминает работу человеческого мозга в целом, и работу художника в частности, чем некоторым хотелось бы.
Термин "луддиты" в отношении художников, актёров, сценаристов и других работников культуры, сторонники генеративного искусственного интеллекта начали применять ещё в прошлом году.
Луддиты были участниками стихийных протестов первой четверти XIX века в Англии. Их протест был направлен против внедрения машин на производствах. Вопреки расхожему мнению, они не были против технологий как таковых: то, чего они боялись на самом деле, и против чего шли — это замена людей на производствах и техническая безработица.
Забастовка гильдии сценаристов (WGA) в Голливуде продлилась с начала мая 2023 года и до конца сентября и в истории Голливуда это был второй по продолжительности перерыв в работе WGA.
Риск внедрения искусственного интеллекта в качестве замены живых сценаристов был одним из основных причин, почему сценаристы прекратили работу и отправились на пикеты.
Вопреки слухам в русскоязычном интернете, забастовки увенчались успехом: соглашение не запрещает писателям или продюсерам использовать генеративный искусственный интеллект, но запрещает использование программного обеспечения для замены авторов либо сокращения их заработной платы.
Подобная забастовка была устроена и актёрами (SAG-AFTRA): она продлилась с июля по ноябрь 2023 года. Опасения актёров, приведшие к забастовке, вызвали в том числе внедрение искусственного интеллекта, а также 3D-сканирования. Голливуд тогда заинтересовала возможность уменьшить траты на работу актёров массовки, за счёт создания и покупки их трёхмерных образов для многократного использования (в качестве компенсации при этом предполагалась выплата вознаграждения за один день работы). Несмотря на то, что 3D-сканирование до этого использовалось в киноиндустрии долгие годы, в сочетании с развитием искусственного интеллекта это открыло бы новые горизонты для эксплуатации.
Подписанное соглашение обязало продюсеров получить согласие актёра на создание и использование его цифровой копии, а также обговаривать заранее контекст использования образа актёра. За использование копии актёрам также будет положена компенсация по их обычной ставке за то количество дней, за которые им заплатили бы за работу.
Однако позднее (уже в январе 2024 года) выяснились новые подробности: гильдия актёров объявила о своём партнёрстве с Replica. Сделка, согласно заявлению SAG-AFTRA, «позволит Replica привлечь членов SAG-AFTRA на основе справедливого, этического соглашения для безопасного создания и лицензирования цифровой копии их голоса. Однако, самих актёры озвучания возмущены: никакого голосования либо публичных обсуждений на этот счёт не было.
Модели, синтезирующие человеческий голос, вызывают большие опасения и у российских актёров. 30 августа участники Союза дикторов России и актёры дубляжа запустили петицию, цель которой — добиться защиты голосов от копирования. Причиной стало произошедшее с актрисой дубляжа Алёной Андроновой.
В 2019 году Андронова участвовала в записи для банка Тинькофф. Договор, подписанный ей, был стандартным, и в нём не фигурировали такие слова как "синтез речи" или "нейронные сети". Представители банка заверяли актрису, что записи предназначаются исключительно для решения внутренних задач — в том числе обучения голосового помощника Олега. Однако в последствии записи были переданы сторонним лицам — в том числе для озвучания роликов порнографического содержания. Это сильно ударило и по имиджу, и по карьере Андроновой.
В этом году планируется забастовка гильдии мультипликаторов (TAG) — в их сферу искусственный интеллект уже начали внедрять для создания дизайнов персонажей и заменять им художников по фонам. Вдобавок вызывают опасения и video-to-video генераторы: качество их работы весьма сомнительно и визуально напоминает очень неудачное ротоскопирование, однако на фоне финансового кризиса подобные технологии всё ещё вызывают опасения.
Художников очень беспокоит перспектива их частичной замены на рынке труда: уже сейчас многие студии, занимающиеся разработкой казуальных и мобильных игр насильственно внедряют искусственный интеллект в рабочие пайплайны. Всё это происходит втайне от широкой общественности, даже некоторые сотрудники уверены: эти модели генеративного ИИ тренируется только на собственных ассетах студий. Анонимный инсайдер в одной из студий, занимающихся казуальными играми, сообщает, что на самом деле, в базе данных модели GenAi, используемый его компанией, находятся также ассеты из игр конкурентов.
В отличие от актёров и писателей, у художников из игровой индустрии и свободных иллюстраторов нет своей гильдии и нет профессиональных союзов. В данный момент все надежды представителей индустрии и их будущее находятся в руках суда.
Все три крупнейшие компании, занимающиеся нейронными сетями — OpenAi, Midjourney и StabilityAi — находятся под следствием. И причина кроется, как раз-таки, в источниках данных, на которых обучались их модели.
Год назад три художницы — Сара Андерсен, Келли МакКернан и Карла Ортис — подали коллективный иск против Stability AI, Deviantart и Midjourney за использование их работ при тренировке моделей Stable Diffusion и Midjourney. Ни одна из этих компаний никогда не связывалась с художницами и не спрашивала их разрешения на использование их иллюстраций.
За этот год аргументы Midjourney постепенно менялись от уверений, что обучение нейросетей попадает под fair use (добросовестное использование) и до утверждений, что выплатить компенсации всем пострадавшим художникам невозможно, так как Midjourney не может отследить, кому именно принадлежат изображения находящиеся в базе.
Некоторое время назад сторонники Midjourney радовались тому, что суд нашел недостатки в некоторых аргументах художниц, однако теперь к иску присоединились такие титаны индустрии, как Джеральд Бром, Грег Рутковски и другие, а к материалам дела добавились новые подробности.
Дискуссии о том, является ли обучение нейронных сетей добросовестным использованием материалов, защищённых авторским правом (fair use), продолжаются уже больше года. Загвоздка в том, что добросовестное использование (не подразумевающее получения разрешений или выплаты денежных компенсаций) всё-таки не подразумевает материальной выгоды. Однако продукты OpenAi, Stability Ai и Midjourney активно монетизируются компаниями с помощью платных подписок: та же Midjourney, например, требует 30 долларов в месяц за возможность коммерческого использования генераций.
Перевод промптов: "чёрный доспех со светящимся мечом, скриншот фильма" (рис.1-4), "мужчина в робе со светящимся мечом, скриншот фильма" (рис.5)
Осложняет ситуацию и то, что 6 модель нейросети, судя по всему, обученная на кинолентах и сериалах, на простейшие и нейтральные запросы выдаёт изображения, почти идентичные материалам из базы данных, что, возможно, свидетельствуют о переобучении модели. Для специалистов, занимающихся обучением генеративного ИИ, подобное поведение модели крайне нежелательно, поэтому сам факт того, что сотрудники Midjourney могли допустить подобное, заставляет усомниться в их компетентности.
Касаемо невозможности отследить источники данных, и здесь работники Midjourney и в частности её основатель Дэвид Хольц всё-таки покривили душой: в сети всплыли переписки работников компании, где они обсуждают "отмыв данных", а также огромный список "стилей", в котором находится 5000 имён художников, чьи работы целенаправленно использовались для тренировки разнообразных моделей нейросети. Также в таблице есть вкладка "предлагаемых" художников, собранных работниками Midjourney — в ней больше 16 000 имён.
Под ударом находится и OpenAi: в конце прошлого года New York Times подали на них в суд за обучение на миллионах материалов газеты, включая материалы, доступные по платной подписке. ChatGPT до сих пор выдаёт цитаты этих материалов по соответствующему запросу — и для OpenAi это огромная проблема. Настолько, что они заговорили о денежных компенсациях — правда, крохотных в сравнении с их собственной прибылью.
Не удаётся пока что уйти от ответственности и Stable Diffusion, нейросеть которой воспроизводила на некоторых изображениях вотермарку GettyImage.
Все эти нейросети обучались на датасетах LAION, а также других материалах, собранных с интернета путём дата-скрейпинга. Именно поэтому продвинутые промптеры могут давать нейросети задачи на создание изображений, похожих на те, что фигурируют во вкладке "трендов" на ArtStation.
Кстати о базе LAION (Large-scale Artificial Intelligence Open Network). Совсем недавно в LAION-5B обнаружили порнографию с участием несовершеннолетних, и исследовательская команда убрала свою базу из открытого доступа. Stable Diffusion 1.5, в которой отсутствовали фильтры "взрослого контента" и которая генерировала по запросу порнографию, обучалась именно на этой версии базы данных.
Это не первый раз, когда в базах LAION обнаруживали подобный контент: в 2021 LAION-400M были обнаружены файлы с изображением порнографии и сексуального насилия.
Некоторые модели генеративного искусственного интеллекта имеют ограничения на создание порнографического контента — например, в таблице со "стилями" Midjourney, помимо имён художников также есть страница с "чёрным списком", состоящим из слов на сексуальную тематику (и не только). StableDiffusion 2 больше не генерирует порнографический контент, но модель 1.5 находится в свободном доступе и многие до сих пор используют её. В том числе игровые студии: об этом сообщает анонимный работник одной из них, жалуясь на "внезапные гениталии", возникающие при генерации иконок с предметами.
Некоторые сервисы, использующие генеративный искусственный интеллект, откровенно предлагают своим пользователям "раздеть знакомых девушек", а популярный онлайн-маркетплейс моделей генеративного искусственного интеллекта CivitAi ввёл систему наград за создание дипфейк-моделей на основе внешности актрис, блогеров и даже немедийных личностей.
Помимо создания роликов с разнообразной дезинформацией, дипфейк-технология рискует стать машиной для генерации порномести. С её помощью можно будет создать компромат на абсолютно любого человека, что особенно страшно в сочетании с синтезом голоса, модели для которого можно натренировать с помощью аудиодорожек из безобидных видео, вокальных дорожек из музыкальных композиций и даже банальных голосовых сообщений. Основной массой жертв подобных атак, разумеется, станут женщины. И — неугодные создателям подобного контента политические деятели, а также деятели искусства.
CivitAi — не единственный подобный маркетплейс, но едва ли не самый обсуждаемый из-за скандалов, следующих один за другим. Их платформу также заподозрили в распространении моделей, создающих порнографию с участием несовершеннолетних — в тот же день, когда это стало известно широкой общественности, от сотрудничества с ними отказался их облачный провайдер.
По большому счёту, немалая часть художественного сообщества, на самом деле, не настроена радикально против нейросетей и их использования в рабочем пайплайне. Камень преткновения здесь, как и всегда, находится в источниках данных — и том, как эти данные собирали.
LAION проводили свой дата-скрейпинг для исследовательских целей, и формально обучение нейросетей попадает под это описание только до того момента, пока компания не начинает взимать плату за использование собственной модели. Отложив в сторону вопросы выплат роялти, коммерческое использование дата-сета в любом случае подразумевает, как минимум, получение согласия правообладателей, и некоторые компании, занимающиеся тренировкой собственных моделей GenAi, даже попытались ввести этот элемент в свою бизнес-модель.
В конце 2022 года DeviantArt, находясь под давлением общественности, одним из первых предложил своим пользователям возможность "отказа по требованию" (opt-out), чем вызвал сильное недовольство со стороны общественности.
Дело не только в том, что большая часть данных с DeviantArt на тот момент уже попали в базу данных для тренировки DreamUp (их собственного генеративного искусственного интеллекта). Дело ещё и в том, что opt-out не является этичной практикой, так как подразумевает что пользователи по умолчанию дают разрешение на использование своей интеллектуальной собственности. Для того, чтобы отказаться от участия в тренировке модели DreamUp, сначала нужно было проставить специальный тег на каждую работу из собственной галереи (у многих художников их накопились тысячи), а позднее — войти в свою учётную запись и поставить галочку в настройках. Но вот загвоздка: неактивные пользователи социальной сети могут так никогда и не узнать, что их работы использовались для тренировки ИИ. К тому же, на сайте находится огромное количество профилей уже умерших художников, которых подписали на участие в тренировке GenAi посмертно.
Впрочем, многие компании, не предоставили пользователям никакого выбора вовсе, создавая свои модели генеративного искусственного интеллекта на базе информации, находящейся на их серверах, включая глубоко личные фотографии и тексты.
Ещё одна проблема opt-out состоит в том, что некоторые компании намеренно усложняют процесс коммуникацию правообладателей с их представителями: собирают данные формы, требующие огромную массу личных данных, а также подразумевающие заполнение отдельного экземпляра формы на каждый объект интеллектуальной собственности. Это значительно усложняет и подачу заявлений, и их рассмотрение. Словом, компании делают всё для того, чтобы обезопасить себя от дальнейших судов, а в то же время — и для того, чтобы правообладатель сдался и опустил руки.
Ко всему прочему, изъять данные из базы, на которой уже обучена нейронная сеть, невозможно. Как говорят и сторонники, и противники GenAi: "джинн уже выпущен из бутылки".
Именно по этой причине огромная часть художественного сообщества и требует перехода на модель opt-in, то есть согласия по подтверждению.
Тезис о том, что генеративные ИИ демократизируют искусство, на самом деле, звучит несколько странно: в 21 веке искусство и без того оказалось демократизировано донельзя. В наши дни занятие живописью перестало быть чем-то элитарным, а для работы художником больше не нужно иметь академическое образование, о чём говорит коммерческий успех тысяч иллюстраторов-самоучек. Стоимость простейших материалов для рисования значительно ниже, чем стоимость подписки на Midjourney или видеокарта, мощность которой достаточна для тренировки собственной модели. Художники, музыканты и писатели сами создали и выложили в сеть Интернет миллионы уроков и статей о том, как научиться рисовать, петь или писать книги — и огромное количество этих материалов распространяются абсолютно бесплатно.
Впрочем, не исключено, что у работников креативной индустрии и у создателей и поклонников GenAi просто разные представления о демократизации: пока первые говорят о доступности знаний и материалов, вторые имеют в виду избавление от необходимости осваивать какие-либо навыки. Также тезис о демократизации часто используют люди, мистифицирующие творческие навыки: некоторым просто хочется верить, что другой человек успешнее них в какой-либо деятельности лишь потому, что был наделён "Божьим даром" от рождения.
Описание изображения: девушка с розовыми волосами сидит за столом, усыпанном карандашами. У неё совершенно абсурдные металлические протезы рук, у которых нет кистей и пальцев, и которые заканчиваются на уровне запястий.
Другой популярный аргумент защитников генеративного "искусства" апеллирует к тому, что благодаря развитию технологий рисованием наконец-то смогут заниматься люди с инвалидностью. Но художники с инвалидностью, на самом деле, существовали задолго до создания генеративных ИИ и всегда были важной частью художественного сообщества. Многие из этих людей видят в самом этом аргументе скрытое оскорбление: якобы слабовидящий человек или человек, потерявший руку, не могут заниматься искусством без помощи нейросетей, хотя в большинстве случаев это, конечно, не так.
Существует также и точка зрения, что GenAi вредит художникам с инвалидностью, буквально конкурируя с ними на рынке труда: эта сфера исторически привлекала многих маломобильных людей тем, что в ней можно работать удалённо.
У сотрудников компаний, занимающихся машинным обучением и генеративным ии, нередко встречается определённый комплекс взглядов. Они рассуждают о том, что существование материальных авторских прав причиняет огромный вред творчеству и на корню рубит креативность, и что человечество достигнет настоящей свободы лишь "освободившись из под его гнёта копирайта".
Речь идёт не только о материальных правах крупных корпораций, вроде Disney, но и о правах "маленьких" авторов: свободных художников, писателей и инди-музыкантов, например. С их точки зрения, призывы отказаться от материальных авторских прав или копирайта звучат дико, особенно когда крупные компании активно монетизируют свои модели генеративного ИИ.
Чтобы создавать изображения качества, близкого к качеству коммерческой иллюстрации, промптеру необходимо применить сразу несколько инструментов, распространяемых сразу несколькими крупными компаниями, и далеко не все эти инструменты распространяются по свободной лицензии. Напротив, для того, чтобы эффективно заниматься созданием контента с помощью искусственного интеллекта, нужно в месяц оплачивать солидный чек на несколько сотен долларов — суммы, за которую можно было бы заказать живому человеку иллюстрацию вполне хорошего качества.
Комментарий к новости о судебном иске NYT против OpenAi. Нора занимает позицию head of interpretability research в AiEleunter: некоммерческой организации, занимающейся, помимо всего прочего, этикой искусственного интеллекта.
В настоящее время невозможность установить авторство и отстоять материальные права на генерации — это единственная защита людей творческих профессий от их полной замены на искусственный интеллект, а единственными бенефециарами этой замены стали бы крупные компании. По этой причине, говорить о борьбе с капитализмом путём уничтожения копирайта и его аналогов, как минимум, очень странно.
Если мы обратимся к условиям использования моделей GenAi, либо программного обеспечения с функцией генерации изображений или текста, то внезапно обнаружим, что большинство из этих компаний (включая некоторые некоммерческие исследовательские организации) запрещает извлекать с помощью обратной инженерии, а также использовать базовые компоненты либо сами модели для создания собственных, конкурирующих с их продуктами.
Впрочем, герои-освободители человечества от гнёта интеллектуальной собственности, как правило, откровенно признаются, что транслируют собственные взгляды, а не взгляды компании.
К счастью, не все работники технологической сферы, и далеко не все исследователи, занимающиеся созданием и обучением искусственного интеллекта, разделяют подобные взгляды.
Эд Ньютон-Рекс, бывший глава Аудио-подразделения Stability AI, еще недавно гордился успехами своей компании, однако в ноябре 2023 года он внезапно решил уволиться из-за разногласий с руководством, возникших на почве этики.
«Я ушел с должности руководителя группы аудио в Stability AI, потому что не согласен с мнением компании о том, что обучение генеративных моделей ИИ на произведениях, защищенных авторским правом, является «добросовестным использованием», — написал Эд в своём twitter-аккаунте.
Эд уверен: современные генеративные ИИ существуют для того, чтобы конкурировать с людьми, чьи произведения были использованы для их обучения — и это непременно отразится на рынке труда. Законы о добросовестном использовании не были разработаны с учетом обучения генеративных моделей ИИ, а значит Stability AI и другие крупные компании, занимающиеся обучением моделей GenAi, используют брешь в текущем законодательстве. Ньютон-Рекс признаётся, что готов поддерживать только тот генеративный ИИ, который не будет построен на эксплуатации.
Результаты опроса 2778 респондентов от AiImpact. Около восьмидесяти процентов опрошенных в той или иной степени беспокоятся о том, что большое количество людей могут остаться без средств к существованию.
В своей сфере он не один такой: многие исследователи говорят о том, что до "коммерциализации" генеративного искусственного интеллекта, в нём было "больше научного интереса".
Пользователь twitter ChombaBupe, работающий в сфере компьютерного зрения, на своём аккаунте отвечает на вопросы, связанные с возможностями искусственного интеллекта, а также комментирует статьи о "сделанных с помощью ChatGPT открытиях". Он отмечает, что ChatGPT вносит относительно небольшой вклад в решение математических и конструктивных задач, а большую часть работы выполняют другие программы — и люди, а вероятностным моделям самим по себе доверять не стоит. Он также поддерживает идею создания этичного искусственного интеллекта — модели ИИ, обученной без использования чужой интеллектуальной собственности.
Сфера генеративного искусственного интеллекта — это не только крупные коммерческие компании, но и большое количество маленьких, независимых исследовательских лабораторий и некоммерческих организаций, в каждой из которых может быть своё видение развития GenAi.
Будущее искусственного интеллекта, по большому счёту, зависит от грядущих изменений в законодательстве. С каждым новым судебным разбирательством (особенно с такими влиятельными истцами, как New York Times), шансы на то, что для генеративного искусственного интеллекта всё останется по-прежнему, понемногу, но тают.
На момент января 2024 года OpenAi уже в открытую пытается пролоббировать пересмотр закона об авторском праве в Великобритании.
«Поскольку авторское право сегодня распространяется практически на все виды человеческого самовыражения, включая сообщения в блогах, фотографии, сообщения на форумах, фрагменты программного кода и правительственные документы, было бы невозможно обучать сегодняшние ведущие модели ИИ без использования материалов, защищенных авторским правом», — пишет OpenAI в письме, в котором также утверждается, что ограничение обучающих данных работами, являющимися общественным достоянием, «может стать интересным экспериментом, но не обеспечит системы искусственного интеллекта, отвечающие потребностям сегодняшних граждан».
Ранее компания заявила, что уважает «права создателей и владельцев контента».
Многие эксперты уверены: всё это звучит фактически как признание собственной вины. Очевидно, что представители компании очень напуганы навалившимися на них бесконечными судебными тяжбами. В то же время, на стороне OpenAi находятся крупные компании, такие как Meta (признана экстремистской организацией на территории Российской Федерации), что не может не вызывать тревоги.
В случае, если OpenAi преуспеет, и сможет добиться пересмотра законов об авторском праве, креативная индустрия столкнётся с такими вызовом, с каким ещё никогда не сталкивалась. Массовые увольнения, начавшиеся в 2023 году и продолжающиеся уже в начале 2024, сильно ударившие по геймдизайнерам, художникам, переводчикам и другим профессиям, будут только началом.
Однако, если OpenAi не смогут пролоббировать изменения в законах и проиграют суды, будущее, которое нас ждёт, будет, всё-таки, менее мрачным.
Один из вариантов развития событий — это переход к лицензированию данных и выплаты компенсаций обладателям материальных авторских прав. При этом, нужно сказать, что этот сценарий и многими работниками сферы машинного обучения, и работникам творческой сферы видится как крайне нежелательный. Первые, разумеется, осознают, насколько колоссальные суммы денег им предстоит выплатить правообладателям. По мнению самих правообладателей, никакая денежная компенсация уже не сможет смягчить урона, который генеративные ИИ уже нанесли творческой сфере — и который они нанесут ей в будущем.
Ещё одним вариантом развития событий мог бы стать переход на систему opt-in. Этот вариант вызывает огромные опасения со стороны компаний, занимающихся генеративным искусственным интеллектом, так как они прекрасно понимают, что согласятся на это немногие, однако смена законодательства и последующие за ним регуляции генеративного ИИ могут вынудить их на этот шаг.
Также, если OpenAi, Stable Diffusion и Midjourney проиграют суды, и истцы смогут доказать, что обученные ими модели нейронных сетей действительно нарушают авторские права, использование GenAi для создания коммерческих проектов, может и вовсе стать незаконным. Однако, это не решит проблемы уже находящихся в сети моделей генеративного искусственного интеллекта, и моделей, которые люди тренируют самостоятельно.
Некоторые независимые исследовательские лаборатории уже ищут альтернативу в виде этичного искусственного интеллекта, база данных для обучения которого будет состоять исключительно из общественного достояния, материалов, специально созданных материалов для обучения ИИ, и лицензированных материалов.
Касаемо повышения качества тех же изображений и видео, генерируемых с помощью GenAi, многие эксперты в сфере искусственного интеллекта (включая Эда Нортона-Рекса) говорят о том, что в данный момент мы находимся на плато. Надеяться на то, что генерации не станут лучше, чем сейчас, конечно, не стоит, но и радикального прорыва, на самом деле, лучше не ждать.
Существует несколько причин, по которым перспектива резкого повышения качества материалов, сгенерированных при помощи вероятностных моделей, может оказаться сомнительной.
Во-первых, всё ещё существует риск переобучения модели из-за слишком частого повторения схожих данных при тренировке. Во-вторых, для нового радикального прорыва в обучении GenAi, работающих со статичными изображениями, нужна ещё одна база данных, по масштабам сопоставимая с базой LAION.
Однако, промптеры крайне редко используют связанные с искусственном интеллектом метатеги, делясь в Интернете полученными генерациями, и при обширном дата-скрейпинге продукты генеративного искусственного интеллекта обязательно попадут в базу данных для тренировки последующих моделей. Однако, при тренировке на сгенерированных с помощью ИИ текстов и изображений, модель генеративного ИИ неминуемо деградирует.
Возможно, крупные компании, занимающиеся тренировкой ИИ, найдут способ маркировать сгенерированные нейросетями данные, однако это не решит проблемы полностью: за последние полтора года в Интернет были выложены миллионы статей, рассказов и изображений, сгенерированных с помощью ChatGPT, Stable Diffusion, Midjourney, DALL-E и схожими моделями, что делает рискованным создание нового крупного архива данных путём дата-скрейпинга. К тому же группа исследователей из Чикагского Университета работает над инструментам под названием Nightshade, который предназначен специально для того, чтобы "отравлять" базы данных, в которые попадут пропущенные через эту программу изображения. У них уже есть один успешный проект — Glaze — который позволяет значительно снизить эффективность моделей, имитирующих стили конкретных художников.
Дело в том, что нынешние модели уже периодически проявляют признаки деградации — ещё пять месяцев назад пользователи ChatGPT били тревогу из-за участившихся галлюцинаций. Это легко может быть побочным эффектом от попадания в базу данных сгенерированных нейросетью текстовых материалов.
Нас, вне всякого сомнения, ждут тяжёлые времена, однако надежда всё ещё не потеряна. Сейчас работникам креативной индустрии следует объединиться в борьбе с общим врагом в лице крупных компаний, погнавшихся за краткосрочной выгодой и не понимающих, чем грозит мировой экономике подобная "автоматизация" в долгосрочной перспективе.
Нам следует взять пример с гильдии сценаристов и стоять на своём: без этого будущее креативной индустрии окончательно и бесповоротно будет скрыто в "тумане войны".
Генеративные ИИ представляют собой модель искусственного интеллекта, состоящую из нескольких компонентов, первый из которых — это вероятностная речевая модель. В генеративных ИИ, работающих по принципу text-to-image она нужна для обработки запроса пользователя (промпта).
GenAI обучаются на колоссальных масштабах данных, состоящих из пар "изображение-текст". При вводе промпта, нейросеть перерабатывает текстовый запрос в массив чисел (векторов) и пропускает его через множество слоев нейронов - особых функций, способных предсказывать (угадывать), какой вычислительный результат лучше соответствует искомому запросу, основываясь на переработанных данных, полученных во время обучения.
Второй компонент генеративного ИИ называется Image Information Creator или "создание информации изображения". Он происходит в так называемом "скрытом пространстве" и называется diffusion (диффузия) и представляет собой пошаговую обработку информации, приводящую к генерации изображения. Вероятностные модели устранения шума сначала накладывают на изображение, находящееся в базе данных шум в несколько этапов, а затем устраняет этот шум (также в несколько этапов). В результате получается новое изображение.
Генеративные ИИ — это вероятностные модели. Если текстовые модели предсказывают слова, то модели, генерирующие изображения предсказывают пиксели. Нейросеть запоминает и воспроизводит определённые паттерны, характерные для материалов, на которых она обучалась.
Иногда ИИ выдаёт результаты, очень похожие на изображения в базе данных. В норме это происходит либо тогда, когда изображение очень часто встречается в базе, либо при вводе специфического промпта, который идеально совпадает с текстовыми тегами изображения.
Существует такое понятие, как переобучение (overfitting): чем больше в модели изображений с определённым объектом, тем лучше модель научится его распознавать, однако при этом она теряет возможность распознавать и воспроизводить изображения других объектов. В работе с нейронными сетями это крайне нежелательно.
Речевые вероятностные модели также имеют свои проблемы. Они обучаются на текстовых материалах разного качества и назначения, собранных со всего Интернета, от научных статей и до художественных текстов. Это приводит к тому, что порой на вопрос пользователя вероятностная модель даёт неверный ответ.
Процесс обучения и работы генеративного ИИ радикально отличается от процесса обучения художника. Художник не запоминает паттерны и не предсказывает, какой пиксель будет следующим: он изучает объект, его форму, цвет, объём и пространство вокруг него, и воспроизводит своё представление об этом объекте. Именно поэтому большинство людей не может достоверно изобразить руку, дверь в свою комнату, или велосипед по памяти, даже если видит эти объекты каждый день. Тем более, художник не может воспроизвести изображение, которое видел лишь однажды.
Работники творческой сферы протестуют не против самой технологии, а против того, чтобы её использовали для замены людей на рабочем месте (или чтобы урезать им заработную плату). Гильдия писателей и гильдия актёров добились своими протестами выполнения Голливудом собственных требований.
Союз дикторов России создал петицию, направленную на защиту голосов от незаконного копирования после инцидента с Алёной Андроновой, когда нейросеть, натренированная на записи её голоса, была передана банком Тинькофф третьим лицам и использована для озвучания порнографических роликов.
Создание порнографии с помощью нейросетей — это огромная проблема. Некоторые сервисы (например, CivitAi) предлагают денежное вознаграждение за создание моделей, натренированных на внешности знаменитостей и даже простых людей.
Дипфейк-технология и технология копирования голосов создают огромный риск учащения случаев так называемой порномести. Жертвой может стать любой человек.
В базах данных LAION, на которых обучались все популярные модели генеративного ИИ, находится порнография. В том числе, с участием несовершеннолетних.
Помимо этого в базе LAION, собранной с помощью дата-скрейпинга (автоматического сбора данных с вебстраниц) находится огромное количество изображений, защищённых авторским правом, из-за чего три художницы — Сара Андерсен, Келли МакКернан и Карла Ортис — подали коллективный иск против Stability AI, Deviantart и Midjourney. Сейчас к иску присоединилось множество других художников из индустрии.
Дело в том, что Stability Ai, OpenAi и Midjourney активно монетизируют свои проекты, поэтому тезис о том, что обучение их продуктов на базе данных, содержащей чужую интеллектуальную собственность, попадает под добросовестное использование материалов вызывает большое сомнение. И не только у широкой общественности — но и у некоторых исследователей в сфере искусственного интеллекта.
Более того, продукты вышеперечисленных компаний уже сейчас конкурируют на рынке с правообладателями материалов, на которых были обучены их модели.
Крупные игроки на рынке генеративного ИИ утверждают, что не могут определить, откуда именно были взяты материалы. При этом в сливах переписок работников Midjourney обсуждался отмыв данных, а в утекшей в сеть таблице "стилей" находятся около 21 тысячи имён конкретных художников, чьи работы были собраны с их страниц в интернете для последующей тренировки разных моделей нейросети.
В данный момент неизвестно, чем кончатся суды, но одни из возможных исходов — это переход к лицензированию материалов, когда за материалы в базе данных LAION правообладателям будет выплачена компенсация, а для тренировки последующих моделей генеративного ИИ на материалах, защищённых авторским правом, будет предварительно получаться согласие.
В попытках защитить себя от преследований, некоторые компании предоставили художникам опцию "opt-out" — по умолчанию считается, что все правообладатели, чьи материалы находились в базе данных, были согласны на такое использование, и им предложено отказаться от участия в тренировках последующих моделей. При этом процесс намеренно усложнён.
Художественное сообщество требует введения модели opt-in: когда в базу данных для обучения нейросетей будут попадать только работы художников, выразивших своё активное согласие.
Инженеры и исследователи, работающие в сфере генеративных ИИ, придерживаются самых разных взглядов на авторское право и добросовестное использование. Пока одни видят в авторском праве капиталистический инструмент угнетения и мечтают освободить мир из под его гнёта, другие уходят с крупных должностей и отказываются от огромных денег, так как не желают поддерживать эксплуатацию работников творческой сферы. Некоторые лаборатории и некоммерческие организации уже сейчас работают над этичными моделями ИИ, обученными только на материалах, распространяемых по свободной лицензии.
Тезис про демократизацию искусства, достигаемую за счёт генеративного искусственного интеллекта, также вызывает сомнение, так как в наше время занятие живописью доступно каждому, а в интернете находится масса бесплатных обучающих материалов. Тезис о том, что GenAi помогает людям с инвалидностью также спорен, так как нейросети напрямую конкурируют на рынке с массой занятых в художественной сфере маломобильных, слабовидящих людей и людей с ампутациями.
Сейчас по качеству генераций нейросети вышли на плато, но обманываться, что они уже не станут лучше, не стоит. Однако, второго радикального прорыва в качестве генераций может и не случиться, так как для этого нужна ещё одна обширная база данных, а путём дата-скрейпинга вторую подобную базу не собрать. Проблема кроется в том, что в интернете сейчас находится огромное количество сгенерированных нейросетями текстовых и визуальных материалов, а обучение моделей нейросети на генерациях приводит к деградации этих самых моделей. К тому же в разработке находятся алгоритмы, предположительно способные отравлять базы данных, используемые для обучения нейросетей.
Ко всему прочему, OpenAi сейчас активно пытается пролоббировать изменения в законах об авторском праве — если они преуспеют, это нанесёт креативной индустрии огромный урон.
Нейросети в любом случае повлияют на ситуацию на рынке труда, даже при самых позитивных для представителей творческих профессий исходах судебных разбирательств.
На этом, пока что, всё! Спасибо за внимание. Предыдущая статья на тему нейросетей здесь.
High-Resolution Image Synthesis with Latent Diffusion Models
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding
Brain hierarchy score: Which deep neural networks are hierarchically brain-like?
As Hollywood strikes, battle over AI and 3D scanning has been decades in the making
Game of Thrones Creator George R.R. Martin Joins Lawsuit Against OpenAI
Слитая таблица "стилей" Midjourney с именами художников — найди себя и друзей!
Getty Images sues AI art generator Stable Diffusion in the US for copyright infringement
Research team exploits ChatGPT vulnerability to extract training data
AI image training dataset found to include child sexual abuse imagery
Multimodal datasets: misogyny, pornography, and malignant stereotypes
Popular AI platform introduces rewards system to encourage deepfakes of real people
AI music pioneer quits after disagreement over 'fair use' of copyrighted works
This new data poisoning tool lets artists fight back against generative AI
‘Impossible’ to create AI tools like ChatGPT without copyrighted material, OpenAI says
Video Game Voice Actors Express Worry and Confusion After SAG-AFTRA Deal With AI Studio
За помощь в написании этого материала сердечно благодарю @Dv_Andy (программиста и бывшего студента ИТМО), который терпеливо объяснял мне принцип работы нейросетей, и товарища по несча... по интерфейсам казуальных игр, которого, в целях его безопасности, всё-таки оставлю анонимным.
Также выражаю свою благодарность Антону Леневу за полезную критику статьи!
10 января 2024 года.