Специалисты американской IT-компании OpenAI создали нейросеть, способную редактировать изображения по словесному описанию желаемого результата, сообщает ZME Science в своём обзоре.

Компания OpenAI, известная по разработке моделей искусственного интеллекта, продемонстрировала нейросеть под названием GLIDE. Она способна не только генерировать изображения по текстовому описанию, но и редактировать существующие с сохранением экспозиции и стиля.

Теперь каждый пользователь может представить любое изображение, описать его словами и спустя несколько секунд получить результат. В научном издании называют эту технологию автоматизированным Photoshop.

Демонстрация работы GLIDE / Фото ZME Science

Разработчики обучили сеть на 3,5 миллиарда параметров и протестировали её как с классификатором CLIP, так и автономно – второй подход оказался эффективнее и показал более высокое качество.

Демонстрация работы GLIDE / Фото ZME Science

Несмотря на способность генерировать изображения с нуля, программа не всегда справляется со сложными описаниями. Поэтому разработчики оснастили нейросеть функцией "zero-shot generation". После введения текстового описания модель ищет существующее изображение, затем редактирует и закрашивает его. Правки соответствуют стилю и цвету исходного контента.

В обзоре признают, что GLIDE не идеален – некоторые запросы, описывающие необычные объекты или сценарии (например, описание автомобиля с треугольными колёсами), не дают изображений с удовлетворительными результатами.

 Официальная кодовая база для запуска модели GLIDE выпущена на GitHub.


Читайте также: