Новая нейросеть способна редактировать изображения по текстовому описанию
Специалисты обучили нейросеть распознавать 3,5 млрд параметров. Программу называют автоматизированным Photoshop.Специалисты американской IT-компании OpenAI создали нейросеть, способную редактировать изображения по словесному описанию желаемого результата, сообщает ZME Science в своём обзоре.
Компания OpenAI, известная по разработке моделей искусственного интеллекта, продемонстрировала нейросеть под названием GLIDE. Она способна не только генерировать изображения по текстовому описанию, но и редактировать существующие с сохранением экспозиции и стиля.
Теперь каждый пользователь может представить любое изображение, описать его словами и спустя несколько секунд получить результат. В научном издании называют эту технологию автоматизированным Photoshop.
Разработчики обучили сеть на 3,5 миллиарда параметров и протестировали её как с классификатором CLIP, так и автономно – второй подход оказался эффективнее и показал более высокое качество.
Несмотря на способность генерировать изображения с нуля, программа не всегда справляется со сложными описаниями. Поэтому разработчики оснастили нейросеть функцией "zero-shot generation". После введения текстового описания модель ищет существующее изображение, затем редактирует и закрашивает его. Правки соответствуют стилю и цвету исходного контента.
В обзоре признают, что GLIDE не идеален – некоторые запросы, описывающие необычные объекты или сценарии (например, описание автомобиля с треугольными колёсами), не дают изображений с удовлетворительными результатами.
Официальная кодовая база для запуска модели GLIDE выпущена на GitHub.
Читайте также:
- В России Google оштрафовали на 7,2 млрд рублей
- В Турции заявили о разработке первого в мире дрона с лазерным оружием
- В Алматы госорганы через портал закупок приобрели пиратские программы Microsoft