Маленький редис в балетной пачке поможет развивать искусственный интеллект

Рисунки, сделанные ИИ по запросу «Маленький редис в балетной пачке выгуливает щенка». Источник: OpenAI

Компания open AI продемонстрировала две новые модели искусственного интеллекта, которые сочетают в себе обработку естественного языка (NLP) и создание изображений, — сообщает MIT Technology review.  Новые модели назвали DALL·E и CLIP (Contrastive Language-Image Pre-training).

Специалисты Open AI уже неоднократно удивляли рынок. В пошлом году они наделали много шума со своей моделью глубокого обучения GPT-3, запустив блог, который велся искусственным интеллектом (ИИ). Затем Open AI научила ИИ дополнять незаконченные изображения. Теперь они совместили лингвистические и дизайнерские способности в рамках одного ИИ. «В конечном итоге мы получим модели, которые распознают как текст, так и изображения. То есть ИИ будет способен лучше понимать язык, потому что он будет видеть, что означают слова и предложения», – говорит Илья Суцкевер, главный научный сотрудник OpenAI.  

CLIP тренировали на 32 768 описаниях, чтобы он мог определять, какое из них соответствует конкретному изображению. Для этого он учится связывать самые разные объекты с их именами и описанием. Это позволяет ИИ идентифицировать объекты на изображениях за пределами его обучающей программы и в дальнейшем обобщать задачи без дополнительного обучения.

Что касается DALL·E, то эта модель представляет собой уменьшенную версию GPT-3, которая также была обучена на парах «текст-изображение», взятых из Интернета. При этом вместо того, чтобы распознавать изображения, она «рисует» их.

В результате, имея короткое описание, например: «изображение капибары, сидящей в поле на восходе солнца» или «грецкий орех в разрезе», DALL·E генерирует множество изображений, которые соответствуют описанию. Затем CLIP выбирает изображения, которые, по его мнению, лучше всего соответствует описанию.

Чтобы проверить способность DALL·E работать с новыми концепциями, исследователи «скормили» ему описания, которые, как они думали, ИИ не мог  видеть раньше. Среди них были «кресло из авокадо» или «иллюстрация маленького редиса в балетной пачке, гуляющего с собакой». В обоих случаях ИИ умело объединял концепции и генерировал достаточно правдоподобные изображения.

Кресло из авокадо в представлении искусственного интеллекта. Источник: OpenAI

 «Что меня больше всего удивило, так это то, что модель может взять две не связанных между собой концепции и соединить их таким образом, чтобы в результате получилось что-то функциональное, — говорит Адитья Рамеш, работавший над DALL·E.

Ани Кембхави из Института искусственного интеллекта Аллена (AI2), отмечает: «Способность модели создавать синтетические изображения из довольно причудливого текста кажется мне очень интересной. Похоже, что результаты соответствуют желаемой семантике, что, на мой взгляд, впечатляет».

Марк Ридл из Технологического Института Джорджии считает, что, несмотря на определенные успехи, еще есть моменты, вызывающие вопросы. К примеру, по его мнению, DALL·E может лишь имитировать изображения, с которыми столкнулся в сети, а не создавать новые.

«Я немного подозрительно отношусь к примеру с редисом, который стилистически предполагает, что он, возможно, запомнил некоторые произведения искусства из Интернета», — говорит Ридл.

Он отмечает, что при быстром поиске можно найти множество мультипликационных изображений антропоморфизированных редисов.

«GPT-3, на котором основан DAL·E, печально известен своей способностью запоминать, – добавляет он.

Тем не менее, большинство исследователей ИИ согласны с тем, что использование языка в визуальном понимании – хороший способ сделать ИИ умнее.

Автор публикации

не в сети 2 месяца

Платформа НТИ

Комментарии: 1Публикации: 330Регистрация: 27-07-2020

Добавить комментарий

Авторизация
*
*
Регистрация
*
*
*
Пароль не введен
Генерация пароля