Главная

Friday, 21 July 2023

Пробуем DALL·E через API.

Всем привет.

Благодаря современным методам глубокого обучения модель GPT может научиться создавать изображения на основе текстового запроса или сущест- вующего изображения.

Для создания нового изображения исходное (входное) изображение изменяют с помощью набора алгоритмов. Модель может создавать множество различных изображений, от простых до сложных, в зависимости от того, с чем ей поручено работать. Одна из мощных функций модели заключается в том, что она может просматривать созданные изображения и улучшать их, делая более подробными и точными. Другими словами, она может учиться на собственных изображениях и со временем становиться все лучше.

В целом API изображений предоставляет три способа взаимодействия с конечной точкой images:

• создание изображения с нуля на основе текстовой подсказки;

• внесение изменений в существующее изображение на основе текстового запроса;

• создание различных вариантов существующего исходного изображения.

За последние годы в OpenAI обучили нейронную сеть под названием DALL·E, основанную на GPT-3. DALL·E – это уменьшенная версия GPT-3 с 12 млрд параметров вместо 175 млрд. Она специально разработана для создания изображений из текстовых описаний с использованием набора данных пар текст–изображение вместо очень широкого набора данных, который применяли для обучения GPT-3.

Чтобы увидеть модель в действии, вы можете использовать код для предварительного просмотра результатов работы DALL·E. Но фокус в том что даже для пробы в web-интерфейсе DALL·E вам нужно покупать кредиты, минимум на 15 баксов. Однако через API (ключик у вас уже есть?) будет возможность испытать ее бесплатно. Однако и тут в настоящее время ограничение скорости генерации установлено на уровне 10 изображений в минуту. Уверен что вам хватит!

Итак базовый код на Python примера генерации изображения по запросу выглядит так:

import os

import openai

def init_api():

with open(".env") as env: #файлик с вашим API-ключом

for line in env:

key, value = line.strip().split("=")

os.environ[key] = value

openai.api_key = os.environ.get("API_KEY")

openai.organization = os.environ.get("ORG_ID") #Если вы используете имя организации

init_api()

kwargs = {

"prompt": "beautiful woman in summer wreath", # только для примера

}

im = openai.Image.create(**kwargs)

print(im)

Т.е. мы выполняем аутентификацию и вызов конечной точки API со списком параметров.

После выполнения приведенного выше кода вы получаем вывод наподобие такого:

{

"created": 1675354429,

"data": [

{

"url": "https://oaidalleapiprodscus.blob.core.windows.net/private/

org-EDUZx9TXM1EWZ6oB5e49duhV/user-FloqMRrL7hkbSSXMojMpIaw1/img-

WWyNYn5JHC2u08Hrb4go42azmA8k0daPw2G%2BQV9Tsh8%3D"

}

]

}

Надо щелкнуть мышкой по URL-адресу или вставить его в адресную строку браузера, чтобы открыть изображение. Готово!


Ну да, это не Stable Diffusion но все же. Такие дела.

По материалам книги «OpenAI GPT for Python Developers», published by FAUN www.faun.dev. Copyright © 2023 All rights reserved, Aymen EL Amri.


No comments:

Post a Comment

А что вы думаете по этому поводу?