Корректное разрешение картинки в GenAI. ~ Nyukers Galaxy

Всем привет.

Сегодня для вас еще одна шпаргалка от гуру GenAI Дмитрия Невского - про разрешение, какое и для каких моделей лучше использовать при генерации картинок, и почему.

Наверное вы уже слышали, что модели для генерации изображений, например модели Stable Diffusion работают лучше всего с определёнными разрешениями и неправильный выбор может привести к артефактам, искажениям или ошибкам. Давайте разбираться.

STABLE DIFFUSION 1.5

Одна из самых старших и популярных моделей для генерации изображений. Для этой модели рекомендуются следующие разрешения:

512х512, 512х768, 768х512. Очевидно что требование 512 по одной из сторон!

Почему?

Обучалась на изображениях 512х512, из-за чего эти модели больше всех имеют проблемы с глазами и пальцами.
При больших размерах появляются дублирующиеся объекты, повторяющиеся части тел или растягивающиеся конечности, что в последствии успешно фиксилось расширением Kohya HRFix.
Кратность 64 важна для архитектуры UNet.

Итак, здесь все просто, примеры рабочих разрешений:

✅ 512х512 1х1

✅ 512х768 2х3

✅ 768х512 3х2

❌ 256х256

❌ 600х600 (не делится на 64)

❌ 1024х1024 (может давать артефакты)

Как может повлиять?

cлишком маленькое 256х256 потеря деталей.
cлишком большое 1024х1024 задвоение предметов, растяжение конечностей.

Что бы вы понимали почему так происходит - механизм внимания модели рассчитывается в соответствии с размерами изображения на котором ее обучали, поэтому при большем размере она пытается заполнить пустое пространство создавая копии объекта.

Но даже если размер не делится например на 64 - это не значит, что картинка не будет генерироваться, возможно при использовании некоторых расширений интерфейс скорее всего будет выдавать ошибку.

SDXL

Оптимальное разрешение: 1024х1024, 768х1024, 1024х768. Т.е. 1024 по одной из сторон!

Почему?

Обучалась на 1024х1024, но поддерживает прямоугольные форматы.
Кратность 128 (рекомендуется).

Максимальные рекомендуемые размеры при генерации 1.5-2 МП (иначе возможны ошибки, артефакты и пр.). Однако даже при увеличении разрешения до 2048 по большей стороне во зможны искажения анатомии и деформация предметов, что так же успешно фиксится - Kohya HRFix.

Тут надо уточнить что имеются ввиду генерации без апскейла. При апскейле или использовании Hires. fix (не путать с Kohya HRFix) с размером например 768х1024 и увеличением в 3 / 4 раза - искажений не будет.

Возможны конечно задвоения с апскейлом в img2img при высоком Denoising strength, но это другая история.

Примеры рабочих разрешений:

✅ 1024х1024 1х1

✅ 768х1024 3х4

✅ 1024х768 4х3

✅ 768х1152 2х3

✅ 768х1280 9х16

✅ 1152х768 3х2

✅ 1280х768 16х9

✅ 1536х640 21х9

❌ 1080х1080 (превышает 1.5 МП)

❌ 512х512 (слишком мало для SDXL)

❌ 1600х900 (могут появляться артефакты)

Конечно, можно использовать и другие размеры, главное что бы меньшая из сторон не превышала 1.5 МП, а большая 2 МП (2048)

Как влияет?

Идеальное разрешение под 1024px - максимальная детализация.
Прямоугольные х768х1024х х лучше для портретов/пейзажей.
Свыше 2048px возможны фризы и зависания, а так же задвоения предметов.
Слишком маленькое разрешение 512х512 или 512х768 приведет к замыливанию и дефектам.

FLUX.1 DEV/SCHNELL

Модель Flux была разработана немецкой компанией Black Forest Labs хBFLх, основанной в 2024 году бывшими сотрудниками Stability AI. Семейство моделей FLUX на сегодняшний день включает в себя - Flux.1 и FLUX Kontext, которые делятся на варианты Schnell (только Flux.1х , Dev, Pro и Ultra, из которых нам пока доступны бесплатно только Schnell и Dev.

Для оптимальной работы моделей Flux, так же как и с sd1.5, рекомендуется использовать - не больше 1.6 МП, иначе возможны артефакты в виде полос и сеточек. Некоторые расширения (Flux Tools например) могут выдавать ошибку - "mat1 and mat2 shapes cannot be multiplied", если разрешение картинки не делиться на 64.

✅ 896x1152 8х10

✅ 1024x1024 1х1

✅ 1024x1280 4х5

✅ 1280x960 4х3

✅ 1536x1024 3х2

✅ 1600x896 25х14

✅ 1664х1216 4х3

✅ 1920x1024 5х3

✅ 2176х960 21х9

❌ 256x256 1х1

❌ 512x512 1х1

❌ 512x768 2х3

Однако в отличии от предыдущих моделей, Flux может поддерживать более широкий диапазон разрешений от 0.2 до 1.6 мегапикселей и демонстрировать хорошие результаты с размерами близкими к рекомендуемым, например:

✅ 674x1462 9х19.5 - типичное соотношение для экранов смартфонов, таких как iPhone;

✅ 768x1360 3х5 - формат, используемый для соц.сетей и мобильных устройств;

✅ 1080x1920 9х16 - распространенное соотношение сторон для смартфонов и обоев.

Но при этом изображения с разрешением 512x512 в целом получаются менее детализированными, даже с учётом меньшего количества пикселей.

FLUX.1 KONTEXT

По умолчанию создает изображения размером 1024x1024 пикселя. Это стандартное разрешение обеспечивает высокое качество при оптимальной скорости генерации. Рекомендуется использовать разрешения до 1 мегапикселя.

Поддерживаемый диапазон соотношений:

от 3х7 (портретная ориентация) пример 640x1472
до 7х3 (альбомная ориентация) пример 1408x608

Популярные соотношения сторон:

✅ 1024x1024 1х1

✅ 1152x640 16х9

✅ 1152x640 9х16

✅ 896x1152 3х4

✅ 1152x896 4х3

Важные ограничения:

Рекомендованный размер всех выходных изображений должен иметь общее разрешение около 1 мегапикселя.
Входные изображения: поддерживаются изображения размером до 20 МБ или 20 мегапикселей для редактирования.
Качество исходного изображения: для файнтюнинга (обучения моделей) рекомендуется использовать изображения высокого качества, но их размер не должен превышать 1 Мп.

Информация основана на документации из официальных источников. От себя рекомендую пользоваться специальными расширениями для Fоrge или сustom node для Comfyui чтобы не ошибаться в расчетах.

Успехов.

Nyukers Galaxy

Главная

А АSaturday, 26 July 2025

Корректное разрешение картинки в GenAI.

No comments:

Post a Comment

Версия на печать

Популярное