Сегодня для вас еще одна шпаргалка от гуру GenAI Дмитрия Невского - про разрешение, какое и для каких моделей лучше использовать при генерации картинок, и почему.
Наверное вы уже слышали, что модели для генерации изображений, например модели Stable Diffusion работают лучше всего с определёнными разрешениями и неправильный выбор может привести к артефактам, искажениям или ошибкам. Давайте разбираться.
STABLE DIFFUSION 1.5
Одна из самых старших и популярных моделей для генерации изображений. Для этой модели рекомендуются следующие разрешения:
512х512, 512х768, 768х512. Очевидно что требование 512 по одной из сторон!
Почему?
- Обучалась на изображениях 512х512, из-за чего эти модели больше всех имеют проблемы с глазами и пальцами.
- При больших размерах появляются дублирующиеся объекты, повторяющиеся части тел или растягивающиеся конечности, что в последствии успешно фиксилось расширением Kohya HRFix.
- Кратность 64 важна для архитектуры UNet.
Итак, здесь все просто, примеры рабочих разрешений:
✅ 512х512 1х1
✅ 512х768 2х3
✅ 768х512 3х2
❌ 256х256
❌ 600х600 (не делится на 64)
❌ 1024х1024 (может давать артефакты)
Как может повлиять?
- cлишком маленькое 256х256 потеря деталей.
- cлишком большое 1024х1024 задвоение предметов, растяжение конечностей.
Что бы вы понимали почему так происходит - механизм внимания модели рассчитывается в соответствии с размерами изображения на котором ее обучали, поэтому при большем размере она пытается заполнить пустое пространство создавая копии объекта.
Но даже если размер не делится например на 64 - это не значит, что картинка не будет генерироваться, возможно при использовании некоторых расширений интерфейс скорее всего будет выдавать ошибку.
SDXL
Оптимальное разрешение: 1024х1024, 768х1024, 1024х768. Т.е. 1024 по одной из сторон!
Почему?
- Обучалась на 1024х1024, но поддерживает прямоугольные форматы.
- Кратность 128 (рекомендуется).
Максимальные рекомендуемые размеры при генерации 1.5-2 МП (иначе возможны ошибки, артефакты и пр.). Однако даже при увеличении разрешения до 2048 по большей стороне во зможны искажения анатомии и деформация предметов, что так же успешно фиксится - Kohya HRFix.
Тут надо уточнить что имеются ввиду генерации без апскейла. При апскейле или использовании Hires. fix (не путать с Kohya HRFix) с размером например 768х1024 и увеличением в 3 / 4 раза - искажений не будет.
Возможны конечно задвоения с апскейлом в img2img при высоком Denoising strength, но это другая история.
Примеры рабочих разрешений:
✅ 1024х1024 1х1
✅ 768х1024 3х4
✅ 1024х768 4х3
✅ 768х1152 2х3
✅ 768х1280 9х16
✅ 1152х768 3х2
✅ 1280х768 16х9
✅ 1536х640 21х9
❌ 1080х1080 (превышает 1.5 МП)
❌ 512х512 (слишком мало для SDXL)
❌ 1600х900 (могут появляться артефакты)
Конечно, можно использовать и другие размеры, главное что бы меньшая из сторон не превышала 1.5 МП, а большая 2 МП (2048)
Как влияет?
- Идеальное разрешение под 1024px - максимальная детализация.
- Прямоугольные х768х1024х х лучше для портретов/пейзажей.
- Свыше 2048px возможны фризы и зависания, а так же задвоения предметов.
- Слишком маленькое разрешение 512х512 или 512х768 приведет к замыливанию и дефектам.
FLUX.1 DEV/SCHNELL
Модель Flux была разработана немецкой компанией Black Forest Labs хBFLх, основанной в 2024 году бывшими сотрудниками Stability AI. Семейство моделей FLUX на сегодняшний день включает в себя - Flux.1 и FLUX Kontext, которые делятся на варианты Schnell (только Flux.1х , Dev, Pro и Ultra, из которых нам пока доступны бесплатно только Schnell и Dev.
Для оптимальной работы моделей Flux, так же как и с sd1.5, рекомендуется использовать - не больше 1.6 МП, иначе возможны артефакты в виде полос и сеточек. Некоторые расширения (Flux Tools например) могут выдавать ошибку - "mat1 and mat2 shapes cannot be multiplied", если разрешение картинки не делиться на 64.
✅ 896x1152 8х10
✅ 1024x1024 1х1
✅ 1024x1280 4х5
✅ 1280x960 4х3
✅ 1536x1024 3х2
✅ 1600x896 25х14
✅ 1664х1216 4х3
✅ 1920x1024 5х3
✅ 2176х960 21х9
❌ 256x256 1х1
❌ 512x512 1х1
❌ 512x768 2х3
Однако в отличии от предыдущих моделей, Flux может поддерживать более широкий диапазон разрешений от 0.2 до 1.6 мегапикселей и демонстрировать хорошие результаты с размерами близкими к рекомендуемым, например:
✅ 674x1462 9х19.5 - типичное соотношение для экранов смартфонов, таких как iPhone;
✅ 768x1360 3х5 - формат, используемый для соц.сетей и мобильных устройств;
✅ 1080x1920 9х16 - распространенное соотношение сторон для смартфонов и обоев.
Но при этом изображения с разрешением 512x512 в целом получаются менее детализированными, даже с учётом меньшего количества пикселей.
FLUX.1 KONTEXT
По умолчанию создает изображения размером 1024x1024 пикселя. Это стандартное разрешение обеспечивает высокое качество при оптимальной скорости генерации. Рекомендуется использовать разрешения до 1 мегапикселя.
Поддерживаемый диапазон соотношений:
- от 3х7 (портретная ориентация) пример 640x1472
- до 7х3 (альбомная ориентация) пример 1408x608
Популярные соотношения сторон:
✅ 1024x1024 1х1
✅ 1152x640 16х9
✅ 1152x640 9х16
✅ 896x1152 3х4
✅ 1152x896 4х3
Важные ограничения:
- Рекомендованный размер всех выходных изображений должен иметь общее разрешение около 1 мегапикселя.
- Входные изображения: поддерживаются изображения размером до 20 МБ или 20 мегапикселей для редактирования.
- Качество исходного изображения: для файнтюнинга (обучения моделей) рекомендуется использовать изображения высокого качества, но их размер не должен превышать 1 Мп.
Информация основана на документации из официальных источников. От себя рекомендую пользоваться специальными расширениями для Fоrge или сustom node для Comfyui чтобы не ошибаться в расчетах.
Успехов.

No comments:
Post a Comment
А что вы думаете по этому поводу?