А АSaturday, 26 July 2025

Корректное разрешение картинки в GenAI.

Всем привет.

Сегодня для вас еще одна шпаргалка от гуру GenAI  Дмитрия Невского - про разрешение, какое и для каких моделей лучше использовать при генерации картинок, и почему.

Наверное вы уже слышали, что модели для генерации изображений, например модели Stable Diffusion работают лучше всего с определёнными разрешениями и неправильный выбор может привести к артефактам, искажениям или ошибкам. Давайте разбираться.

STABLE DIFFUSION 1.5 

Одна из самых старших и популярных моделей для генерации изображений. Для этой модели рекомендуются следующие разрешения:

512х512, 512х768, 768х512. Очевидно что требование 512 по одной из сторон!

Почему?

  • Обучалась на изображениях 512х512, из-за чего эти модели больше всех имеют проблемы с глазами и пальцами. 
  • При больших размерах появляются дублирующиеся объекты,  повторяющиеся части тел или растягивающиеся конечности, что в последствии успешно фиксилось расширением Kohya HRFix.
  • Кратность 64 важна для архитектуры UNet.

Итак, здесь все просто, примеры рабочих разрешений:

✅ 512х512 1х1

✅ 512х768 2х3

✅ 768х512 3х2

❌ 256х256

❌ 600х600 (не делится на 64)

❌ 1024х1024 (может давать артефакты)

Как может повлиять?

  •  cлишком маленькое 256х256 потеря деталей.
  •  cлишком большое 1024х1024 задвоение предметов, растяжение конечностей. 

Что бы вы понимали почему так происходит - механизм внимания модели рассчитывается в соответствии с размерами изображения на котором ее обучали, поэтому при большем размере она пытается заполнить пустое пространство создавая копии объекта.

Но даже если размер не делится например на 64 - это не значит, что картинка не будет генерироваться, возможно при использовании некоторых расширений интерфейс скорее всего будет выдавать ошибку.


SDXL

Оптимальное разрешение: 1024х1024, 768х1024, 1024х768. Т.е. 1024 по одной из сторон!

Почему?

  •  Обучалась на 1024х1024, но поддерживает прямоугольные форматы.
  •  Кратность 128 (рекомендуется).

Максимальные рекомендуемые размеры при генерации 1.5-2 МП (иначе возможны ошибки, артефакты и пр.). Однако даже при увеличении разрешения до 2048 по большей стороне во зможны искажения анатомии и деформация предметов, что так же успешно фиксится -  Kohya HRFix.

Тут надо уточнить что имеются ввиду генерации без апскейла. При апскейле или использовании Hires. fix (не путать с Kohya HRFix) с размером например 768х1024 и увеличением в 3 / 4 раза - искажений не будет.

Возможны конечно задвоения с апскейлом в img2img при высоком Denoising strength, но это другая история.

Примеры рабочих разрешений:

✅ 1024х1024 1х1

✅ 768х1024 3х4

✅ 1024х768 4х3

✅ 768х1152 2х3

✅ 768х1280 9х16

✅ 1152х768 3х2

✅ 1280х768 16х9

✅ 1536х640 21х9

❌ 1080х1080 (превышает 1.5 МП)

❌ 512х512 (слишком мало для SDXL)

❌ 1600х900 (могут появляться артефакты)

Конечно, можно использовать и другие размеры, главное что бы меньшая из сторон не превышала 1.5 МП, а большая 2 МП (2048)

Как влияет?

  •  Идеальное разрешение под 1024px - максимальная детализация.
  •  Прямоугольные х768х1024х х лучше для портретов/пейзажей.
  •  Свыше 2048px возможны фризы и зависания, а так же задвоения предметов.
  •  Слишком маленькое разрешение 512х512 или 512х768 приведет к замыливанию и дефектам. 


FLUX.1 DEV/SCHNELL

Модель Flux была разработана немецкой компанией Black Forest Labs хBFLх, основанной в 2024 году бывшими сотрудниками Stability AI. Семейство моделей FLUX на сегодняшний день включает в себя - Flux.1 и FLUX Kontext, которые делятся на варианты Schnell (только Flux.1х , Dev, Pro и Ultra, из которых нам пока доступны бесплатно только Schnell и Dev.

Для оптимальной работы моделей Flux, так же как и с sd1.5, рекомендуется использовать - не больше 1.6 МП, иначе возможны артефакты в виде полос и сеточек. Некоторые расширения (Flux Tools например) могут выдавать ошибку - "mat1 and mat2 shapes cannot be multiplied", если разрешение картинки не делиться на 64.

✅ 896x1152 8х10

✅ 1024x1024 1х1

✅ 1024x1280 4х5

✅ 1280x960 4х3

✅ 1536x1024 3х2

✅ 1600x896 25х14

✅ 1664х1216 4х3

✅ 1920x1024 5х3

✅ 2176х960 21х9

❌ 256x256 1х1

❌ 512x512 1х1

❌ 512x768 2х3

Однако в отличии от предыдущих моделей, Flux может поддерживать более широкий диапазон разрешений от 0.2 до 1.6 мегапикселей и демонстрировать хорошие результаты с размерами близкими к рекомендуемым, например:

✅ 674x1462 9х19.5 - типичное соотношение для экранов смартфонов, таких как iPhone;

✅ 768x1360 3х5 - формат, используемый для соц.сетей и мобильных устройств;

✅ 1080x1920 9х16 - распространенное соотношение сторон для смартфонов и обоев.

Но при этом изображения с разрешением 512x512 в целом получаются менее детализированными, даже с учётом меньшего количества пикселей.


FLUX.1 KONTEXT 

По умолчанию создает изображения размером 1024x1024 пикселя. Это стандартное разрешение обеспечивает высокое качество при оптимальной скорости генерации. Рекомендуется использовать разрешения до 1 мегапикселя. 

Поддерживаемый диапазон соотношений:

  • от 3х7 (портретная ориентация) пример  640x1472
  • до 7х3 (альбомная ориентация) пример  1408x608

Популярные соотношения сторон:

✅ 1024x1024 1х1

✅ 1152x640 16х9

✅ 1152x640 9х16

✅ 896x1152 3х4

✅ 1152x896 4х3

Важные ограничения:

  • Рекомендованный размер всех выходных изображений должен иметь общее разрешение около 1 мегапикселя.
  • Входные изображения: поддерживаются изображения размером до 20 МБ или 20 мегапикселей для редактирования.
  • Качество исходного изображения: для файнтюнинга (обучения моделей) рекомендуется использовать изображения высокого качества, но их размер не должен превышать 1 Мп.

Информация основана на документации из официальных источников. От себя рекомендую пользоваться специальными расширениями для Fоrge или сustom node для Comfyui чтобы не ошибаться в расчетах.

Успехов.

No comments:

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное