Сегодня для вас еще одна шпаргалка от гуру GenAI Дмитрия Невского - про разрешение, какое и для каких моделей лучше использовать при генерации картинок, и почему.
Наверное вы уже слышали, что модели для генерации изображений, например модели Stable Diffusion работают лучше всего с определёнными разрешениями и неправильный выбор может привести к артефактам, искажениям или ошибкам. Давайте разбираться.
STABLE DIFFUSION 1.5
Одна из самых старших и популярных моделей для генерации изображений. Для этой модели рекомендуются следующие разрешения:
512х512, 512х768, 768х512. Очевидно что требование 512 по одной из сторон!
Почему?
- Обучалась на изображениях 512х512, из-за чего эти модели больше всех имеют проблемы с глазами и пальцами.
- При больших размерах появляются дублирующиеся объекты, повторяющиеся части тел или растягивающиеся конечности, что в последствии успешно фиксилось расширением Kohya HRFix.
- Кратность 64 важна для архитектуры UNet.
Итак, здесь все просто, примеры рабочих разрешений:
✅ 512х512 1х1
✅ 512х768 2х3
✅ 768х512 3х2
❌ 256х256
❌ 600х600 (не делится на 64)
❌ 1024х1024 (может давать артефакты)
Как может повлиять?
- cлишком маленькое 256х256 потеря деталей.
- cлишком большое 1024х1024 задвоение предметов, растяжение конечностей.
Что бы вы понимали почему так происходит - механизм внимания модели рассчитывается в соответствии с размерами изображения на котором ее обучали, поэтому при большем размере она пытается заполнить пустое пространство создавая копии объекта.
Но даже если размер не делится например на 64 - это не значит, что картинка не будет генерироваться, возможно при использовании некоторых расширений интерфейс скорее всего будет выдавать ошибку.





