А АSaturday 25 November 2023

Зачем нам LoRA LCM?

Всем привет.

Сегодня на слуху у всех AI-дизайнеров использующих Stable Diffusion латентные модели согласованности (LCM) которые позволяют формировать качественные изображения обычно за 2-4 шага против 20-ти обычных, что делает возможным использование диффузионных моделей практически в режиме реального времени.

Информация с официального сайта:

LCM могут быть получены из любой предварительно обученной модели стабильной диффузии (SD) всего за 4 000 шагов обучения (~32 часа работы A100 GPU) для генерации высококачественных изображений с разрешением 768 x 768 за 2~4 шага или даже за один шаг, что значительно ускоряет генерацию текста в изображение. Мы используем LCM для дистиллирования версии SD для Dreamshaper-V7 всего за 4 000 итераций обучения.

Обычно такая задача решается с помощью LoRA LCM, которая существует как для версии SD 1.5 так и для SDXL. 

Практически генерация с LCM LoRA требует следующие значения:

СFG = 1,3..1,5

Sampler = LCM

Scheduler = sgm_uniform

Steps = 4..7

LCM LoRA weight = 0.62

Разумеется вы можете экспериментировать сами. И действительно, LCM LoRA неплохо и быстро отрабатывает в ComfyUI и в Fooocus. А вот в А1111 лагает, может из-за того что в А1111 до сих пор нет семплера LCM. 

В ComfyUI workflow собирается стандартный как для любой другой LoRA, а в  Fooocus достаточно выбрать опцию "Extreme Speed" из секции Advanced. 

Сказать что я в восторге от LCM, то скорее нет. Если вам нужны фото для блога, из расчета что ваши читатели сидят исключительно в гаджетах, то да, LCM генерация картинок вполне подойдет. При малейшем зуме артефакты будут заметны невооруженным глазом, примеры из Fooocus-a ниже. Т.е. скорость генерации компенсируется в ущерб, пусть и незаметному сперва, качеству.

Performance: Extreme Speed (LCM)


Prompt: an award winning photograph of a beautiful young woman, blonde wave hair, (smile), (fit body:1.2), full view, intricate cyberpunk robot, (highly detailed:1.1), soft bokeh static background, art by mooncryptowow and popular science,8K
Negative Prompt: (headphones),flowers,bad hands, extra hands,nude, text, watermark, (busty:1.5), (lens flares), black and white , cartoon, (disfigured), (bad art), (deformed), (poorly drawn), (extra limbs), strange colours, blurry, boring, sketch, lacklustre, repetitive, cropped, (split screen:1.25)
Fooocus V2 Expansion:
Styles: ['Fooocus Enhance', 'MRE Dark Cyberpunk', 'Futuristic Cyberpunk Cityscape'], Performance: Extreme Speed
Resolution: (832, 1216), Sharpness: 0.0
Guidance Scale: 1.0, ADM Guidance: (1.0, 1.0, 0.0)
Base Model: juggernautXL_version6Rundiffusion.safetensors, Refiner Model: None
Refiner Switch: 1.0, Sampler: lcm
Scheduler: lcm, Seed: 3990076793300876522
LoRA [sdxl_lcm_lora.safetensors] weight: 1.0

 Performance: Speed

Prompt: an award winning photograph of a beautiful young woman, blonde wave hair, (smile), (fit body:1.2), full view, intricate cyberpunk robot, (highly detailed:1.1), soft bokeh static background, art by mooncryptowow and popular science,8K
Negative Prompt: (headphones),flowers,bad hands, extra hands,nude, text, watermark, (busty:1.5), (lens flares), black and white , cartoon, (disfigured), (bad art), (deformed), (poorly drawn), (extra limbs), strange colours, blurry, boring, sketch, lacklustre, repetitive, cropped, (split screen:1.25)
Fooocus V2 Expansion:
Styles: ['Fooocus Enhance', 'MRE Dark Cyberpunk', 'Futuristic Cyberpunk Cityscape'], Performance: Speed
Resolution: (832, 1216), Sharpness: 2
Guidance Scale: 4, ADM Guidance: (1.5, 0.8, 0.3)
Base Model: juggernautXL_version6Rundiffusion.safetensors, Refiner Model: None
Refiner Switch: 0.5, Sampler: dpmpp_2m_sde_gpu
Scheduler: karras, Seed: 3990076793300876522

Performance: Quality

Prompt: an award winning photograph of a beautiful young woman, blonde wave hair, (smile), (fit body:1.2), full view, intricate cyberpunk robot, (highly detailed:1.1), soft bokeh static background, art by mooncryptowow and popular science,8K
Negative Prompt: (headphones),flowers,bad hands, extra hands,nude, text, watermark, (busty:1.5), (lens flares), black and white , cartoon, (disfigured), (bad art), (deformed), (poorly drawn), (extra limbs), strange colours, blurry, boring, sketch, lacklustre, repetitive, cropped, (split screen:1.25)
Fooocus V2 Expansion:
Styles: ['Fooocus Enhance', 'MRE Dark Cyberpunk', 'Futuristic Cyberpunk Cityscape'], Performance: Quality
Resolution: (832, 1216), Sharpness: 2
Guidance Scale: 4, ADM Guidance: (1.5, 0.8, 0.3)
Base Model: juggernautXL_version6Rundiffusion.safetensors, Refiner Model: None
Refiner Switch: 0.5, Sampler: dpmpp_2m_sde_gpu
Scheduler: karras, Seed: 3990076793300876522
LoRA [sd_xl_offset_example-lora_1.0.safetensors] weight: 0.1

К сожалению, как сказал NeuroGraph на недавнем стриме, доступность бесплатных инструментов Stable Diffusion не принесла заметных визуальных шедевров. Интернет заполонили генерации полуголых девиц или фентези монстров, или персонажи из аниме. Как говорится, кисточки есть, а фантазии нет. В любом случае я полагаю что лучше иметь свою идею, пусть даже не оригинальную, чем гнить в окопе за чужую. Ну а Fooocus как нельзя будет вам кстати!

Также мне понравилось его замечание про гиков которые любят ковырять код А1111 при малейших сообщениях об ошибках в консоли Python. Скажу честно, если ваш А1111 загружается без единой ошибки, то вам крупно повезло. Automatic1111 стал уже этаким монстром (с учетом установленных расширений, которые часто не любят друг друга даже когда не активны), что может рухнуть в любой момент. Чего стоит то обстоятельство что деинсталировать любой плагин штатно до сих пор невозможно! Что делать? У меня только один совет - ваша версия Automatic1111 должна быть только portable! Никого не слушайте - в таком случае сам Automatic1111 никому не мешает, и ему никто не мешает. И обновляется он нормально. И переносится с диска на диск за пять минут при необходимости.

Или переходите на ComfyUI, но также portable!)

Удачи.

2 comments:

Anonymous said...

Появился семплер LCM в A1111 и все летает.

Anonymous said...

NeuroGraph крутой парень, на вчерашнем стриме показывал стиль cinematic, за свой туториал запросил плату небольшую, типа я же старался для вас, а на поверку мануал оказался просто переводом англоязычного оригинала другого автора.))

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное