А АSaturday 2 November 2024

Стили в Forge и как их использовать на моделях FLUX

Всем привет.

Накидаю ка я вам парочку статей из блога Дмитрия Невского, энтузиаста от ИИ. Мне лично нравится его непредвзятая подача материала по Stable Diffusion и всего что около. Сегодня первая статья про быстрые стили в Forge/Automatic1111 и как их использовать, в том числе и на моделях FLUX.

Замечание: на сегодня модели FLUX не поддерживаются в Automatic1111.

Знаете ли вы, что правильное использование стилей в Stable Diffusion может увеличить качество ваших генераций на 300%? Да-да, вы не ослышались! А что, если я скажу вам, что большинство пользователей Stable Diffusion используют стили неправильно, тем самым ограничивая их потенциал? 

Немного терминологии

Стили в Stable Diffusion - это наборы слов или фраз, которые определяют визуальные характеристики генерируемого изображения. Они могут влиять на цветовую палитру, композицию, детализацию и общую атмосферу.

Стили могут быть как в интерфейсе - быстрые стили (имею ввиду для Forge/Automatic1111), могут быть прописаны в промпте, иногда установлены вместе с разными расширениями.

Стили в промпте (например "style by Tim Burton"):

- Модель попытается имитировать общий стиль Бертона.

- Результат может варьироваться в зависимости от других элементов промпта.

- Требуют знания специфики стиля художника, могут быть менее предсказуемыми, зависят от обучения модели.

- Может потребовать дополнительных уточнений для получения конкретных черт стиля Бертона.

Стили в интерфейсе:

- Это предварительно составленные наборы слов, описывающие конкретный стиль.

- Обычно более подробные и специфичные, дают более конкретный и предсказуемый результат.

- Легко применяются одним кликом.

- Могут комбинироваться с другими элементами промпта.

Пример: style by Tim Burton, gothic whimsy, {prompt}, pale characters, dark shadows, spiral motifs, exaggerated proportions, striped patterns, quirky designs, eerie atmosphere, Burton-esque style

Размещая тег {prompt} после нескольких стилистических элементов, вы даете нейросети "настроиться" на определенный визуальный язык перед обработкой основного содержания, а начиная с "style by Tim Burton", мы сразу задаем правильное направление для нейросети. Это как если бы мы сказали: "Эй нейросеть, представь, что ты Тим Бертон, а теперь нарисуй вот это". Если мы не используем тег {prompt}, стиль становится фиксированным и более предсказуемым, а модель будет использовать этот стиль как есть, без возможности добавить свое описание.

Тег {prompt} можно перенести в середину или конец, если того требует ваша идея, а можно даже расширить дополнительные возможности стилей с помощью Style variables SD extension. Например с этим расширением можно вставить в промпт два или больше стилей, или даже сделать их динамичными, как подстановочные знаки.

Быстрые стили можно применять для негативного промпта, wildcards, а cинтаксис можно применять внутри самих стилей и использовать их как динамические подсказки. Их можно смешивать, добавлять в них лора и текстовые инверсии.

Например для этой картинки я использовал всего два слова - "Pretty girl" и смешал три стиля + негативный промт.

Если у вас моя сборка можете закинуть эту картинку в Forge и попробовать сами, модель -Journey to Fantasy World. Попробуйте перемешать несколько стилей и уверен результаты вас удивят.

Это хорошо работает с моделями 1.5 и XL, с Flux немного сложнее. Возможно он был оптимизирован для определенных задач, и работа со стилями не была его основным фокусом, или датасет на котором обучался FLUX, не содержал достаточно разнообразных примеров стилей. В любом случае для модели FLUX стиль должен содержать более точное описание  техники и просто добавить в него имя художника или фотографа недостаточно. Поэтому у большинства  людей сложилось мнение о том, что стили в модели FLUX не работают, но на самом деле даже если в базе данных отсутствовал какой то стиль, его можно воспроизвести с помощью описания техники рисования художника или сиджи артиста.

Вот в этой таблице собраны все художники которые использовались в датасете модели FLUX - https://cheatsheet.strea.ly/ если вы знаете другие таблицы дайте мне знать я их добавлю. Как их использовать - стиль художника пишите всегда вначале промта, пример - "Style of Neal Adams, Clown woman like Harley Quinn", таким образом вы даете понять модели что вся картинка должна быть нарисована в таком то стиле такого то художника, если пишите в конце, она либо его проигнорирует, либо стилизует только какую - то часть картинки.  

Если художника или какого то направления FLUX не знает, то ему это нужно описать. Ниже будет три примера с разными стилями, которые успешно могут работать и 1.5 и на XL, и как они работают с Flux. 

Промпт - beautiful woman, red hair covers face, witch hat, dainty figure, torn overalls, short shorts, combat boots, wet tshirt, raining, basic white background, side boob, (symmetrical hands:1.42), portrait, elegant, intricate, digital painting, artstation, concept art, smooth, sharp focus, illustration

1. Оригинал

2. Стиль - Cyberpunk Neon: Cyberpunk neon style3. Стиль - Cyberpunk Neon: Cyberpunk Neon style {prompt} . Futuristic cityscape, neon lights, by artists like Syd Mead, high contrast and vibrant colors

4. Стиль - Cyberpunk Neon: Cyberpunk Neon style {prompt} . Hyper-futuristic megalopolis bathed in pulsating neon. Towering skyscrapers with holographic billboards. Streets teeming with hover vehicles and augmented humans. Inspired by Syd Mead, Blade Runner, and Ghost in the Shell. Intense contrast between deep shadows and vibrant, electric colors - think electric blue, acid green, and hot pink. Rain-slicked streets reflecting neon signs. Intricate technological details and cybernetic enhancements. Gritty, noir atmosphere with a high-tech twist.Cyberpunk Neon: {prompt} . Hyper-futuristic megalopolis bathed in pulsating neon. Towering skyscrapers with holographic billboards. Streets teeming with hover vehicles and augmented humans. Inspired by Syd Mead, Blade Runner, and Ghost in the Shell. Intense contrast between deep shadows and vibrant, electric colors - think electric blue, acid green, and hot pink. Rain-slicked streets reflecting neon signs. Intricate technological details and cybernetic enhancements. Gritty, noir atmosphere with a high-tech twist.


Исходя из эксперимента теперь точно можно понять как FLUX работает со стилями. Он полностью проигнорировал два первых стиля, что означает, что стиль Cyberpunk Neon ему не знаком, и хорошо воспроизвел третий, практически не изменив при этом саму концепцию промта.

Для чистоты эксперимента я проделал тоже самое на модели XL. 


И как вы видите, токены в стилях здесь влияют на промт по другому, на первой картинке, вместе со стилем изменилась немного и внешность девушки, а в последней картинке стиль практически перемешался с промтом. Из чего можно сделать вывод, что стили не только работают на моделях FLUX, но и делают это очень точно, в отличии от XL, просто нужно немного научится их правильно писать.

Удачи.

No comments:

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное