А АFriday, 24 October 2025

Промпт-інжиніринг з Pixel AI Studio.

Привіт привіт.

Існує одна з ключових технік у просунутому промпт-інжинірингу щодо Google Gemini.

Однак, спосіб, у який це робиться, сильно залежить від конкретної моделі ШІ. У деяких системах, як-от Stable Diffusion (через GUI типу Automatic1111), існують спеціальні синтаксиси, наприклад, дужки () для збільшення ваги та квадратні дужки [] для її зменшення, або навіть числові коефіцієнти (token:1.5).

У Pixel AI Studio, яке працює на моделях Google Gemini, немає такого жорсткого синтаксису з дужками та цифрами. Gemini краще реагує на природну мову та структуру речення. Проте, ви можете дуже ефективно керувати "вагою" або "увагою" моделі до певних токенів, використовуючи наступні методи:

Найефективніші способи "підняти вагу" токена в Gemini:

1. Позиціонування та Повторення (Найпотужніший метод)

Слова на початку промпту мають значно більший вплив на кінцевий результат, ніж слова в кінці. Якщо ви хочете, щоб модель зосередилася на чомусь, поставте це на перше місце. Повторення ключового слова або фрази також сильно підсилює її значення.

Приклад:

Ви хочете отримати зображення велетенського червоного дракона, що летить над замком, але модель постійно малює замок більшим за дракона.

Слабкий промпт: A castle on a mountain with a red dragon flying around it.

(Тут "замок" стоїть першим, тому модель може надати йому пріоритет).

Сильний промпт: A giant, majestic red dragon. The massive red dragon is the main subject. It is flying high above a tiny castle in the background. Photorealistic, cinematic lighting.

(Тут ми тричі наголосили на "червоному драконі", поставили його на перше місце і навіть прямо вказали, що він є "головним об'єктом", а замок — "крихітний" і "на задньому плані").

2. Використання Сильних та Детальних Прикметників

Замість того, щоб намагатися "змусити" модель надати вагу слову, опишіть його так, щоб важливість стала очевидною.

Приклад:

Слабкий промпт: A knight wearing armor.

Сильний промпт: A portrait of a knight in incredibly detailed, ornate, polished steel armor. The focus is on the intricate engravings on the armor. Every scratch and reflection on the armor is visible.

(Тут ми не просто сказали "броня", ми описали її як "неймовірно детальну", "декоровану", "поліровану", з "гравіюванням" і "подряпинами". Це змушує модель приділити максимум уваги саме броні).

3. Чітка Структура Промпту

Розділяйте опис головного об'єкта, фону та стилю. Це допомагає моделі краще зрозуміти, що є пріоритетом. Ви можете використовувати коми, переноси рядків або навіть структурувати промпт за ключовими словами.

Приклад:

Змішаний промпт: A cyberpunk street with a woman in a leather jacket in the style of an oil painting with neon lights.

Структурований промпт:

Subject: A woman in a black leather jacket. Setting: A dark, rain-slicked cyberpunk street at night. Style: Moody oil painting, visible brushstrokes, dramatic neon lighting.

(Така структура чітко розмежовує пріоритети для моделі).

4. Негативні Промпти (для зменшення ваги)

Хоча ви запитали про збільшення ваги, важливо знати і про зворотний процес. Щоб зменшити вагу небажаних елементів, прямо вкажіть, чого ви НЕ хочете бачити.

Приклад:

Якщо ви хочете отримати зображення лісу без людей, але вони постійно з'являються:

Сильний промпт: An ancient, mystical forest. Serene, untouched, empty. No people, no signs of civilization, no buildings.

Що НЕ спрацює в Pixel AI Studio:

Використання синтаксису з інших моделей, найімовірніше, не дасть бажаного ефекту або буде проігноровано.

Неправильно: (red dragon:1.5), [castle:0.5]

Неправильно: a (((giant))) red dragon

Підсумок:

Так, ви можете керувати пріоритетом токенів. Але в Gemini це робиться не за допомогою спеціальних символів, а через майстерне володіння мовою:

Ставте найважливіше на початок.

Повторюйте ключові концепції.

Використовуйте потужні, описові прикметники.

Чітко структуруйте свій запит.

Експериментуйте з цими техніками, і ви помітите, наскільки точніше зможете керувати результатом.


Але це ще не все!

Відомо що моя Pixel AI Studio використовує як режим T2I так і I2I, а тут Google пропонує різні моделі. І техніки написання промптів для Imagen та Gemini трохи відрізняються. Головна різниця полягає в їхньому призначенні.

1. Gemini (gemini-2.5-flash-image)

Ця модель найкраще підходить для редагування та трансформації вже існуючих зображень.

Техніка промптінгу: Уявіть, що ви даєте вказівки асистенту, який дивиться на вашу фотографію. Ваші команди мають бути чіткими, інструктивними та описувати, що саме потрібно змінити.

Ключові слова: "Зміни...", "додай...", "видали...", "зроби фон схожим на...", "перефарбуй...".

Приклади:

"Зроби фон схожим на казковий ліс".

"Перефарбуй цю сукню в червоний колір".

"Додай окуляри цій людині".

2. Imagen (imagen-4.0-generate-001)

Ця модель призначена для створення зображень з нуля виключно на основі тексту.

Техніка промптінгу: Тут ви виступаєте в ролі художника, який описує майбутню картину словами. Чим детальнішим, атмосфернішим і яскравішим буде ваш опис, тим кращим вийде результат. Важливо вказувати стиль, освітлення, композицію, емоції та дрібні деталі.

Ключові слова: Описові прикметники, художні стилі, типи освітлення, ракурси камери.

Приклади:

"Фотореалістичний портрет старого рибалки, штормове море на фоні, драматичне освітлення, в стилі олійного живопису".

"Кіберпанк-місто вночі, залите неоновим світлом, мокрі вулиці, що відбивають голографічну рекламу, висока деталізація".

Підсумок

Для Gemini ви даєте команди для редагування.

Для Imagen ви створюєте детальний опис сцени.

В студії ця логіка вже врахована: режим "Generate" використовує Imagen, а режими "Retouch" та "Imagination" - Gemini. Тому обираючи потрібний режим, ви інтуїтивно вже використовуєте правильний підхід до написання промптів!

Далі буде.

1 comment:

Nyukers said...

До речі, Gemini розуміє токени у верхньому регістрі, типу 'RED color' або 'DONT CHANGE background'

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное