Sunday, 28 December 2025

Як описати шрифт в GenAI.

Привіт усім.

От цікаве питання виникло з новорічними листівками - як написати промпт щоб GenAI створив зображення з текстом визначеного шрифту?

Щоб отримати найкращий результат від Google Imagen, потрібно дотримуватися певної структури промпту.

Ось покрокова інструкція, як змусити Imagen створити текст із потрібним шрифтом:

1. Основне правило: лапки та ключові слова

Завжди беріть текст, який потрібно згенерувати, у подвійні лапки. Використовуйте фрази на кшталт text says, written text, the word "...".

2. Як описати шрифт

Оскільки ШІ не завжди розпізнає назви конкретних шрифтів (наприклад, "Roboto" або "Helvetica"), краще описувати їхній візуальний стиль.

Замість назви використовуйте категорії та прикметники:

За типом:

Serif font (із засічками, як Times New Roman - класичний, офіційний).

Sans-serif font (без засічок, як Arial - сучасний, мінімалістичний).

Cursive / Script / Handwritten (рукописний, каліграфія).

Monospace (як на друкарській машинці або в коді).

За стилем/настроєм:

Bold, Thick (жирний, товстий).

Elegant, Calligraphic (елегантний, весільний).

Graffiti (вуличний стиль).

Gothic (готичний, старовинний).

Cyberpunk, Futuristic, Digital (футуристичний, глітч-ефект).

Vintage, Retro 70s (старомодний, бульбашковий шрифт).

Neon (світиться).

3. Структура ідеального промпту

[Об'єкт/Сцена] + [Текст у лапках] + [Опис шрифту] + [Матеріал/Колір тексту] + [Розміщення]

4. Приклади промптів (англійською та українською)

Imagen краще розуміє англійську для тонких налаштувань типографіки, але українську теж сприймає.

Варіант 1: Неонова вивіска (Футуристичний стиль)

Prompt: A realistic photo of a rainy street at night. A bright pink neon sign on a brick wall explicitly says "OPEN BAR". The font is bold, sans-serif, and glowing. Cyberpunk aesthetics.

Варіант 2: Кав'ярня (Рукописний стиль)

Prompt: A cozy coffee shop interior. On a black chalkboard, the text "Morning Coffee" is written in white chalk. The font is elegant cursive calligraphy, artistic and flowing.

Варіант 3: Журнальна обкладинка (висока мода)

Prompt: A fashion magazine cover style. A model posing in a red dress. The title text "VOGUE" is at the top in large, bold, serif typeface, luxury gold texture.

Варіант 4: Ігровий логотип (3D стиль)

Prompt: A 3D render of the word "GAME OVER". The font is blocky, heavy, cartoon style. Made of cracked stone with lava glowing inside. Dark background.

Місяць роботи з Code Assistant в Google AI Studio, далі Асистент, і я вирішив переглянути свої погляди на рботу з ним. То ж пробіжу сьогодні по тому що писав раніше для порівняння. Курсивом те що було місяць тому. Погнали.

Варто кожного разу слідкувати щоб Асистент не почав перероблювати те що ви його не просили, він буває занадто активним щоб вам допомогти.

Це майже неможливо, і ще буде добре коли Асистент засвідчить це вам в лівій панелі чату з ним. Інколи він свої "поліпшення" робить тайно(, тому раджу весь функціонал проекту перевіряти час від часу.

Взагалі можно скористатися варіантами бекапів коду як то на github або просто архівом zip собі на ПК. Але майте на увазі, шо відновлювати проект у разі краху будете руцями, майже копіпастом((, Асистент не має автоматичного відкату, або його можно попросити це зробити типу "fix it", але вирогідність щоб все буде Ок не 100%.

Сама розповсюджена помилка це "Failed to load app". Можу запевнити вас що Асистент до цього немає жодного відношення, і просити його це виправити це марна справа. Нажаль Асистент не бачить консолі браузера і повідомлення про мережеві помилки звідти не читає. В крайньому випадку можете скопіювати помилку з консолі йому в чат. Але, з мого досвіду, краще просто перечекати.

Ще іноді корисно просто просити його коротко -"онови код". В цьому випадку Асистент просто ще раз пробіжиться по всіх файлах проекту, і раптом виправить свій же баг.)

Тут так само треба пильнувати якщо ваш проект або впав або добряче перероблений не в бік ваших бажань, то варто просто зробити вихід з Асистента БЕЗ збереження змін. Ваш Асистент буде багато раз вибачатися, але не виправить те що накоїв...)

Тепре це неможливо, Google поміняв логіку користування Асистентом і код проекту збергіається після кожної зміни. Тому перед кожним НОВИМ ВЕЛИКИМ функціоналом раджу робити копію проекту. Потім після відпрацювання (вдалого або ні) вирішуєте з якою копією проекту ви залишаєтесь далі.

Вихід з Асистента тепер навпаки, НЕ рекомендую, бо зараз є опція зробити відкат коду на контрольні точки, іноді це допомагає в поточній сесії. Логічно що після виходу тчк зникають назавжди.

Іноді варто вести з Асистентом мультимодальний діалог - коли він не розуміє що ви від нього хочете словами, то закинтьте йому ще скріншот "як треба", він чудово вміє аналізувати зображення.

На рахунок цього в Асистенті є власна класна фішка - Annotation Mode!

Асистент любить накидувати пропозиції (suggestions) по ходу роботи з покращення вашого застосунку, але тут також є глюк - більшіcть з них вже можуть бути в проекті, тому на ваш розсуд. Але іноді запитати про покращення його варто, з фразою в кінці "нічого не роби, тільки пропонуй!"

А тут нічого не змінилося.

Бонус - якщо вам треба поправити якусь назву то не мучайте Асистента такими дрібничками, просто зайдіть в файл constans.ts и поміняйте акуратно вручну. Зазвичай всі константи там. Зміни в коді активуються миттєво.

Привіт привіт.

Вчора мав нагоду ще раз скористатися пакетним інсталером драйверів. Але мені, чесно, не вистачило комфорту, а саме таймера виконання. Тому сьогодні буде друга розширена версія.

І зробимо це акуратно, перепишемо скрипт повністю але вже з урахуванням стандартного повзунка (Write-Progress).

Перед самим кодом коротке пояснення логіки - ми спочатку збираємо всі INF, щоб знати загальну кількість, далі йдемо по них циклом і після кожного кроку перемальовуємо прогрес. Інакше відсоток порахувати неможливо - це фундаментальне обмеження pnputil.

І щоб було зрозуміло, що саме ми вважаємо “інстальовано”, pnputil у нормальному режимі повертає текстовий результат, з якого можна визначити:

драйвер додано та встановлено;
драйвер вже був у Driver Store;
або сталася помилка.

Ми не будемо парсити все до символа (це ненадійно між версіями Windows), а використаємо практичний і стабільний підхід:

якщо pnputil повернув ExitCode = 0 → вважаємо драйвер успішно обробленим;
зберігаємо шлях до INF у список;
наприкінці показуємо зведення.

Маємо інженерно прийнятний компроміс між точністю і стабільністю.

Фішки wildcards.

Привіт привіт.

Мені здається що підтримка wildcards в Forge та Fooocus то найкраща фіча яка вже ніколи не з'явиться в інших GenAI інструментах. Я можу таку функціональність реалізувати в Pixel AI Studio, але вона швидко використає ваші кошти на АРІ-запити.((

То ж в мене всі карти знаходяться на сервері в окремій теці на які зроблені посилання:

/wildcards/ for Foooocus (config.txt)
/wildcards/ by symlink for Forge (Dynamic Prompts extension)

Згадав я про мегапак від в'єтнамських шанувальників wildcards, де промпт з wildcard посилається на інший wildcard і так далі. Як то виглядає?

Можливо так:

masterpiece,ultra realistic,32k,extremely detailed CG unity 8k wallpaper, best quality,({summer day | autumn day | winter day | spring day }),lady ,necklace ,eardrop, __*/city__, ( __*/colors__ __*/mixwear__ ) , __*/haircolor__ hair __*/hairstyle__ ,

або навіть так:

Уявіть, і це працює!))

Image JSON Prompt Builder

Привіт!

Я вже казав вам що Google Gemini полюбляє промпт в JSON форматі, і це один із найкращих способів формувати складні запити, зокрема для створення зображення, видео або аудіо.

Чому JSON-формат є ефективним для Gemini у цьому контексті:

1. Чітка структура (Logic & Structure)

Мовні моделі, як Gemini, навчені на величезній кількості коду. JSON для них - це "рідна мова" структурованих даних. Це дозволяє чітко відокремити зміст (що сказати) від параметрів (як сказати).

2. Уникнення "галюцинацій"

У звичайному тексті промпт на кшталт "Зроби голос сумним, але трохи з надією, і нехай на фоні грає піаніно, а текст ось такий..." може бути інтерпретований неточно.

У JSON ви чітко задаєте ключі та значення, що знижує ризик помилки.

3. Приклад ефективного промпту в JSON

Якщо ви використовуєте Gemini через API або просите його згенерувати параметри для іншої нейромережі (наприклад, для MusicLM, Suno або TTS-сервісів), такий формат буде ідеальним:

Персональний Оракул.

Привіт усім.

Твій персональний Оракул вже тут - магія AI + мудрість Таро 🔮

Панове, я просто не можу більше тримати це в собі! 🤩

Вчора я створив дещо особливе - Pixel AI Tarot Wizard. Це не просто додаток, це твій кишеньковий провідник у світ підсвідомості, що поєднує стародавні символи та найсучасніший штучний інтелект від Gemini! 🤖✨

Чому тобі варто спробувати це прямо зараз?

🌟 ШІ-Віщун: Забудь про стандартні "шаблонні" відповіді. Мій алгоритм аналізує твоє унікальне питання та розклад карт, створюючи глибоку, філософську та іноді навіть моторошно точну історію саме для тебе.

🎨 Естетичний кайф: обирай вайб під настрій!

🔸 Fantasy Deck: класична, розкішна колода Райдера-Вейта для тих, хто шанує традиції.

🔹 Pixel Deck: олдскульний піксель-арт для фанатів ретро-естетики (то вже від мене особисто!).

🇺🇦 Рідна мова: додаток також розмовляє Українською! Отримуй передбачення солов'їною - це додає вам особливого затишку.

🎶 Атмосфера: звуки перегортання карт, містична музика та дизайн, що занурює у транс... Це треба відчути!

Не знаєш, як діяти далі? Маєш питання про кар'єру чи стосунки? Або просто хочеш погратися з долею? 😉

👉 Тисни на посилання Pixel AI Tarot Wizard і витягни свої три карти!

Це безкоштовно, це магічно, і це зроблено з любов'ю! 💜

#таро #тароонлайн #ai #штучнийінтелект #gemini #розробка #українськийконтент #tarotreader #магія #передбачення #itukraine #petproject #pixelart #genai

Щасти.

Tuesday, 9 December 2025

Ваша зона комфорта.

Привет.

Ниже мотивационное эссе от гуру Нейрографа. Сам он его писал или с ИИ правил? Не суть важно, просто читайте. Поучительно, я сам 60+ и да, далее все верно сказано.

Зона комфорта - это не диван, это сценарий.

Зона комфорта редко выглядит как отдых. Чаще -как усталость и недовольство, которые стали нормой:

одна и та же работа.
одинаковые разговоры.
одинаковые страхи: «а вдруг не получится», «а вдруг меня осудят», «а вдруг я не разберусь», и даже "не будет лайков от друзей".

Страх быть «хуже других» лечится только целью и действием. В любом возрасте. Один свой маленький результат всегда ценнее тысячи чужих или бесконечной теории. Нейросеть -это лишь множитель нашего внутреннего мира. Если умножить ноль на миллион, получится ноль.

Чтобы создать по-настоящему кинематографичное видео или глубокое изображение, недостаточно знать инструменты. Нужно знать жизнь, иметь опыт, вкус. Нужно понимать драматургию света, вес тишины, психологию цвета. Взрослый человек приходит в AI не с пустыми руками, а с огромной «библиотекой» прожитого опыта. Ваш промпт - это не просто текст, это кристаллизация вашей насмотренности(видеопамяти) и жизненного опыта.

Hi, I'm Pixel AI Studio Pro!

Welcome to Pixel AI Studio Pro.

Версія: Pro (Hybrid Engine Update)

Дата виходу: 2026

Статус: Production Ready

1. ВИКОНАВЧЕ РЕЗЮМЕ

Нова версія Pro знаменує собою фундаментальну зміну в архітектурі мого додатку Pixel AI Studio. Продукт еволюціонував від інтерфейсу для генерації зображень (API Wrapper) до повноцінного гібридного графічного редактора.

Ключовою інновацією версії Pro є впровадження Hybrid Processing Pipeline, де можливості генеративного штучного інтелекту (Google Gemini/Imagen/Veo) поєднуються зі складними алгоритмами комп'ютерного зору (Computer Vision), що виконуються безпосередньо у браузері користувача. Це дозволило реалізувати функції, недоступні для звичайних ШІ-генераторів (стереограми, точні схеми, 3D-анімації).

2. КЛЮЧОВІ ІННОВАЦІЇ (ZERO-TO-ONE FEATURES)

У новій версії реалізовано модулі (стилі), яких не існувало в попередніх ітераціях.

Pixel AI Photomaker для всіх.

Всім Привіт!

Знаєш це відчуття, коли хочеш просто зробити прикольну аватарку або жартівливе фото, а тобі пропонують:

Подивитися 5 рекламних роликів.
Зареєструватися через пошту прабабусі.
Розібратися в налаштуваннях, які виглядають як панель керування шатлом.

Мене це, чесно кажучи, дістало. Я подумав: «Чому не можна просто натиснути кнопку і отримати результат?». І оскільки я програміст, хоча і в минулому, я вирішив не скаржитися в коментарях, а зробити власний веб-застосунок. Для себе. І, звісно ж, для тебе.

І ну його, щоб чекати до Нового року.)

Pixel AI Photomaker - що це таке і чому тобі варто спробувати?

Це максимально простий інструмент для заміни обличчя та зміни стилю фото. Я прибрав усе зайве. Тут немає складних меню чи платних підписок, захованих дрібним шрифтом.

Моя філософія проста: технології мають бути доступними абсолютно для всіх. Неважливо, чи ти школяр, SMM-ник, чи просто хочеш надіслати веселу листівку в родинний чат - ти розберешся за 5 секунд.

🔥 ВЕЛИКЕ ОНОВЛЕННЯ: Стилі, які ти полюбиш

Останніми вечорами я працював над тим, щоб додати у додаток "характеру". Я не хотів, щоб це була просто чергова "мінялка облич". Я хотів, щоб ти міг передати настрій.

ComfyUI Subgraph.

Hi all.

If you feel overwhelmed by the nodes, you can hide the nodes and connections by using subgraphs. What does a subgraph do? ComfyUI subgraph: Game changer or a nice try?

Using subgraphs

Here’s the step-by-step guide on using subgraphs.

Step 1: Load a workflow

You can use any workflow with more than one node. We will use the following text-to-image < https://stable-diffusion-art.com/text-to-image/> workflow as an example. Download the workflow JSON file below.

Download < https://stable-diffusion-art.com/wp-content/uploads/2025/01/text-to-image-SD1.5-v3.json>

Drag and drop it to ComfyUI to load.

Snipping Tool пише відео.

Всім привіт.

Вау, програма “Ножиці” (Snipping Tool, “Засіб захоплення фрагментів”), яка працює через комбінацію Win + Shift + R, вже навчилася записувати відео з голосом, але невдовзі буде здатною на більше.

У збірці на каналі для розробників Windows 11 Canary сайт Windows Latest помітив Snipping Tool версії 2022.2507.14.0 з новими можливостями. Програма може автоматично виділити вікно, щоб записати його вміст (раніше так можна було робити лише статичні скриншоти). Microsoft додала функцію вибору вікна для відеозапису, а також текстові та графічні анотації до того, як скриншот буде збережений.

Про Sage Attention.

Всім привіт.

Якось ввечері надивившись відео про SageAttention я вирішив спробувати це чудо інженерної думки в себе на сервері GenAI. Звісно повівся я на те що всі запевняли що інсталювати його не проблема, натомість буду мати вигоду по швидкості генерації в ComfyUI до 30%.

Зважаючи на те що в Stability Matrix в якості бекенду використовується саме ComfyUI (там він зветься як Inference), то чому б не задіяти ШТАТНУ функцію з меню.

Тим більше що автор ось цього відео запевняв глядача що це самий ПРОСТИЙ спосіб отримати SageAttention.

Та не так сталося як гадалося!)

Я витратив годину на те щоб зрозуміти що Matrix це чорна скриня і будь які намагання зовні зробити йому апгрейд будуть проігноровані, і ще три години на те щоб полагодити ComfyUI, який там знаходиться в пакетах і який я так легко поламав намагаючсь додати SageAttention...

Мабуть у автора відео Matrix інший, хоча він також вибирав портабельну установку.

Зрозуміло, що це не просто проблема установки - Matrix у своєму портативному середовищі просто не дозволяє збирати сучасні C++/CUDA пакети на зразок SageAttention. Тобто сенс був спробувати зробити все "з Matrix", але через старі версії setuptools/distutils та обмеження venv це просто не спрацює.

То ж маю кілька висновків:

Matrix обмежений у підтримці нових пакетів, які потребують компіляції.
SageAttention вимагає збірки з torch, і навіть всі обхідні способи які він сам і пропонує (--no-build-isolation, editable, копіювання Node) не працюють у тому venv.

Для роботи безпосередньо в Matrix можна:

чекати, поки SageAttention зроблять prebuilt для Windows + Python 3.10 у портативному вигляді;
або шукати альтернативний Node/Attention, який не потребує збірки (чистий Python).

Тобто, на жаль, сенс “зробити все всередині Matrix” для цієї версії SageAttention тут обмежений технічно.

Все, Matrix більше не чіпаємо!

Але маємо ще декілька гарних варіантів щодо встановлення SageAttention в окремий, все ще портабельний ComfyUI. До речі, вони також згадані в тому відео.

Перший це файлік SageAttention-NEXT.bat з ComfyUI-Easy-Install. Не обов'язково виконувати сам ComfyUI-Easy-Install, просто пирніть глибше в архів папка Add-ons, він там.

Тобто кладете цей файл в свій ComfyUI в підпапку /Add-ons і звідти його виконуєте.

Microsoft Print to PDF

Привіт.

На швидкоруч накидаю вам пару слів про проблему з Word (або Excel), яка натомість не в ньому.

Ось ви маєте документ, бажате пустити його на друк, і Word зависає... надовго, іноді назавжди. Особливо прикро коли перед цим той документ був не збережений. Перезапуск Word не вирішує цю проблему, тому що проблема не в ньому.

А в принтері який визначено as default. Тобто якщо з принтером якісь негаразди від заминання паперу до 'я пішов в оффлайн' , то Word намагатимеся з ним вийти на зв'язок для друку довго довго...

Тому тут швидка порада одна - робити в себе завжди основним локальний принтер `Microsoft Print to PDF`. Він завжди доступний!

А вже потім, якщо так треба нищити зелену планету, вибирати реальний принтер.

Щасти.

Saturday, 8 November 2025

Екосистема CUDA.

Привіт усім!

CUDA(англ. Compute Unified Device Architecture) - програмно-апаратна архітектура паралельних обчислень, яка дозволяє істотно збільшити обчислювальну продуктивність завдяки використанню графічних процесорів фірми Nvidia.

Щоб перевірити версію CUDA, яка встановлена на вашій ОС, ви можете скористатися утилітою nvidia-smi (NVIDIA System Management Interface).

Відкрийте термінал або командний рядок і введіть наступну команду:

nvidia-smi

У виводі ви побачите інформацію про ваші графічні процесори NVIDIA, а також версію драйвера CUDA, з яким вони сумісні. Це буде в рядку, що починається з "CUDA Version:".

Наприклад, вихлоп може виглядати так (це тільки перший рядок):

| NVIDIA-SMI 576.88 Driver Version: 576.88 CUDA Version: 12.9 |

У цьому прикладі бачимо версію CUDA - 12.9.

Якщо nvidia-smi не працює, це може означати, що драйвери NVIDIA не встановлені або встановлені неправильно.

Крім того, ви можете перевірити версію CUDA Toolkit (якщо він встановлений), використовуючи:

nvcc --version

Це покаже версію компілятора CUDA (nvcc), яка є частиною CUDA Toolkit.

nvcc: NVIDIA (R) Cuda compiler driver

Built on Wed_Jan_15_19:38:46_Pacific_Standard_Time_2025

Cuda compilation tools, release 12.8, V12.8.61

Build cuda_12.8.r12.8/compiler.35404655_0

JSON, XML та YAML

Всім привіт.

Самі популярні формати даних у ComfyUI: JSON, XML та YAML

Світ генеративних технологій сьогодні нагадує живу лабораторію, де експерименти з даними, форматами і налаштуваннями тривають безперервно. Кожен новий інтерфейс чи модель створює власну "мову спілкування" між користувачем і машиною. І хоча більшість з нас сприймає ComfyUI як просту візуальну оболонку для Stable Diffusion чи інших генераторів, насправді під капотом там живе ціла система форматів і правил.

Коли відкриваєш будь-який workflow або плагін у ComfyUI, можна натрапити на знайомі імена файлів - .json, .xml, .yaml. Спершу це дивує: навіщо три різні формати, якщо всі вони роблять приблизно одне й те саме - зберігають дані? Але за цим стоїть цікава логіка. Кожен із них не просто "формат", а окрема філософія - як саме програма має розуміти й передавати інформацію.

JSON - мова машинної точності

JSON - це формат, який у сучасному світі AI став стандартом де-факто. Його структура проста: фігурні дужки, коми, лапки - все чітко і передбачувано. Саме тому ComfyUI зберігає свої workflow-файли у JSON. У ньому описано абсолютно все - від координат нодів на полотні до того, які моделі підключено і що з чим зв’язано.

Цей формат не намагається бути зручним для людини - він створений для машини, і виконує свою роботу бездоганно. Завдяки JSON користувач може миттєво передати або поділитися проєктом: ComfyUI просто зчитує файл і точно відтворює всю структуру.

Про Pixel AI Photomaker

Привет на привет.

А я опять про Photomaker. Вкратце напомню свою историю.

Итак, в Forge на закладке Spaces был популярный PhotomakerV2. Картинки для Instagram он делает просто на ура. Разумеется можно также легко пользоваться PhotomakerV2 и на портале huggingface, но там очень быстро наступает лимит по времени генерации что творческому человеку просто мука.

Я тогда говорил что выпиливание PhotomakerV2 из Forge заняло бы еще больше времени. Тем боле что в новом Forge Neo его нет вообще.

Во как... Но не прошло и года как Google дал мне в руки Build, и я за два вечера собрал аналог Photomaker онлайн. Не написав не единой строчки кода!

Встречайте мой Pixel AI Photomaker!

Его основные фишки ниже.

Pixel AI Photomaker Features:

1. Core Workflow: 3-Step Headshot Generation

The application guides users through a simple, three-step process to create professional headshots.

- Step 1: Photo Upload: Users begin by uploading one or more (up to 5) personal photos. These images serve as the reference for the AI to maintain the user's likeness.

- Step 2: Customization: Users define the composition and style of the desired headshot.

- Step 3: Editing and Finalization: Users can view the generated headshot and make further refinements using text prompts or predefined effects.

Про extra_model_paths

Привет всем.

Как я говорил ранее, с целью экономии места на диске я переписал все АІ-модели в одну папку. Так будет логичнее для организации у себя единого банка моделей.

Наш славный ComfyUI смотрит туда через файл extra_model_paths.yaml.

Создается он легко батником уже не помню какого автора:

@Echo off

Title Extra Model Paths Maker by ivo v0.21.0

set yaml=NEW_extra_model_paths.yaml

cd /d %~dp0

if not exist checkpoints (

Echo.

Echo [33mWARNING: [0m [92mPlace this file in shared 'models' folder and rerun it. [0m

Echo.

Echo Press any key to Exit...&Pause>nul

goto :eof

)

Echo comfyui:>%yaml%

cd ..\

Echo base_path: %cd%\>>.\models\%yaml%

cd .\models

Echo is_default: true>>%yaml%

Echo.>>%yaml%

for /D %%f in (*) do echo %%f: models\%%f\>>%yaml%

Но есть один нюанс, батник не заглядывает в подпапки, может это и правильно.

Так я, к примеру, потерял свои \diffusion_models\ которые у меня для удобства совместимости с unet моделями находяться в подпапке \checkpoints.

Не стоит ругать автора, а лучше просто дописать недостающую секцию в extra_model_paths.yaml руками так:

diffusion_models: |

models\checkpoints\diffusion_models\

models\unet\

Успехов.

Sunday, 2 November 2025

JSON prompt as single workflow.

Hi all.

By the way, structured JSON prompts have another useful feature. Now we can put a whole series of actions(steps) into one prompt, making it like a single workflow.

For example, removing the background in one of my versions looks like this

1) Remove Background Ext:

{

"Task": "Create a high-quality transparent image by removing the background from a source image.",

"constraints": {

"preserve_subject_details": true,

"maintain_original_dimensions": true,

"clean_edges": true

"steps": [

{

"step_id": 1,

"name": "Generate High-Contrast Matte",

"instructions": "Take the input image. Accurately segment the main subject(s) from the background. Replace the entire background with a solid, pure white color (hex #FFFFFF). The subject must be perfectly preserved with no alterations. The output image dimensions must be identical to the input image. Output this intermediate image as 'white_matte'."

{

"step_id": 2,

"name": "Create Transparency from Matte",

"instructions": "Take the original input image and the 'white_matte' image from step 1. Use 'white_matte' as a pixel-perfect transparency mask for the original input image. Where 'white_matte' is pure white, the corresponding pixels of the original image must become fully transparent (alpha=0). Where 'white_matte' is not white, the original image pixels must be fully opaque (alpha=255). The anti-aliased (near-white) pixels along the subject's edge in 'white_matte' should be translated into corresponding levels of semi-transparency to ensure a smooth, clean edge. Output this as 'final_transparent_image'."

}

"Deliverables": {

"transparent_png": "final_transparent_image"

}

2) The same goes for creating a Loop Seamless Panorama:

{

"Task": "Create a seamless horizontal panoramic loop from an image.",

"constraints": {

"no_distortion": true,

"maintain_subject_integrity": true

"steps": [

{

"step_id": 1,

"name": "Horizontal Expansion",

"instructions": "Take the input image and expand it horizontally by approximately 2.5 times its original width. The generated content should naturally extend the background elements (like sky, landscape, etc.) without distorting the main subject. Output this as 'expanded_panorama'."

{

"step_id": 2,

"name": "Seamless Loop Adjustment",

"instructions": "Take the 'expanded_panorama' image. Adjust the leftmost and rightmost sections of this image to ensure they seamlessly connect, creating a continuous horizontal loop without visible seams. Focus changes primarily on the edges to achieve the loop effect, preserving the central content as much as possible. Output this as 'final_seamless_loop'."

}

"Deliverables": {

"final_seamless_loop_image": "final_seamless_loop"

}

That's cool.

Saturday, 1 November 2025

Кофе по-венски, v2.

Всем привет.

Помню что на лету 5 лет тому я обещал вам третью книгу, как более серьезное чтиво...

Первая версия это "Кофе по-венски" куда автор включил пять немного странных историй, которые ему было навеяны чашечкой кофе по-венски.

Вторая - это "Контракт с Богом", где первую ее часть вы могли читать ранее в блоге. Всего две части, но они оказались не менее занимательны и логичны.

Так вот с 3-й не сложилось, но не спешите расстраиваться, ведь я поступил по другому - не особо выделяя направления сюжета я включил все новые эссе в одну книгу! Теперь обновленная версия доступна всем.

Отдельные отрывки идей появлялись в моем блоге и ранее. И в итоге я решил объединить их в одну книжку под тем же привычным названием "Кофе по-венски". Теперь у меня почти 100 страниц занимательных историй из моей жизни, а кто знает, может и из вашей.)

Она доступна в моей Библиотеке, на нижней полке (листаем вправо). Или для чтения по вечерам под чашечку ароматного чая здесь же на главной странице блога, как "Download PDF".

Мира и Удачи всем.

Monday, 27 October 2025

Structured JSON prompts in GenAI.

Hi all.

When working with GenAI, freeform text prompts are fine for casual use, but structured workflows require more discipline. Using JSON prompts allows you to define tasks clearly, enforce rules, and produce outputs that can feed directly into other models.

In this example, we generate a cozy winter cabin scene across three models: Gemini (image), Veo (video), and Suno (music).

1) Image Generation - Gemini


{
  "task": "image_generation",
  "input": "Winter cabin in a snowy forest during blue hour, warm light
glowing from windows, soft snow falling",
  "requirements": {
    "goal": "Create a detailed scene description suitable for video
 and music generation",
    "rules": {
      "no_people_or_animals": true,
      "no_extra_locations": true
    },
    "quality": {
      "description_detail": "high, vivid, and atmospheric",
      "mood": "peaceful, serene, cozy",
      "style": "concise and clear, visually evocative",
      "view_angle": "wide, showing the cabin and surrounding forest",
      "lighting": "soft blue hour with warm window glow"
    }
  },
  "output_format": {
    "type": "text",
    "example": "A cozy wooden cabin sits quietly in a snowy forest. The soft 
blue light of dusk reflects off the snow, and warm light glows from the windows. 
Snowflakes gently fall, creating a peaceful and serene atmosphere. The scene is 
viewed from a wide angle, showing both the cabin and the surrounding forest."
  },
  "notes": "This description will serve as the base for Veo video generation and 
Suno music generation."
}

Промпт-інжиніринг з Pixel AI Studio.

Привіт привіт.

Існує одна з ключових технік у просунутому промпт-інжинірингу щодо Google Gemini.

Однак, спосіб, у який це робиться, сильно залежить від конкретної моделі ШІ. У деяких системах, як-от Stable Diffusion (через GUI типу Automatic1111), існують спеціальні синтаксиси, наприклад, дужки () для збільшення ваги та квадратні дужки [] для її зменшення, або навіть числові коефіцієнти (token:1.5).

У Pixel AI Studio, яке працює на моделях Google Gemini, немає такого жорсткого синтаксису з дужками та цифрами. Gemini краще реагує на природну мову та структуру речення. Проте, ви можете дуже ефективно керувати "вагою" або "увагою" моделі до певних токенів, використовуючи наступні методи:

Найефективніші способи "підняти вагу" токена в Gemini:

1. Позиціонування та Повторення (Найпотужніший метод)

Слова на початку промпту мають значно більший вплив на кінцевий результат, ніж слова в кінці. Якщо ви хочете, щоб модель зосередилася на чомусь, поставте це на перше місце. Повторення ключового слова або фрази також сильно підсилює її значення.

Приклад:

Ви хочете отримати зображення велетенського червоного дракона, що летить над замком, але модель постійно малює замок більшим за дракона.

Слабкий промпт: A castle on a mountain with a red dragon flying around it.

(Тут "замок" стоїть першим, тому модель може надати йому пріоритет).

Сильний промпт: A giant, majestic red dragon. The massive red dragon is the main subject. It is flying high above a tiny castle in the background. Photorealistic, cinematic lighting.

(Тут ми тричі наголосили на "червоному драконі", поставили його на перше місце і навіть прямо вказали, що він є "головним об'єктом", а замок — "крихітний" і "на задньому плані").

Ставимо драйвера пакетом.

Привіт привіт.

Трапляється що нова Windows на не зовсім новому hardware викидає пачку пристроїв як "невідомий пристрій" і чекає на відповідний драйвер. Звісно вам буде муторно по кожному клацати та оновлювати.

Так от в Windows 11 в менеджері пристроїв з'явилася гарна річ в меню - додати всі драйвера одним кліком.

Головне що був доступ до теки з драйверами.

Якщо вам більше впадає робота через powershell то команда буде виглядати так:

Get-Chidltem \\server\foldler\drivers -Recurse -Filter "*inf" -ErrorAction SilentllyContinue | ForEach-Object {PNPUtil.exe /add-driver $_.FullName /install}

Щасти.

Wednesday, 22 October 2025

Про Code Assistant в Google AI Studio.

Привіт привіт.

Пару слів про Code Assistant в Google AI Studio Build.

Code Assistant дає вам унікальну можливість зібрати свій GUI онлайн з відподвідним функціоналом не написавши жодного рядка коду (vibe coding). Deploy вашого проекта на ваш сервер не безкоштовний, тому повторно це питання не розглядаю. Все що описано далі працює там само в Google AI Studio в межах плану Free Tier.

Code Assistant, далі Асистент, хоча і має свою штатну потужну інструкцію щодо роботи з вашими "хотелками", в налаштуваннях є можливість задати свою(для нього) особливу поведінку помічника.

Так само як і моя Pixel AI Studio має поле для інструкції з поведінки з вами. Яку можно і написати прямо в поле так і завантажити з файлу.

На останок, якщо вам цікаво, мною до Pixel AI Studio додано фічі Analyzer зображень, Detector AI та 'Inspire me'. Також тепер я можливість додавати стилі прямо з локального файлу. Також відновлення старих чб фото винесено в окремий workflow 'Old Photo Restoration'. Нові функції поки не опубліковані, вони на стадії тестування або покращення.)

Щасти.

PS: варіант системного промта:

Get-ADUser та Unable to contact server.

Привіт привіт.

Сьогодні рулимо проблему «Get-ADUser: Unable to contact server» у PowerShell.

Намалював коротеньку інструкцію для діагностики та виправлення проблем із RSAT/ADWS з портом 9389.

Зміст

Початкова інформація та контекст
Перевірки - по кроках
LOGONSERVER vs ADWS - в чому різниця
Що робити, якщо ADWS недоступний
Обхідні шляхи (LDAP / .NET) та рекомендації
Коротке зведення у таблиці

Початкова інформація та контекст

Командлети модуля ActiveDirectory (Get-ADUser, Get-ADDomain, Get-ADComputer) в RSAT використовують службу Active Directory Web Services (ADWS), яка працює через TCP-порт 9389. Якщо при виконанні Get-ADUser ти бачиш помилку “Unable to contact server”, це часто означає, що PowerShell не може зв’язатися з ADWS на жодному доступному контролері домену.

Перевірки - по кроках

1) Перевірка наявності RSAT (AD модуль)

Get-WindowsCapability -Name RSAT* -Online | ? Name -like '*DS-LDS*'

Якщо State : Installed — модуль встановлено. Якщо ні, можна встановити:

Add-WindowsCapability -Name Rsat.ActiveDirectory.DS-LDS.Tools~~~~0.0.1.0 -Online

2) Перевірка базового мережевого доступу і DNS

Test-Connection <ім'я_DomainController> -Count 1
Resolve-DnsName _ldap._tcp.dc._msdcs.<ваш_домен> -Type SRV

Ваш API ключ для Pixel AI Studio.

Привіт.

Накидав вам інструкцію з налаштування власного API ключа для Pixel AI Studio.

Щоб розкрити повний потенціал Pixel AI Studio та користуватися ним без обмежень на кількість запитів, вам знадобиться власний ключ Google AI API. Це безкоштовно та займає лише кілька хвилин.

Дотримуйтесь цих простих кроків:

Крок 1: Отримання API ключа

1. Перейдіть за посиланням до Google AI Studio:

https://aistudio.google.com/app/apikey

2. Увійдіть у свій акаунт Google, якщо система попросить вас про це.

3. Натисніть кнопку "Create API key in new project".

4. Google миттєво згенерує для вас унікальний ключ. Скопіюйте цей довгий рядок символів.

Важливо: Зберігайте цей ключ у надійному місці та не діліться ним ні з ким!

Крок 2: Налаштування ключа для застосунку

Щоб застосунок міг використовувати ваш ключ, його потрібно додати як змінну середовища.

1. У кореневій папці застосунку (там, де знаходяться файли `index.html` та інші) створіть новий файл з точною назвою:

`.env.local`

2. Відкрийте цей новий файл `.env.local` у будь-якому текстовому редакторі.

3. Додайте в нього наступний рядок, замінивши текст-заглушку вашим скопійованим ключем:

API_KEY="СЮДИ_ВСТАВТЕ_ВАШ_СКОПІЙОВАНИЙ_КЛЮЧ"

Приклад того, як це має виглядати:

API_KEY="AbCdEfGhIjKlMnOpQrStUvWxYz1234567890"

4. Збережіть файл та ПЕРЕЗАПУСТІТЬ застосунок (якщо він був запущений). Це дуже важливий крок, оскільки змінні з файлу `.env.local` завантажуються лише під час старту.

Крок 3: Перевірка

Якщо все зроблено правильно, застосунок автоматично підхопить ваш ключ і почне використовувати його для всіх запитів до ШІ. Ви зможете користуватися всіма функціями без обмежень, які були встановлені для демонстраційного режиму.

Дякую, що користуєтесь Pixel AI Studio!

З повагою, Nyukers.

До речі, вчора в секцію Retouch/Actions додав воркфлоу 'Old Photo Restoration' для ретуші старих ч/б фото одним кліком. Тепер ваші фото мають кольорове життя на постійній основі!

Saturday, 11 October 2025

Pixel Panorama Pro.

Привіт.

Як і було обіцяно welcome to Pixel Panorama Pro.

Фахівці GenAI відчують тут знайомий outpainting, і будуть праві. Створення seamless панорам таким і є. Все залежить від розміру фінального зображення яке ви бажаєте отримати. Upscaling до 4К також включено.

Унікальна фішка в пакеті пресетів якщо вам ніколи описувати що у вас на базовому зображенні. Ті що з префіксом '*', то особисто від мене для створення loop-панорам, три протестованих варіанта промпта від ChatGPT, Gemini та json-формату для ефективності.

Зважаючи на те що панорамами бавиться далеко не кожен, URL-посилання на Pixel Panorama Pro буду надавати приватно. То ж пишіть, не соромтеся.)

Нижче перелік функціоналу Pixel Panorama Pro:

1. Основна генерація панорами

- **Завантаження базового зображення:** Користувач може завантажити зображення у форматах PNG, JPG або WEBP, яке слугуватиме основою для створення панорами.

- **Введення текстового запиту (промту):** Можна ввести детальний опис бажаного результату в текстове поле.

- **Готові пресети запитів:** Доступний випадаючий список з готовими стилями (наприклад, Cinematic, Cyberpunk, Fantasy), які можна застосувати для швидкого отримання результату.

- **Вибір якості:** Можна обрати якість фінального зображення: 1080p (Standard), 1440p (High), або 2160p (Ultra 4K).

- **Кнопка "Create":** Запускає процес генерації панорами на основі зображення, промту та обраних налаштувань.

Главная

Sunday, 28 December 2025

1. Основне правило: лапки та ключові слова

2. Як описати шрифт

3. Структура ідеального промпту

4. Приклади промптів (англійською та українською)

Thursday, 25 December 2025

Tuesday, 23 December 2025

Wednesday, 17 December 2025

Sunday, 14 December 2025

Tuesday, 9 December 2025

Friday, 5 December 2025

Monday, 1 December 2025

Tuesday, 25 November 2025

Saturday, 22 November 2025

Friday, 21 November 2025

Wednesday, 12 November 2025

Saturday, 8 November 2025

Thursday, 6 November 2025

Самі популярні формати даних у ComfyUI: JSON, XML та YAML

JSON - мова машинної точності

Tuesday, 4 November 2025

Monday, 3 November 2025

Sunday, 2 November 2025

Saturday, 1 November 2025

Monday, 27 October 2025

1) Image Generation - Gemini

Friday, 24 October 2025

Thursday, 23 October 2025

Wednesday, 22 October 2025

Wednesday, 15 October 2025

Привіт привіт.

Сьогодні рулимо проблему «Get-ADUser: Unable to contact server» у PowerShell.

Зміст

Початкова інформація та контекст

Перевірки - по кроках

1) Перевірка наявності RSAT (AD модуль)

2) Перевірка базового мережевого доступу і DNS

Monday, 13 October 2025

Saturday, 11 October 2025

Версия на печать

Популярное