А АTuesday, 13 January 2026

Як GenAI ламає зуби об дитячі розваги🧠💥

Привіт! 👋

Я вирішив влаштувати ШІ справжній іспит на "креативну гнучкість". Завдання були з розряду оптичних ілюзій та логічних розмальовок:

  • 3D Magic Eye (SIRDS) - стереограми.
  • Paint by Number - картини за номерами.
  • Парейдолія - приховані образи (наприклад, обличчя в хмарах в творах О. І. Шупляка - українського художника).

Спойлер: це було прикро. В якийсь момент ШІ навіть "чесно зізнався", що це завдання для нього занадто складне. Хоча в усіх трьох випадках він розумно і детально розкладав теорію створення іллюзії. Я розібрався, чому так сталося, і знайшов 3 фундаментальні причини, чому GenAI тут безсилий без сторонніх алгоритмів.

Ось чому магія не сталася "в один клік":

1. Конфлікт "Дифузія проти Математики" (Magic Eye) 📉

Стереограми (SIRDS) - це не малюнок, це чиста математика. Щоб око побачило 3D, пікселі патерну мають зміщуватися по горизонталі за жорсткою формулою залежно від карти глибини.

Чому ШІ провалився: генеративні моделі (Diffusion Models) навчені відновлювати зображення з шуму на основі візуальних патернів, а не математичних формул.

ШІ бачить мільйони стереограм у своєму датасеті, але для нього це просто "строкатий шум". Він не розуміє фізики паралаксу. Він генерує текстуру, схожу на стереограму, але оскільки пікселі не зміщені математично точно, 3D-ефекту немає. Це як намалювати QR-код від руки - виглядає схоже, але не працює.


2. Проблема Топології та Векторної Логіки (Paint by Number) 🔢

Розмальовка за номерами - це задача на топологію: замкнені контури, унікальні цифри для кожного кольору, відсутність "сміття".

Чому ШІ провалився: Нейромережі мислять пікселями, а не об'єктами. У них немає поняття "замкнений контур".

ШІ не тримає в "голові" глобальну карту кольорів. Тому він:

  1. Ставить цифру "5" на зону, яка має бути "1".
  2. Малює цифри, які не існують.
  3. Залишає розірвані лінії.

Для ШІ цифри на картинці - це просто частина візуального декору, як листя на дереві. Він не розуміє їхньої функціональної ролі як інструкції.


3. Обмеження "Уваги" та Буквалізм (парейдолія) 🗿

Парейдолія вимагає, щоб зображення працювало на двох рівнях одночасно: локально це скелі, глобально - обличчя.

Чому ШІ провалився: Сучасні моделі страждають від надмірної буквальності. Механізм Self-Attention (який відповідає за розуміння промпту) намагається максимально точно виконати запит.

Якщо попросити "приховане обличчя в горі", ШІ малює або просто гору, або відверту скульптуру обличчя. Йому важко знайти баланс "на межі фолу", де образ лише вгадується.

Без спеціальних "милиць" (типу ControlNet, який жорстко задає структуру, але дозволяє змінювати наповнення), звичайний промптинг тут безсилий. ШІ не вміє "мружитися" і фантазувати - він просто виконує наказ.


🏁 Висновок

Мій експеримент довів: GenAI - це художник-імпресіоніст, а не інженер-кресляр.

Він чудово малює суть і атмосферу. Але він ламається там, де потрібна піксельна точність (SIRDS), сувора логіка (Paint by Number) або подвійний сенс (Парейдолія). Поки що для цих задач ідеальний рецепт такий: ШІ генерує ідею -> Алгоритм/Людина доводить це до розуму.

А ви стикалися з задачами, де ШІ казав "я пас"? 👇

До речі, перші два кейси я залишив в своїй Pixel AI Studio, можете самі спробувати. 

#GenAI #ArtificialIntelligence #TechDeepDive #OpticalIllusions #MagicEye #SIRDS #AILimitations #TechArt

No comments:

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное