Monday, 20 April 2026

Gemini Flash TTS Preview - як приборкати дракона.

Привіт усім.

Gemini Flash TTS Preview, або як приборкати нейромережевий голос для свого контенту? 🎙️✨

Нещодавно ми протестували можливості Gemini Flash TTS Preview у ролі професійного диктора. Використовуючи персонажа Kore для озвучення трейлера «Мавка: Travel Blog», ми виявили, що це не просто генератор мовлення, а повноцінний інструмент для саунд-дизайну.

Ось глибокий розбір того, як змусити ШІ звучати як голлівудська зірка та правильно працювати з українською фонетикою.

1. Лінгвістичний хакінг: Боротьба за правильний наголос

Головний виклик для мультимовної моделі (як-от Kore) — це рухомий український наголос. Оскільки модель тренувалася на мільярдах токенів, де домінує англійська мова, вона часто намагається «спростити» українську вимову.

Як ми вирішили цю проблему:

Реєстрове керування: Найкращий спосіб змусити модель наголосити потрібний склад — написати голосну ВЕЛИКОЮ літерою. Наприклад: МільЯрди секУнд... тИсячі епОх. Це спрацьовує як тригер для посилення інтонації.

Пунктуаційна драматургія: Gemini Flash TTS Preview надзвичайно чутлива до розділових знаків.

... (трикрапка) — створює природну паузу для вдиху або драматичного ефекту.

— (тире) — змушує модель зробити логічний акцент на наступному слові.

! (оклик) — піднімає висоту голосу (pitch) наприкінці речення.

Фонетична адаптація: Якщо слово звучить «роботизовано», ми пишемо його так, як воно має чутися. Наприклад, якщо модель ковтає закінчення, можна спробувати розділити слово дефісом або додати «невидимі» літери для подовження звуку.

Saturday, 11 April 2026

Ваше відео німе без SRT.

Привіт.

Чому ваші відео «німі» без SRT або як відкрити Mavka Travel для всього світу?

Поки наша Мавка заряджає свої неонові коси, а я шукаю нові «кредити» для рендерів, хочу поділитися з вами одним технічним усвідомленням. Ми всі ганяємося за ідеальною картинкою та плавними рухами ШІ, але часто забуваємо про інструмент, який здатний подвоїти (або навіть подесятерити) охоплення вашого контенту.


Мова про мультимовні субтитри (SRT).

Якщо ви думаєте, що це просто «текст на екрані для тих, хто погано чує», — ви втрачаєте 80% потенціалу своїх відео. Ось чому для нашого проєкту Mavka Travel Vlog ми впроваджуємо роботу з субтитрами як стандарт.

1. Глобальний ринок: Мавка не має кордонів

Стиль Cyber-Ethno, який ми створили, — універсальний. Він однаково заворожує глядача як у Києві, так і в Токіо чи Нью-Йорку. Але якщо глядач не розуміє емоційну репліку Мавки про «базарний сміх» або зустріч із Т-Рексом, він просто проскролить далі. Англійська, іспанська або німецька доріжка в форматі .srt робить вашу локальну історію зрозумілою для мільярдів.

2. Секрет «тихого» перегляду

Статистика невблаганна: близько 80% користувачів дивляться Shorts та Reels у громадських місцях без звуку. Якщо у вашому відео немає субтитрів, для такої аудиторії воно стає просто набором картинок без сенсу. Субтитри «вмикають» звук у голові глядача навіть при вимкненому динаміку.

3. SEO: Розмова з алгоритмом

YouTube — це величезна пошукова система. Алгоритми не вміють (поки що) ідеально «дивитися» відео, але вони чудово вміють читати. Коли ви завантажуєте окремий файл .srt, YouTube індексує кожне слово. Ваше відео починає з’являтися в результатах пошуку за ключовими словами іншими мовами. Це безкоштовний трафік, який ви отримуєте просто за наявність тексту.

4. Як ми це робимо (AI-Workflow)

Раніше переклад і синхронізація займали години. Сьогодні це частина нашого ШІ-конвеєра:

CapCut Auto Captions: Створює базу українською за секунди.

YouTube Auto-Sync: Ми просто «згодовуємо» йому чистий текст перекладу, а ШІ сам розставляє його по таймлайну, слухаючи голос Мавки.

Двомовність: Для Shorts ми плануємо використовувати «Hardsubs» (впаяні в відео) українською для стилю, та «Softsubs» (через кнопку CC) англійською для глобального охоплення.

А ви використовуєте субтитри у своїх роликах, чи вважаєте це зайвим шумом? Пишіть у коментарях! 👇

Sunday, 5 April 2026

Проблема з наголосами в TTS

Всім привіт.

Відома проблема з наголосами в українській мові - це «класика» для нейромереж, особливо тих, що базуються на ElevenLabs або закордонних моделях. Вони часто плутають українські наголоси з російськими або просто ставлять їх випадково.

Наприклад щоб моя віртуальна Мавка заговорила правильно, нам потрібно застосувати метод «фонетичного підказування».

Ось три секретних способи, як змусити ШІ ставити наголоси вірно:

1. Метод Великої Літери (найкращий для ElevenLabs/Flow)

ШІ сприймає велику літеру всередині слова як сигнал до наголосу.

Замість: Львові — пиши: ЛьвОві

Замість: справжні — пиши: спрАвжні

2. Метод подвійних голосних

Якщо велика літера не допомагає, можна подвоїти наголошену голосну.

Наприклад: спрААвжні, ЛьвООві.

3. Фонетичне написання

Іноді слова треба писати так, як вони чуються, а не як пишуться.

Наприклад: «15 століття» краще написати словами: «п'ятнАдцятого столІття».

🎤 Підсумковий голосовий скрипт (Full Script) для Мавки з розставленими наголосами:

"ДрУзі, я реАльно у ЛьвОві... Але зАраз тИсяча чотириста двадцятий рік! Ви тІльки глЯньте на ці стіни, вони спрАвжні! Тут пАхне багАттям, свІжим хлІбом і кОнями. Все тАке шУмне й живЕ, я нІби всередИні фІльму! ДивІться! ЗАраз почнЕться лИцарський турнІр. Я стоЮ прЯмо бІля огорОжі, це прОсто неймовІрно! Ой! Спис прОсто вибУхнув на шматОчки! Це булО занАдто блИзько, мені лЕдь по головІ не прилетІло! Львів п'ятнАдцятого столІття... це булО шАлено. ПорА повертАтися домОю, покИ мене не прийнялІ за вІдьму."


Додаткові поради для Flow:

Розділові знаки: Став більше ком (,) та крапок (...) там, де Мавка має зробити вдих. Це дає моделі час «подумати» над наступним словом.

Спробуй Dash (-): Якщо слово «Львові» все одно не виходить, напиши: ЛьвО-ві. Дефіс змушує ШІ розділити слово на склади і краще акцентувати наголос.

Stability (Стабільність): Якщо наголоси «пливуть», підніми Stability до 75-80%. Це зробить голос менш емоційним, але набагато точнішим у вимові.

Спробуй цей варіант з ВЕЛИКИМИ літерами - зазвичай це вирішує проблему на 90%! 🚀🇺🇦🌆

Wednesday, 25 March 2026

3D в Windows - це пастка для новачка!

Привіт.

З'явилося в мене бажання зробити свій талісман в 3D. Я не дока в цьому тому біс мене смикнув довідатися що є штатний 3D в самій Windows.)) Ви не знали? А він є. Ок, далі пишу як то було, а було весело та нервово.

Вступ: "3D? Так це ж навіть у Windows є!"

Знайома ситуація? Ви відкриваєте "Пуск" в Windows , вводите "3D" і бачите купу красивих іконок: Paint 3D, 3D Builder, 3D Viewer. Очі загоряються! Здається, що Microsoft уже все вам приготувала: "О, круто, зараз візьму фото свого дракона, натисну дві кнопки - і вуаля, ось тобі готова 3D-модель для друку!"

Ви завантажуєте, натискаєте, намагаєтесь "витиснути" об'єм із плоского зображення. І ось тут починається найцікавіше. Замість творчого польоту ви потрапляєте в кролячу нору, де кнопки зникають, функції імпорту не працюють, а нейромережі (за версією корпорації) мають перетворити ваш малюнок на "об'ємне печиво".

Чому так відбувається? Виявляється, ці інструменти - це не професійна студія (з якого дива?) і навіть не базовий редактор. Це "спадщина" маркетингового хайпу 2017 року, яку Microsoft тихо "поховала", не видаливши з системи. У цій доповіді я чесно розповім про свій досвід: як я намагався змусити "штатні" інструменти Windows зробити справжню 3D-модель і чому це виявилося найгіршим способом витратити вечір.

Friday, 20 March 2026

Код да Вінчі - невідома версія.

Пролог роману "Код да Вінчі".

(Відтворений з ранніх чернеток)

Роберт Ленгдон щільніше запахнув свій незмінний твідовий піджак, захищаючись від вогкого паризького вітру. Повітря над набережною Сени давно втратило свій справжній смак. Він ішов старою бруківкою, свідомо наступаючи важко, щоб відчувати, як підошви його мокасинів чіпляються за камінь. Сіра вода праворуч, яка століттями відбивала бліде сонце і надихала тисячі художників, тепер слугувала лише дзеркалом для нескінченних голографічних проекцій. Вдалині, крізь штучний смог, ледь проступало ажурне мереживо Ейфелевої вежі -іржавого скелета епохи, коли метал ще мав вагу, а інженерія слухняно підкорялася законам фізики.

Як фахівець із релігійної симфології, Ленгдон звик читати світ як відкриту книгу. Але сьогодні цей світ його лякав.

Повз нього пройшла жінка: її хода була бездоганною -жодної асиметрії, властивої втомленій людині. Вона повертала голову так плавно, ніби її рух розрахував оптичний стабілізатор. Вона виглядала так, як виглядали б люди, якби їх створювали виключно для збирання схвальних реакцій у глобальній мережі. Ленгдон із сумом усвідомив: еволюція символів зайшла в глухий кут. Люди почали наслідувати те, що роками споживали з екранів. Світ перетворився на суцільну вітрину синтетичних станів, а алгоритми вчилися на їхніх же викривлених фантазіях. Колесо замкнулося.

Він прямував до величезного, потемнілого від часу колишнього королівського палацу. Жак Соньєр, куратор Лувру, залишив йому термінове повідомлення: "Роберте, прийди після закриття до Експериментального крила. Ти маєш побачити, як помирає наша професія".

Важкі дубові двері службового входу піддалися не одразу, відчинившись із глибоким, природним скрипом дерева. Ленгдон переступив поріг, залишаючи стерильний паризький кібер-пейзаж позаду.

Кроки професора лунко відбивалися від стародавнього паркету. Велика Галерея дихала запахом лляної олії та терпінням віків. Ленгдон уповільнив крок біля полотен да Вінчі та Караваджо. Тут кожна лінія мала вагу, кожна тінь була народжена глибоким розумінням людського страждання. Для нього, симфолога, це був рай: кожен жест на картині, кожна квітка чи нахил голови містили намір. Це був діалог крізь століття, зашифрований генієм.

Але Соньєр запросив його не сюди. Ленгдон звернув убік, штовхнув важкі матові двері Експериментального крила і завмер.

Це був розрив у самому просторі. У Залі Генерацій не було стін у звичному розумінні -їх замінювали безшовні вертикальні дисплеї, що випромінювали холодне, неземне світло.

На центральному екрані височіла гігантська цифрова фреска, стилізована під Високе Відродження. Вона була неймовірно, сліпуче красивою. У центрі композиції стояла фігура в пурпурних мантіях, оточена армією янголів та геометричними фігурами. Світло падало на її обличчя з драматизмом, якому б позаздрив сам Рембрандт.

Професійний інстинкт Ленгдона спрацював миттєво. Його мозок, натренований роками в архівах Ватикану та Гарварду, почав жадібно розшифровувати послання.

"Так... пурпурний колір -влада. Позиція рук... складені у формі чаші -це жіноче начало, Святий Грааль," -подумки аналізував Роберт, підходячи ближче. -"А на задньому плані ідеальний додекаедр. Платонівський символ Всесвіту!"

Його серце забилося швидше. Фреска здавалася неймовірно глибокою, переповненою масонськими, християнськими та язичницькими кодами. Він примружився, намагаючись прочитати стародавній пергамент, який тримав один із янголів унизу.

І раптом Ленгдон відчув, як по його спині пробіг крижаний холод.

Він підійшов упритул до екрана. Літери на пергаменті здавалися латиною. У них були засічки, вигини, класичні пропорції римського шрифту. Але... це були не літери. Це була лише безглузда імітація форм. Гачки та лінії, які не складалися в жоден алфавіт світу. Щось не писало текст, воно просто згенерувало візуальний образ тексту.

Професор перевів погляд на руки центральної фігури. Ті самі руки, які він щойно прийняв за символ Грааля. Пальці перепліталися між собою неможливим, жахливим чином. Їх було 6. Вони плавно вростали один в одного, не маючи ні суглобів, ні кісток. Це не був прихований масонський знак. Це була статистична помилка алгоритму, який не знав анатомії, а лише підбирав найбільш імовірні сусідні пікселі.

Ленгдон відсахнувся, ніби від удару.

Версия на печать

Популярное