Wednesday, 22 April 2026

VoxDirector - ваша AI Voiceover Studio

Привіт привіт.

Я вчора глянув що в мене з Gemini Flash TTS все більше і більше роботи. А інтерфейс там хоча і зрозумілий, але не вельми комфортний. Тому сталося передбачуване - я створив свій VoxDirector.

VoxDirector - це потужний веб-додаток для створення високоякісної озвучки за допомогою моделі Gemini Flash TTS. 


Нижче наведено повний перелік функцій та можливостей додатку:

 🎙️ Основні можливості генерації

* Контекстна генерація: Озвучка створюється не лише на основі тексту, а й з урахуванням навколишнього середовища (Scene) та емоційного стану спікера (Sample Context).

* Система пресетів (Шаблони): Швидкий вибір налаштувань для типових сценаріїв:

  * *YouTube Intro* (Яскрава, енергійна атмосфера)

  * *Podcast Dialogue* (Спокійна, студійна бесіда)

  * *Emotional Storytelling* (Глибока, рефлекторна подача)

  * *Corporate Presentation* (Впевнений, професійний тон)


 🎛️ Налаштування голосу

* Вибір диктора (Voices): Шість унікальних голосів на вибір: *Puck, Charon, Kore, Fenrir, Zephyr, Aoede*.

* Емоційні стилі (Styles): Можливість задати загальний настрій: *Empathetic (за замовчуванням), Vocal Smile, Newscaster, Whisper, Promo/Hype, Deadpan*.

* Швидкість (Pace): Плавне регулювання швидкості читання від 0.5x (повільно) до 2.0x (швидко).

Monday, 20 April 2026

Gemini Flash TTS Preview - як приборкати дракона.

Привіт усім.

Gemini Flash TTS Preview, або як приборкати нейромережевий голос для свого контенту? 🎙️✨

Нещодавно ми протестували можливості Gemini Flash TTS Preview у ролі професійного диктора. Використовуючи персонажа Kore для озвучення трейлера «Мавка: Travel Blog», ми виявили, що це не просто генератор мовлення, а повноцінний інструмент для саунд-дизайну.

Ось глибокий розбір того, як змусити ШІ звучати як голлівудська зірка та правильно працювати з українською фонетикою.

1. Лінгвістичний хакінг: Боротьба за правильний наголос

Головний виклик для мультимовної моделі (як-от Kore) — це рухомий український наголос. Оскільки модель тренувалася на мільярдах токенів, де домінує англійська мова, вона часто намагається «спростити» українську вимову.

Як ми вирішили цю проблему:

Реєстрове керування: Найкращий спосіб змусити модель наголосити потрібний склад — написати голосну ВЕЛИКОЮ літерою. Наприклад: МільЯрди секУнд... тИсячі епОх. Це спрацьовує як тригер для посилення інтонації.

Пунктуаційна драматургія: Gemini Flash TTS Preview надзвичайно чутлива до розділових знаків.

... (трикрапка) — створює природну паузу для вдиху або драматичного ефекту.

— (тире) — змушує модель зробити логічний акцент на наступному слові.

! (оклик) — піднімає висоту голосу (pitch) наприкінці речення.

Фонетична адаптація: Якщо слово звучить «роботизовано», ми пишемо його так, як воно має чутися. Наприклад, якщо модель ковтає закінчення, можна спробувати розділити слово дефісом або додати «невидимі» літери для подовження звуку.

Saturday, 11 April 2026

Ваше відео німе без SRT.

Привіт.

Чому ваші відео «німі» без SRT або як відкрити Mavka Travel для всього світу?

Поки наша Мавка заряджає свої неонові коси, а я шукаю нові «кредити» для рендерів, хочу поділитися з вами одним технічним усвідомленням. Ми всі ганяємося за ідеальною картинкою та плавними рухами ШІ, але часто забуваємо про інструмент, який здатний подвоїти (або навіть подесятерити) охоплення вашого контенту.


Мова про мультимовні субтитри (SRT).

Якщо ви думаєте, що це просто «текст на екрані для тих, хто погано чує», — ви втрачаєте 80% потенціалу своїх відео. Ось чому для нашого проєкту Mavka Travel Vlog ми впроваджуємо роботу з субтитрами як стандарт.

1. Глобальний ринок: Мавка не має кордонів

Стиль Cyber-Ethno, який ми створили, — універсальний. Він однаково заворожує глядача як у Києві, так і в Токіо чи Нью-Йорку. Але якщо глядач не розуміє емоційну репліку Мавки про «базарний сміх» або зустріч із Т-Рексом, він просто проскролить далі. Англійська, іспанська або німецька доріжка в форматі .srt робить вашу локальну історію зрозумілою для мільярдів.

2. Секрет «тихого» перегляду

Статистика невблаганна: близько 80% користувачів дивляться Shorts та Reels у громадських місцях без звуку. Якщо у вашому відео немає субтитрів, для такої аудиторії воно стає просто набором картинок без сенсу. Субтитри «вмикають» звук у голові глядача навіть при вимкненому динаміку.

3. SEO: Розмова з алгоритмом

YouTube — це величезна пошукова система. Алгоритми не вміють (поки що) ідеально «дивитися» відео, але вони чудово вміють читати. Коли ви завантажуєте окремий файл .srt, YouTube індексує кожне слово. Ваше відео починає з’являтися в результатах пошуку за ключовими словами іншими мовами. Це безкоштовний трафік, який ви отримуєте просто за наявність тексту.

4. Як ми це робимо (AI-Workflow)

Раніше переклад і синхронізація займали години. Сьогодні це частина нашого ШІ-конвеєра:

CapCut Auto Captions: Створює базу українською за секунди.

YouTube Auto-Sync: Ми просто «згодовуємо» йому чистий текст перекладу, а ШІ сам розставляє його по таймлайну, слухаючи голос Мавки.

Двомовність: Для Shorts ми плануємо використовувати «Hardsubs» (впаяні в відео) українською для стилю, та «Softsubs» (через кнопку CC) англійською для глобального охоплення.

А ви використовуєте субтитри у своїх роликах, чи вважаєте це зайвим шумом? Пишіть у коментарях! 👇

Sunday, 5 April 2026

Проблема з наголосами в TTS

Всім привіт.

Відома проблема з наголосами в українській мові - це «класика» для нейромереж, особливо тих, що базуються на ElevenLabs або закордонних моделях. Вони часто плутають українські наголоси з російськими або просто ставлять їх випадково.

Наприклад щоб моя віртуальна Мавка заговорила правильно, нам потрібно застосувати метод «фонетичного підказування».

Ось три секретних способи, як змусити ШІ ставити наголоси вірно:

1. Метод Великої Літери (найкращий для ElevenLabs/Flow)

ШІ сприймає велику літеру всередині слова як сигнал до наголосу.

Замість: Львові — пиши: ЛьвОві

Замість: справжні — пиши: спрАвжні

2. Метод подвійних голосних

Якщо велика літера не допомагає, можна подвоїти наголошену голосну.

Наприклад: спрААвжні, ЛьвООві.

3. Фонетичне написання

Іноді слова треба писати так, як вони чуються, а не як пишуться.

Наприклад: «15 століття» краще написати словами: «п'ятнАдцятого столІття».

🎤 Підсумковий голосовий скрипт (Full Script) для Мавки з розставленими наголосами:

"ДрУзі, я реАльно у ЛьвОві... Але зАраз тИсяча чотириста двадцятий рік! Ви тІльки глЯньте на ці стіни, вони спрАвжні! Тут пАхне багАттям, свІжим хлІбом і кОнями. Все тАке шУмне й живЕ, я нІби всередИні фІльму! ДивІться! ЗАраз почнЕться лИцарський турнІр. Я стоЮ прЯмо бІля огорОжі, це прОсто неймовІрно! Ой! Спис прОсто вибУхнув на шматОчки! Це булО занАдто блИзько, мені лЕдь по головІ не прилетІло! Львів п'ятнАдцятого столІття... це булО шАлено. ПорА повертАтися домОю, покИ мене не прийнялІ за вІдьму."


Додаткові поради для Flow:

Розділові знаки: Став більше ком (,) та крапок (...) там, де Мавка має зробити вдих. Це дає моделі час «подумати» над наступним словом.

Спробуй Dash (-): Якщо слово «Львові» все одно не виходить, напиши: ЛьвО-ві. Дефіс змушує ШІ розділити слово на склади і краще акцентувати наголос.

Stability (Стабільність): Якщо наголоси «пливуть», підніми Stability до 75-80%. Це зробить голос менш емоційним, але набагато точнішим у вимові.

Спробуй цей варіант з ВЕЛИКИМИ літерами - зазвичай це вирішує проблему на 90%! 🚀🇺🇦🌆

Wednesday, 25 March 2026

3D в Windows - це пастка для новачка!

Привіт.

З'явилося в мене бажання зробити свій талісман в 3D. Я не дока в цьому тому біс мене смикнув довідатися що є штатний 3D в самій Windows.)) Ви не знали? А він є. Ок, далі пишу як то було, а було весело та нервово.

Вступ: "3D? Так це ж навіть у Windows є!"

Знайома ситуація? Ви відкриваєте "Пуск" в Windows , вводите "3D" і бачите купу красивих іконок: Paint 3D, 3D Builder, 3D Viewer. Очі загоряються! Здається, що Microsoft уже все вам приготувала: "О, круто, зараз візьму фото свого дракона, натисну дві кнопки - і вуаля, ось тобі готова 3D-модель для друку!"

Ви завантажуєте, натискаєте, намагаєтесь "витиснути" об'єм із плоского зображення. І ось тут починається найцікавіше. Замість творчого польоту ви потрапляєте в кролячу нору, де кнопки зникають, функції імпорту не працюють, а нейромережі (за версією корпорації) мають перетворити ваш малюнок на "об'ємне печиво".

Чому так відбувається? Виявляється, ці інструменти - це не професійна студія (з якого дива?) і навіть не базовий редактор. Це "спадщина" маркетингового хайпу 2017 року, яку Microsoft тихо "поховала", не видаливши з системи. У цій доповіді я чесно розповім про свій досвід: як я намагався змусити "штатні" інструменти Windows зробити справжню 3D-модель і чому це виявилося найгіршим способом витратити вечір.

Версия на печать

Популярное