А АWednesday, 22 April 2026

VoxDirector - ваша AI Voiceover Studio

Привіт привіт.

Я вчора глянув що в мене з Gemini Flash TTS все більше і більше роботи. А інтерфейс там хоча і зрозумілий, але не вельми комфортний. Тому сталося передбачуване - я створив свій VoxDirector.

VoxDirector - це потужний веб-додаток для створення високоякісної озвучки за допомогою моделі Gemini Flash TTS. 


Нижче наведено повний перелік функцій та можливостей додатку:

 🎙️ Основні можливості генерації

* Контекстна генерація: Озвучка створюється не лише на основі тексту, а й з урахуванням навколишнього середовища (Scene) та емоційного стану спікера (Sample Context).

* Система пресетів (Шаблони): Швидкий вибір налаштувань для типових сценаріїв:

  * *YouTube Intro* (Яскрава, енергійна атмосфера)

  * *Podcast Dialogue* (Спокійна, студійна бесіда)

  * *Emotional Storytelling* (Глибока, рефлекторна подача)

  * *Corporate Presentation* (Впевнений, професійний тон)


 🎛️ Налаштування голосу

* Вибір диктора (Voices): Шість унікальних голосів на вибір: *Puck, Charon, Kore, Fenrir, Zephyr, Aoede*.

* Емоційні стилі (Styles): Можливість задати загальний настрій: *Empathetic (за замовчуванням), Vocal Smile, Newscaster, Whisper, Promo/Hype, Deadpan*.

* Швидкість (Pace): Плавне регулювання швидкості читання від 0.5x (повільно) до 2.0x (швидко).


 ✨ Спеціальні фічі

* Auto-Stress (Інтелектуальні наголоси 🪄): Автоматичне переформатування тексту для ідеальної фонетики. Використовує під капотом Gemini 2.5 Flash як "лінгвіста", котрий знаходить слова з неоднозначним наголосом та капіталізує потрібні голосні літери для правильної вимови будь-якою мовою.

* Естіматор хронометражу (Estimated Length ⏱️): Алгоритм у реальному часі аналізує кількість слів диктора, розставлені паузи (`...`, `-`) та множник швидкості (Pace), аби показати вам приблизну довжину майбутнього аудіо ще до його генерації!

* Голосове введення (Dictate / Speech-to-Text): Надиктовуйте текст скрипта власним голосом. 

  * Використовує вбудовану в браузер систему розпізнавання мови (найкраще працює в Chrome/Edge).

  * *Схвалення приватності:* Дозвіл до мікрофона запитується браузером виключно після першого натискання на кнопку "Dictate".

* Імпорт та Експорт проектів (.json):

  * Export: Зручне збереження всіх поточних налаштувань (текст, сцена, голос тощо) у локальний файл `voxdirector-[timestamp].json`.

  * Import: Завантаження раніше збереженого конфігу для швидкого відновлення робочого простору.


 🎭 Режисура тексту (Audio Tags & Punctuation)

Спеціальне меню-довідник (кнопка `i`) містить інструкції з "режисури" тексту для Gemini Flash TTS:

* Інлайн-теги: Використання тегів типу `[laughs]`, `[whispers]`, `[sighs]`, `[crying]`, `[enthusiasm]`, `[neutral]` прямо всередині речень для зміни емоції "на льоту".

* Чутливість до пунктуації та регістра (Punctuation & Stress):

  * `...` (Трикрапка) - створює природну паузу для вдиху або драматичного ефекту.

  * `-` (Тире) - змушує модель зробити логічний акцент на наступному слові.

  * `!` (Оклик) - піднімає висоту голосу (pitch) наприкінці речення.

  * Наголос (Syllable Stress): Використання великої літери голосної всередині слова математично переносить туди фонетичний наголос (напр. `МожлИво`, `зОкрема`).


 🎧 Керування та Інтерфейс

* Аудіоплеєр: Миттєве прослуховування згенерованого результату в браузері.

* Завантаження результату: Кнопка `Download` для збереження готової озвучки у форматі `voxdirector-[timestamp].wav` на комп'ютер.

* Перемикач тем: Підтримка Світлої та Темної(Dark) теми для комфортної роботи.

* Інтерактивні підказки (Tooltips): Всі елементи інтерфейсу мають вбудовані підказки, які з'являються при наведенні курсору.


No comments:

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное