Привіт привіт.
Я вчора глянув що в мене з Gemini Flash TTS все більше і більше роботи. А інтерфейс там хоча і зрозумілий, але не вельми комфортний. Тому сталося передбачуване - я створив свій VoxDirector.
VoxDirector - це потужний веб-додаток для створення високоякісної озвучки за допомогою моделі Gemini Flash TTS.
Нижче наведено повний перелік функцій та можливостей додатку:
🎙️ Основні можливості генерації
* Контекстна генерація: Озвучка створюється не лише на основі тексту, а й з урахуванням навколишнього середовища (Scene) та емоційного стану спікера (Sample Context).
* Система пресетів (Шаблони): Швидкий вибір налаштувань для типових сценаріїв:
* *YouTube Intro* (Яскрава, енергійна атмосфера)
* *Podcast Dialogue* (Спокійна, студійна бесіда)
* *Emotional Storytelling* (Глибока, рефлекторна подача)
* *Corporate Presentation* (Впевнений, професійний тон)
🎛️ Налаштування голосу
* Вибір диктора (Voices): Шість унікальних голосів на вибір: *Puck, Charon, Kore, Fenrir, Zephyr, Aoede*.
* Емоційні стилі (Styles): Можливість задати загальний настрій: *Empathetic (за замовчуванням), Vocal Smile, Newscaster, Whisper, Promo/Hype, Deadpan*.
* Швидкість (Pace): Плавне регулювання швидкості читання від 0.5x (повільно) до 2.0x (швидко).
✨ Спеціальні фічі
* Auto-Stress (Інтелектуальні наголоси 🪄): Автоматичне переформатування тексту для ідеальної фонетики. Використовує під капотом Gemini 2.5 Flash як "лінгвіста", котрий знаходить слова з неоднозначним наголосом та капіталізує потрібні голосні літери для правильної вимови будь-якою мовою.
* Естіматор хронометражу (Estimated Length ⏱️): Алгоритм у реальному часі аналізує кількість слів диктора, розставлені паузи (`...`, `-`) та множник швидкості (Pace), аби показати вам приблизну довжину майбутнього аудіо ще до його генерації!
* Голосове введення (Dictate / Speech-to-Text): Надиктовуйте текст скрипта власним голосом.
* Використовує вбудовану в браузер систему розпізнавання мови (найкраще працює в Chrome/Edge).
* *Схвалення приватності:* Дозвіл до мікрофона запитується браузером виключно після першого натискання на кнопку "Dictate".
* Імпорт та Експорт проектів (.json):
* Export: Зручне збереження всіх поточних налаштувань (текст, сцена, голос тощо) у локальний файл `voxdirector-[timestamp].json`.
* Import: Завантаження раніше збереженого конфігу для швидкого відновлення робочого простору.
🎭 Режисура тексту (Audio Tags & Punctuation)
Спеціальне меню-довідник (кнопка `i`) містить інструкції з "режисури" тексту для Gemini Flash TTS:
* Інлайн-теги: Використання тегів типу `[laughs]`, `[whispers]`, `[sighs]`, `[crying]`, `[enthusiasm]`, `[neutral]` прямо всередині речень для зміни емоції "на льоту".
* Чутливість до пунктуації та регістра (Punctuation & Stress):
* `...` (Трикрапка) - створює природну паузу для вдиху або драматичного ефекту.
* `-` (Тире) - змушує модель зробити логічний акцент на наступному слові.
* `!` (Оклик) - піднімає висоту голосу (pitch) наприкінці речення.
* Наголос (Syllable Stress): Використання великої літери голосної всередині слова математично переносить туди фонетичний наголос (напр. `МожлИво`, `зОкрема`).
🎧 Керування та Інтерфейс
* Аудіоплеєр: Миттєве прослуховування згенерованого результату в браузері.
* Завантаження результату: Кнопка `Download` для збереження готової озвучки у форматі `voxdirector-[timestamp].wav` на комп'ютер.
* Перемикач тем: Підтримка Світлої та Темної(Dark) теми для комфортної роботи.
* Інтерактивні підказки (Tooltips): Всі елементи інтерфейсу мають вбудовані підказки, які з'являються при наведенні курсору.
No comments:
Post a Comment
А что вы думаете по этому поводу?