Вчера прошла презентация Google I/O, и для всех, кто крутится в мире GenAI, главное событие это новая модель Gemini Omni.
Информация от Нейрографа.
Что это и как работает.
Берёшь любое фото или видео из галереи, говоришь текстом или голосом что хочешь получить, модель делает. Без отдельных программ, без сложных настроек.
Дальше каждая следующая фраза наслаивается на результат: меняешь мелкие детали или перекраиваешь сцену целиком, не начиная с нуля.
Модель понимает физику и последствия запросов, можно крутить ракурс, окружение, стиль, действие, добавлять персонажей и объекты.
Сегодня вышла версия Omni Flash. Старшая Pro обещана позже, по той же схеме, что и с Nano Banana.
Про фишки.
1) Аудио и картинка.
Генерируются за один проход. Раньше у Google под звук шёл отдельный этап.
Omni выдаёт изображение и пространственный звук вместе: шаги попадают в момент приземления ноги, реплики ложатся в губы, фоновый шум комнаты держится сценой.
Если это работает так, как описывают, отпадает половина пост-продакшна.
2) Повторяемый каст персонажей.
Создаёшь героя с нуля по текстовому промпту или по референсному изображению, привязываешь к нему голос под характер, и потом вызываешь его в любой новый кадр через @имя_персонажа.
Полная визуальная и голосовая согласованность сцена к сцене. То, об что спотыкались все, от Sora до Seedance.
3) Аватары.
Платным подписчикам открыли экспериментальную функцию Аватар.
Регистрируешь свой аватар, добавляешь своё лицо и свой голос, и потом подставляешь себя в любые свои проекты. По сути, это твой собственный персонаж в общей системе каста, которого можно вызывать в кадр так же, как любого другого героя через @имя. Для тех, кто делает контент от первого лица, это закрывает огромную боль: не надо больше снимать себя на камеру под каждый ролик.





