А АFriday, 20 June 2025

Розумне використання Veo 3.

Привіт привіт.

Наскільки Veo 3 наробила шуму настільки треба вміти нею користуватися. Так, вона досі не безкоштовна, але Google обіцяє модель Veo 3 Fast за помірними цінами або навіть з trial періодом. То ж до діла.

Оригінал англійською цієї статті знайдете тут.

Veo 3 від Google генерує відео зі звуком на основі текстових підказок. Аудіо може бути діалогом, закадровим голосом, звуковими ефектами та музикою.

Напишіть, що саме відбувається

Спочатку основи. Добре складена підказка – це ключ до створення хороших відео. Чим більше ви можете вказати у своїй підказці простою мовою, тим легше Veo 3 зрозуміти та створити потрібне вам відео.

Спробуйте включити ці візуальні елементи у своє завдання:

  • Тема: Хто або що зображено на сцені — людина, тварина, предмет або пейзаж.
  • Контекст: Де знаходиться об'єкт зйомки? У приміщенні? На міській вулиці? У лісі?
  • Дія: Чи ходить, стрибає, повертає голову ваш об'єкт?
  • Стиль: Візуальна естетика, до якої ви прагнете (кінематографічна, анімована, покадрова анімація тощо).
  • Рух камери: Опишіть, як рухається камера: з висоти пташиного польоту, на рівні очей, зверху вниз або з нижнього ракурсу.
  • Композиція: Як кадровано кадр: ширококутний план, крупний план тощо.
  • Атмосфера: Настрій та освітлення. Ви можете сказати щось на кшталт «теплі тони», «синє світло» або «ніч».

Також потрібно включити аудіоелементи, які ми розглянемо детальніше нижче.

Ось приклад порівняння простого та детального підказки:

«A man answers a rotary phone“

 Проти:

“A shaky dolly zoom goes from a far away blur to a close-up cinematic shot of a desperate man in a weathered green trench coat as he picks up a rotary phone mounted on a gritty brick wall, bathed in the eerie glow of a green neon sign. The zoom reveals the tension and the desperation etched on his face as he struggles to talk on the phone. The shallow depth of field focuses on his furrowed brow and the black rotary phone, blurring the background into a sea of neon colors and indistinct shadows, creating a sense of urgency and isolation.“

Друга підказка містить структурні елементи для підштовхування Veo 3 до сцени, яку ми намагаємося створити.


Змінюйте підказку щоразу

Якщо ви знайомі з моделями підказок, такими як Midjourney або Flux , ви знаєте, що з цими моделями ви отримаєте пристойний рівень варіації, якщо запустите ту саму підказку кілька разів (тобто використовуючи різні початкові значення).

Veo 3 відрізняється. Для того самого запиту, навіть досить простого, Veo 3 видасть дуже схожі результати. Ви можете отримати таку саму людину в тому ж одязі, в подібному місці. Це чудово, якщо у вас був вихідний результат з невеликою помилкою, наприклад, збоєм когерентності або звуку – ви можете запустити інше початкове значення та отримати те, що хочете. Але якщо ви перебуваєте в режимі дослідження, коли хочете побачити діапазон можливих варіантів, то запуск того самого запиту кілька разів – це марна трата грошей.

У наведеному нижче прикладі ми двічі виконали запит «жінка сміється» з різними початковими значеннями. Зверніть увагу, що вона виглядає однаково, вона носить той самий одяг, вона сміється однаково, кімната та сама, вона навіть носить ті самі сережки.

Для моделі незвично бути настільки послідовною.

Якщо ви ще не впевнені, чого хочете, почніть з кількох різних підказок. Якщо ви знаєте елементи того, чого хочете, то будьте конкретними щодо них.

У цьому відео очевидні речі, які ми могли б зробити, це почати експериментувати з описами для:

як виглядає жінка (колір волосся, зачіска, колір шкіри) що вона носить де вона як вона сміється чому вона сміється

Ось кілька прикладів:

Жінка довго та голосно сміється, вона на офісній нараді, і їй потім ніяково.

Жінка тихо сміється, вона вдома дивиться телевізор.


Підтримуйте узгодженість персонажів

Зазвичай, узгодженість персонажів є складною, коли ви використовуєте відеомодель без початкового кадру або інгредієнтів сцени. Ці функції незабаром з'являться у Veo 3.

Тим часом, оскільки схожі підказки дають схожих персонажів, якщо ви будете зберігати детальний опис персонажа в підказці однаковим протягом поколінь, ви часто отримаєте когось, хто виглядає однаково. Це означає, що ви можете вести список описів персонажів і повторювати їх дослівно в різних підказках:

“John, a man in his 40s with short brown hair, wearing a blue jacket and glasses, looking thoughtful”

Чим унікальніші та конкретніші ці описи, тим краще Veo 3 підтримує візуальну безперервність між окремо згенерованими сценами. Створюйте аркуші з довідками про персонажів із точними формулюваннями, щоб забезпечити узгодженість.

Джон, чоловік років сорока з коротким каштановим волоссям, у синій куртці та окулярах, задумливо виглядає, і каже: «Привіт, мене теж звати Джон, і я виглядаю приблизно так само, як той хлопець он там (без субтитрів!)». Він стоїть у яскраво освітленій кімнаті.

Джон, чоловік років 40 з коротким каштановим волоссям, у синій куртці та окулярах, задумливо виглядає, і каже: «Привіт, мене звати Джон, я персонаж, вигаданий для цього допису в блозі» (без субтитрів!).

Аудіопідказки

Оскільки Veo 3 генерує аудіо з кожним відео, вам також потрібно запитувати аудіо, яке ви хочете прослухати. Враховуйте такі елементи:

  • Що люди кажуть (діалог)
  • Навколишній шум сцени (звуки жвавої вулиці, жвавого офісу, жвавого кафе тощо)
  • Звукові ефекти або шуми ззовні сцени (наприклад, дзвінок телефону)
  • Будь-яка музика, яка може знадобитися для сцени (напружений кінематографічний саундтрек, весела поп-пісня тощо).


Заохочення діалогів та уникнення субтитрів

Персонажі, яких ви можете створювати за допомогою Veo 3, захоплюють. Вони розмовляють, розповідають жарти, жестикулюють, іноді можуть і грати. Але якщо ви хочете, щоб вони говорили, вам потрібно їх до цього підказати.

Ви можете стимулювати діалог двома різними способами:

  • Прямо: «Хлопець каже: Мене звати Бен»
  • Неявно: «Хлопець називає нам своє ім'я»

Обидва варіанти призведуть до відео, де хлопець розмовляє. Перший варіант міститиме саме ті слова, які ви просили, другий дозволить моделі вирішити, як це сказати, у цьому випадку модель сама вирішить, яке ім'я вам дасть.


Написання власного діалогу

Якщо ви чітко пояснюєте, що саме йдеться, намагайтеся бути коротким. Це має бути щось, що можна сказати приблизно за 8 секунд.

Якщо ви спробуєте втиснути забагато інформації, то можете отримати персонажа, який говорить надто швидко. Якщо ж попросити його сказати замало, то можете отримати або незручне мовчання, або персонажа, який буде говорити безглузду тарабарщину від штучного інтелекту (як у другому прикладі нижче). Без чітких вказівок модель не зможе скласти всі необхідні слова.

Джон, чоловік років сорока з коротким каштановим волоссям, у синій куртці та окулярах, задумливо виглядає, і каже: «Ви дали мені дуже довге завдання, і мені доводиться говорити дуже швидко та неприродно, щоб спробувати вмістити всі ці слова лише у 8 секунд. Я задихаюся до кінця, фух».

Занадто короткий (і з тарабарщиною ШІ): Джон, чоловік років 40 з коротким каштановим волоссям.

Дозволити Veo 3 написати сценарій для діалогів

Якщо ви не вмієте добре писати діалоги, вам допоможуть неявні підказки до діалогів. І ви завжди можете транскрибувати потрібні вам результати для використання в наступних підказках.

Тут ми просимо Veo 3 створити відео, де стендап-комік розповідає жарт. Спочатку ми дозволяємо Veo 3 вирішити, який жарт він хоче вибрати. У другому відео ми просимо Veo 3 спробувати передати жарт, який ми вказали в підказці.

у синій куртці та окулярах, задумливо виглядає, він каже: Привіт, я Джон.

Стендап-комік розповідає незграбний жарт на музичному фестивалі, звуки далеких гуртів,

галасливий натовп, фонове середовище жвавого фестивального поля (без студійної аудиторії) Стендап-комік розповідає незграбний жарт на музичному фестивалі: Знаєте, що чудово в

музичних фестивалях? Спостерігати, як 20 000 людей вдають, що знали цей гурт раніше, знімаючи вертикальні відео, які вони ніколи не подивляться.


Як бачите, за умови правильної підказки та всього відповідного контексту, Veo 3 може заповнити діалог за вас. Деякі підказки, які ви можете спробувати, щоб побачити, наскільки універсальний Veo 3 з діалогами:

стендап-комік розповідає жарт двоє людей обговорюють фільм чоловік сперечається по телефону жінка розповідає нам історію свого життя


Як правильно вимовляти

Іноді ви можете помітити, що модель неправильно вимовляє слова. Найпростіший спосіб вирішити цю проблему – написати слова фонетично. У першому прикладі наш подкастер каже:

“Read on to get fofr and Shridar’s guidance on making videos” 

Але щоб отримати правильну вимову наших імен, нам довелося змінити підказку на:

“Read on to get foh-fur’s and Shreedar’s guidance on making videos”


Хто і що каже

Коли ви починаєте розмову між кількома персонажами, іноді ви можете помітити, що Veo 3 плутає, хто що говорить. Це поширене явище, коли персонажі мають схожі описи, і Veo 3 неоднозначно, який персонаж хто.

Намагайтеся чітко вказати у підказці, хто саме говорить:

“The woman wearing pink says: But I’m the one who’s wearing pink”

“The man with the glasses replies: No, I’m the one with the glasses.”


Уникнення субтитрів в результаті

Veo 3, мабуть, навчався на багатьох відео з вбудованими субтитрами, оскільки дуже часто можна побачити неправильно написані та неправильні субтитри на виході. Вони часто псують покоління, але є кілька простих способів їх уникнути:

  • поставте промову, яку ви хочете почути, після двокрапки, наприклад: «Хлопець каже: Мене звати Бен», а не в лапках, наприклад: «Хлопець каже: «Мене звати Бен» введіть «(без субтитрів)» у запиті, заперечення добре працюють у запитах Veo 3.
  • Якщо нічого не допомагає, продовжуйте кілька разів повторювати "Без субтитрів. Без субтитрів!".


Неправильний фоновий звук (або випадок небажаної студійної аудиторії наживо)

Якщо ви не визначаєте фоновий звук, який хочете чути у своєму відео, тоді Veo 3 має це підібрати. Часто це нормально, але іноді він помиляється. Студійна аудиторія в прямому ефірі – це звичайна галюцинація. Іноді це те, чого ви хочете, як-от фальшивий ситком. Але зазвичай зайвий сміх не пасує до сцени. Veo 3 навіть зробив це, створюючи наведені вище приклади. Ось приклад того, як недоречна студійна аудиторія руйнує ціле покоління:

Приклад небажаного сміху глядачів у студії на задньому плані.

Підказка: «стендап-комік розповідає незграбний жарт на музичному фестивалі».

Найпростіший спосіб уникнути цього – це чітко підказати звук, який ви очікуєте почути. У цьому випадку ми виправили генерацію, додавши «звуки віддалених гуртів, галасливий натовп, фонове оточення жвавого фестивального поля», щоб отримати правильне відчуття на виході.

Музика для підказок

Як і в решті відео, якщо ви хочете, щоб у вашій сцені була музика, вам потрібно включити її в підказку.

Знову ж таки, ви можете бути чіткими та описати жанр, стиль та настрій музики, яку хочете почути. Або ж ви можете бути більш розпливчастими та дозволити Veo 3 вирішити.


Стилі

З коробки Veo 3 зазвичай генерує щось, що виглядає як добре зняте відео з живими діями, наприклад, плавне професійне демо, рекламний ролик або музичний кліп.

Якщо ви хочете уникнути цього, вам потрібно додати стиль до запрошення. Ось кілька прикладів стилів, які Veo 3 вміє генерувати, запрошення виглядає так:

“In the style of [style name]: A bearded man in a flannel shirt and weathered jeans sits cross-legged beside a flickering campfire, its amber light casting soft, dancing shadows across the pine-needle-strewn ground of a quiet forest clearing. Across from him, just beyond the edge of the firelight, stands a massive grizzly bear, calm and still, its fur catching the warm glow, eyes reflecting the flames with eerie intelligence. The two shake hands, like they’re old friends.”

Ви помітите, що змінюється не лише зовнішній вигляд відео, але й те, як рухаються та взаємодіють персонажі.

У кожному з них аудіо залишається дуже схожим, ми не налаштовували його по-різному, і воно не сильно змінилося між різними стилями.


Рух камери

Як і слід було очікувати, як і інші відеомоделі, Veo 3 добре реагує на поширені підказки щодо руху камери. Використовуючи такі терміни, ви можете керувати дією у своєму відео:

  • eye level
  • high angle
  • worms eye
  • dolly shot
  • zoom shot
  • pan shot
  • tracking shot


Стиль селфі

Veo 3 напрочуд добре справляється зі створенням відео селфі, які виглядають справді реалістично. Ми виявили, що певні фрази, здається, постійно розблоковують цю поведінку.

Початок зі слів «Селфі-відео з…» набагато кращий, ніж просто опис людини з камерою.

Зробити руку видимою є ключем до автентичності. Приклад з горилою добре це демонструє: «тримає камеру на відстані витягнутої руки. Його довга, потужна рука чітко видно в кадрі». Саме тому знімок виглядає як справжнє селфі, а не крупний план.

Природний рух очей також дуже допомагає. Приклад Токіо демонструє це, коли «часом дивляться в камеру, перш ніж повернутись, щоб вказати на цікаві кіоски». Така природна поведінка погляду працює краще, ніж прямо вдивлятися в камеру.

Ось два приклади, які показують, як це працює:

“A selfie video of a travel blogger exploring a bustling Tokyo street market. She’s wearing a vintage denim jacket and has excitement in her eyes. The afternoon sun creates beautiful shadows between the vendor stalls. She’s sampling different street foods while talking, occasionally looking into the camera before turning to point at interesting stalls. The image is slightly grainy, looks very film-like. She speaks in a British accent and says: “Okay, you have to try this place when you visit Tokyo. The takoyaki here is absolutely incredible, and the vendor just told me it’s been in his family for three generations.” She ends with a thumbs up.”

“A handheld selfie-style shot, from the point-of-view of a gorilla in a lush jungle. A large silverback gorilla holds the camera at arm’s length. His long, powerful arm is clearly visible in the frame, and his face is perfectly framed. The gorilla says: “I’m just testing out this actually works and I’m going to post it on TikTok later, Essentially it felt cute might delete it later” (lips moving like he’s saying it).”


Фізика

Veo 3 чудово симулює реалістичну фізику, зберігаючи правильний рух та взаємодію, застосовуючи різні стилі. Модель зберігає природний рух об'єктів, гарантуючи, що анімація на основі фізики, така як падіння, підстрибування та плавний рух, залишається фізично точною навіть після трансформації в різні художні стилі.

Збільшення роздільної здатності до 4k та 60 fps

За замовчуванням Veo 3 виводить відео з роздільною здатністю 1280p x 720p. Ми рекомендуємо використовувати Video Upscaler від Topaz Lab, щоб підвищити роздільну здатність ваших відео до 4k та 60 кадрів на секунду.

Заключення

Різниця між нудним відео та чудовим залежить від вашої підказки. З Veo 3 ви не просто описуєте, що відбувається, а й режисуєте сцену. Високоякісні відео поєднуватимуть об'єкт, обстановку, дії, роботу оператора, звук та настрій. Думайте як режисер, і Veo 3 піде за вами.


No comments:

Post a Comment

А что вы думаете по этому поводу?

Версия на печать

Популярное