To nowe narzędzie V2A od Google DeepMind może być ostatnim elementem układanki w przypadku filmów generowanych przez sztuczną inteligencję

To nowe narzędzie V2A od Google DeepMind może być ostatnim elementem układanki w przypadku filmów generowanych przez sztuczną inteligencję

Kiedy ukazał się pierwszy film wygenerowany przez sztuczną inteligencję, nikt nie mógł przypuszczać, że narzędzia AI do generowania wideo osiągną tak daleko w tak krótkim czasie. Jednak dzisiaj mamy niezliczone platformy, które pozwalają użytkownikom generować wysokiej jakości, niezwykle szczegółowe filmy, takie jak Dream Machine Synthesia i Luma AI. To powiedziawszy, nadal istnieje kilka wyzwań, które uniemożliwiają tym narzędziom wejście do głównego nurtu.

Być może największym z nich jest proces generowania dźwięku. Chociaż większość platform do generowania wideo może generować filmy dobrej jakości, są to przeważnie ciche filmy bez dźwięku. Nawet jeśli jest dźwięk, zwykle jest on dodawany osobno i nie spełnia oczekiwań użytkownika.

Na przykład, jeśli odwiedzisz stronę Luma AI Dream Machine, możesz zobaczyć kilka naprawdę imponujących filmów, ale dźwięk, który im towarzyszy, jest dość generyczny i niskiej jakości. Ale to może się zmienić dzięki nowej technologii wideo-audio (V2A) firmy Google.

Obiecuje to udostępnić szerokiej publiczności wysokiej jakości generowanie dźwięku do filmów, co oznacza, że ​​może w końcu umożliwić produkcję filmów generowanych przez sztuczną inteligencję z odpowiednią ścieżką dźwiękową i dźwiękiem, przewyższając wszystkie obecnie produkowane filmy generowane przez sztuczną inteligencję.

Dźwięk generowany przez sztuczną inteligencję dla

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Na czym polega badanie Google DeepMind dotyczące konwersji wideo na dźwięk?

Technologia Video-to-Audio (V2A) opracowana przez Google DeepMind została zaprojektowana do tworzenia ścieżek dźwiękowych do filmów generowanych przez sztuczną inteligencję. Technologia ta umożliwia jednoczesne generowanie obrazu i dźwięku poprzez połączenie podpowiedzi w języku naturalnym z pikselami wideo w celu wygenerowania dźwięków niezależnie od tego, co dzieje się w filmie.

Technologię tę można połączyć z modelami AI używanymi do generowania filmów, takimi jak Veo, i może pomóc w tworzeniu realistycznych dialogów i efektów dźwiękowych wraz z dramatyczną ścieżką dźwiękową pasującą do filmu. Co ważniejsze, nowa technologia V2A nie ogranicza się tylko do filmów generowanych przy użyciu sztucznej inteligencji, ale może być również wykorzystywana do generowania ścieżek dźwiękowych do filmów produkowanych w tradycyjny sposób. Dzięki temu można go używać do niemych filmów, materiałów archiwalnych i nie tylko.

Technologia V2A pozwala użytkownikom generować nieograniczoną liczbę ścieżek dźwiękowych do filmów, a nawet używać pozytywnych i negatywnych podpowiedzi, aby poprowadzić proces generowania dźwięku i łatwo uzyskać wymagane dźwięki. Zapewnia to również większą elastyczność, dzięki czemu można eksperymentować z różnymi wynikami i znaleźć to, co jest najlepsze dla konkretnego filmu.

Próbka dźwiękowa meduzy pulsującej pod wodą. Źródło: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

Jak działa technologia V2A?

Według Google firma eksperymentowała z technikami dyfuzyjnymi i autoregresyjnymi i stwierdziła, że ​​ta pierwsza jest najbardziej odpowiednia do produkcji dźwięku. Daje bardzo realistyczne dźwięki i działa poprzez kodowanie wideo do skompresowanego formatu.

Następnie do oddzielenia losowego szumu od wideo wykorzystuje się model dyfuzji, opierając się na podpowiedziach w języku naturalnym i na obrazie wideo. Monity pomagają wygenerować realistyczny dźwięk, który jest doskonale zsynchronizowany z wideo. Następnie następuje dekodowanie dźwięku, po czym jest on konwertowany na falę audio i łączony z wideo.

Narzędzie DeepMind firmy Google dostarczyło więcej informacji do szkolenia sztucznej inteligencji, dzięki którym użytkownicy mogą kierować procesem generowania dźwięku w kierunku wymaganych dźwięków i umożliwia platformie wytwarzanie dźwięku o wyższej jakości. Informacje takie obejmowały transkrypcje mówionych dialogów i szczegółowe opisy dźwięków z adnotacjami generowanymi przez sztuczną inteligencję.

Wyszkolona w zakresie takich informacji, technologia V2A może powiązać różne sceny wizualne z określonymi zdarzeniami dźwiękowymi.

Działanie technologii V2A. Źródło: Google

Co widać na horyzoncie?

Technologia V2A firmy DeepMind działa znacznie lepiej niż inne rozwiązania V2A, ponieważ nie zawsze wymaga monitu tekstowego i potrafi zrozumieć piksele wideo. Wyjście dźwięku również nie musi być ręcznie wyrównane z wideo. Istnieją jednak pewne ograniczenia technologii, które Google zamierza przezwyciężyć dzięki dalszym badaniom.

Na przykład jakość generowanego dźwięku zależy od jakości wideo użytego jako dane wejściowe. Jeśli w wideo występują zniekształcenia lub artefakty, model AI nie potrafi ich zrozumieć, ponieważ nie są one uwzględnione w jego szkoleniu, co ostatecznie prowadzi do obniżenia jakości dźwięku.

Ponadto w przypadku filmów z ludzką mową firma pracuje nad poprawą synchronizacji ust. Technologia V2A próbuje generować mowę przy użyciu transkryptów wejściowych, a następnie dopasowuje ją do ruchów ust postaci w filmie. Jednak jeśli film nie opiera się na transkryptach, występuje niezgodność między dźwiękiem a ruchami ust.

Dzięki lepszym możliwościom generowania dźwięku modele AI będą w stanie generować filmy, które nie tylko będą wyglądać imponująco, ale także świetnie brzmią. Google integruje także swoją technologię V2A z SynthID, który oznacza znaki wodne wszystkich treści generowanych przy użyciu sztucznej inteligencji. Może to pomóc zapobiec niewłaściwemu użyciu, zapewniając pełne bezpieczeństwo.

Ponadto firma twierdzi, że dokładnie przetestuje swoją technologię V2A przed udostępnieniem jej publicznie. Jak dotąd, z tego, co Google zaprezentowało i obiecało na przyszłość, ta technologia kształtuje się jako znaczący postęp w generowaniu dźwięku dla filmów generowanych przez AI.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *