Technologia Nvidia text-to-video przeniesie Twoje gry GIF na wyższy poziom

Teraz, gdy ChatGPT i Midjourney są już prawie głównym nurtem, kolejnym wielkim wyścigiem sztucznej inteligencji są generatory tekstu na wideo, a Nvidia właśnie zaprezentowała kilka niesamowitych wersji demonstracyjnych technologii, które mogą wkrótce przenieść Twoje GIF-y na nowy poziom.

Nowy artykuł badawczy i mikrostrona (otwiera się w nowej karcie) z Toronto AI Lab firmy Nvidia, zatytułowana „High-Resolution Video Synthesis with Latent Diffusion Models”, daje nam wgląd w niesamowite narzędzia do tworzenia wideo, do których artyści wideo są gotowi: rosnąca lista najlepsze generatory sztuki AI.

Modele ukrytej dyfuzji (lub LDM) to rodzaj sztucznej inteligencji, która może generować wideo bez potrzeby korzystania z ogromnej mocy obliczeniowej. Nvidia twierdzi, że jej technologia robi to, przejmując pracę generatorów tekstu na obraz, w tym przypadku Stable Diffusion, i dodając „wymiar czasowy do ukrytego modelu dyfuzji przestrzennej”.

Gif przedstawiający szturmowca odkurzającego plażę

(Zdjęcie: Nvidia)

Innymi słowy, jego generatywna sztuczna inteligencja może realistycznie przesuwać nieruchome obrazy i skalować je przy użyciu technik superrozdzielczości. Oznacza to, że możesz wyświetlać krótkie 4,7-sekundowe filmy w rozdzielczości 1280x2048 lub dłuższe filmy w niższej rozdzielczości 512x1024 do filmów samochodowych.

Nasza pierwsza myśl po obejrzeniu wczesnych wersji demonstracyjnych (takich jak te powyżej i poniżej) była taka, jak bardzo może to popchnąć naszą grę GIF do przodu. To prawda, że ​​istnieją większe konsekwencje, takie jak demokratyzacja tworzenia wideo i możliwość automatycznych adaptacji filmów, ale w tym momencie tekst do formatu GIF wydaje się najbardziej ekscytującym przypadkiem użycia.

Miś grający na gitarze elektrycznej.

(Zdjęcie: Nvidia)

Proste podpowiedzi, takie jak „szturmowiec odkurza plażę” czy „miś pluszowy gra na gitarze elektrycznej, wysoka rozdzielczość, 4K” dają całkiem użyteczne wyniki, choć oczywiście niektóre kreacje zawierają artefakty i zmiany.

W rzeczywistości esto hace que la tecnología de texto a video, como las nuevas demostraciones de Nvidia, se más adecuada para miniaturas y GIF. Ale biorąc pod uwagę szybkie ulepszenia generowania sztucznej inteligencji Nvidii dla dłuższych scen (otwiera się w nowej karcie), prawdopodobnie nie będziemy musieli czekać na dłuższe klipy tekstowe do wideo w bibliotekach stockowych i nie tylko.

Analityka: kolejna granica generatywnej sztucznej inteligencji

Słońce zagląda przez okno loftu w Nowym Jorku

(Źródło zdjęcia: wskazówka)

Nvidia nie jest pierwszą firmą, która wprowadza generator tekstu wideo AI. Niedawno widzieliśmy debiut Google Phenaki (otwiera się w nowej karcie), ujawniając jego potencjał w zakresie dłuższych, 20-sekundowych klipów opartych na wskazówkach. Jego dema pokazują również klip, choć dłuższy, trwający ponad dwie minuty.

Startup Runway, który pomógł stworzyć generator tekstu na obraz Stable Diffusion, również zaprezentował swój model wideo AI Gen-2 (otwiera się w nowej karcie) w zeszłym miesiącu. Oprócz reagowania na monity, takie jak „popołudniowe słońce zaglądające przez okno na strychu w Nowym Jorku” (wynik powyżej), umożliwia dostarczenie nieruchomego obrazu, na którym można oprzeć wygenerowany film, a także pozwala poprosić o zastosowanie stylów do filmów .

Ten ostatni był również tematem ostatnich demonstracji Adobe Firefly, które pokazały, w jaki sposób sztuczna inteligencja ułatwi edycję wideo. W programach takich jak Adobe Premiere Rush wkrótce będziesz mógł wpisać porę dnia lub porę roku, którą chcesz zobaczyć w swoim filmie, a sztuczna inteligencja Adobe zajmie się resztą.

Ostatnie dema firm Nvidia, Google i Runway pokazują, że renderowanie pełnego tekstu na wideo jest nieco bardziej zamglone, często dając dziwne, marzycielskie lub zniekształcone wyniki. Ale na razie będzie dobrze dla naszej gry GIF, a szybkie ulepszenia z pewnością są w drodze, dzięki czemu technologia będzie odpowiednia dla dłuższych filmów.