Wideo w czasie rzeczywistym może być kolejnym skokiem w technologii sztucznej inteligencji

Ian Sansavera, inżynier oprogramowania w nowojorskim startupie Runway AI, napisał krótki opis tego, co chciał zobaczyć w filmie. Książki „Cicha rzeka w lesie”.

Niecałe dwie minuty później testowy serwis internetowy wyprodukował krótki klip wideo przedstawiający spokojną rzekę w lesie. Bieżąca rzeka lśniła w słońcu, przecinając drzewa i paprocie, skręcając za róg i delikatnie rozbijając się o skały.

Runway, który planuje w tym tygodniu otworzyć swoją usługę dla niewielkiej grupy testerów, jest jedną z kilku firm budujących technologię sztucznej inteligencji, która wkrótce pozwoli ludziom tworzyć filmy po prostu wpisując kilka słów w okienko na ekranie komputera.

Reprezentują kolejny etap wyścigu w branży — wyścigu, w którym biorą udział giganci tacy jak Microsoft i Google, a także znacznie mniejsze startupy — w tworzeniu nowych rodzajów systemów sztucznej inteligencji, które zdaniem niektórych mogą być kolejną wielką rzeczą w technologii, równie ważną jak przeglądarki internetowe lub iPhone’a.

Nowe systemy do tworzenia wideo mogą przyspieszyć pracę filmowców i innych artystów cyfrowych, stając się jednocześnie nowym, szybkim sposobem tworzenia trudnych do wykrycia dezinformacji w Internecie, co utrudnia stwierdzenie, co jest prawdziwe w Internecie.

Systemy te są przykładami tak zwanej generatywnej sztucznej inteligencji, która może natychmiast generować tekst, obrazy i dźwięki. Innym przykładem jest ChatGPT, internetowy chatbot stworzony przez startup OpenAI z San Francisco, który pod koniec zeszłego roku zadziwił branżę technologiczną swoimi możliwościami.

Google i Meta, firma macierzysta Facebooka, W zeszłym roku zaprezentowała swoje pierwsze systemy do generowania wideoale nie udostępnili ich opinii publicznej, ponieważ obawiali się, że systemy mogą zostać ostatecznie wykorzystane do szerzenia dezinformacji z ich nowo odkrytą szybkością i wydajnością.

Ale dyrektor generalny Runway, Cristobal Valenzuela, powiedział, że uważa, że technologia jest zbyt ważna, aby trzymać ją w laboratorium badawczym, pomimo związanego z nią ryzyka. „To jedna z najbardziej imponujących technologii, jakie stworzyliśmy w ciągu ostatnich 100 lat” – powiedział. „Potrzebujesz ludzi, aby faktycznie z niego korzystać”.

Możliwość edytowania i manipulowania filmami i wideo nie jest oczywiście niczym nowym. Filmowcy robią to od ponad wieku. W ostatnich latach badacze i artyści cyfrowi używali różnych technologii i programów AI do tworzenia i edytowania filmów, które często nazywane są fałszywymi filmami.

READ Nowe meta rozwiązanie dla użytkowników

Ale systemy takie jak ten, który stworzył Runway, mogą z czasem zastąpić umiejętności edytowania jednym naciśnięciem przycisku.

Technologia Runway produkuje filmy o dowolnym krótkim opisie. Aby rozpocząć, po prostu napisz opis, podobnie jak krótką notatkę.

Działa to najlepiej, jeśli scena zawiera trochę akcji – ale niewiele akcji – na przykład „Deszczowy dzień w dużym mieście” lub „Pies z telefonem komórkowym w parku”. Naciśnij Enter, a system utworzy wideo za minutę lub dwie.

Ta technologia może odtwarzać typowe obrazy, takie jak kot śpiący na dywanie. Może też łączyć odmienne koncepcje, by tworzyć dziwnie zabawne filmy, takie jak krowa na przyjęciu urodzinowym.

Filmy mają tylko cztery sekundy, a wideo jest nierówne i rozmyte, jeśli przyjrzysz się uważnie. Czasami obrazy są dziwne, zniekształcone i niepokojące. System ma sposób na łączenie zwierząt, takich jak psy i koty, z przedmiotami nieożywionymi, takimi jak piłki i telefony komórkowe. Ale mając właściwy kierunek, produkuje filmy pokazujące, dokąd zmierza technologia.

READ niespodzianka! W końcu Google pozwoli Pixelowi 8 na uruchomienie sztucznej inteligencji na urządzeniu

„W tym momencie, jeśli zobaczę wideo HD, prawdopodobnie mu zaufam. Ale to się bardzo szybko zmieni” – powiedział Philip Isola, profesor MIT, który specjalizuje się w sztucznej inteligencji.

Podobnie jak inne technologie generatywnej sztucznej inteligencji, system Runway uczy się, analizując dane liczbowe — w tym przypadku zdjęcia, filmy i adnotacje opisujące zawartość tych obrazów. Szkoląc tego typu technologię na coraz większych ilościach danych, naukowcy są pewni, że mogą szybko poprawić i poszerzyć swoje umiejętności. Eksperci wierzą, że już wkrótce będą tworzyć profesjonalnie wyglądające minifilmy z muzyką i dialogami.

Trudno powiedzieć, co system obecnie tworzy. To nie jest obraz. To nie jest kreskówka. Jest to zbiór wielu pikseli zmieszanych razem w celu stworzenia realistycznego wideo. Firma planuje wprowadzić swoją technologię wraz z innymi narzędziami, które jej zdaniem przyspieszą pracę profesjonalnych artystów.

Kilka startupów, w tym OpenAI, wydało podobną technologię, która może generować statyczne obrazy z krótkich wiadomości, takich jak „Zdjęcie niedźwiedzia jadącego na deskorolce na Times Square. Szybki postęp w obrazowaniu generowanym przez sztuczną inteligencję może wskazywać kierunek, w którym zmierza nowa technologia wideo.

Przez ostatni miesiąc media społecznościowe roiły się od zdjęć papieża Franciszka w białej puchowej kurtce Balenciagi – zaskakująco nowoczesnym stroju dla 86-letniego papieża. Ale zdjęcia nie były prawdziwe. Niezłe poruszenie wywołał 31-letni pracownik budowlany z Chicago Korzystanie z popularnego narzędzia AI o nazwie Midjourney.

Dr Isola spędził lata na budowaniu i testowaniu tego typu technologii, najpierw jako badacz na Uniwersytecie Kalifornijskim w Berkeley oraz w OpenAI, a następnie jako profesor na MIT. Całkowicie fałszywe zdjęcia papieża Franciszka.

„Był czas, kiedy ludzie publikowali deep fake’i i nie chcieli mnie oszukać, ponieważ było to zbyt dziwne lub zbyt nierealne” – powiedział. „Teraz nie możemy wziąć żadnego ze zdjęć, które widzimy w Internecie, za dobrą monetę”.

Midjourney to jedna z wielu usług, które mogą tworzyć realistyczne nieruchome obrazy na podstawie krótkiego monitu. Inne aplikacje to Stable Diffusion i DALL-E, technologia OpenAI, która zapoczątkowała tę falę generatorów obrazu, kiedy została zaprezentowana rok temu.

READ Yuji Naka został usunięty ze stanowiska dyrektora Balan Wonderworld, a przeciwko Square Enix wniesiono pozew

Midjourney opiera się na sieci neuronowej, która uczy się swoich umiejętności, analizując ogromne ilości danych. Szuka wzorców, przeczesując miliony obrazów cyfrowych, a także podpisy tekstowe opisujące fotografowane obrazy.

Kiedy ktoś opisuje obraz systemu, tworzy listę funkcji, które może mieć ten obraz. Jedną z cech może być zakrzywienie na czubku ucha psa. Innym może być krawędź telefonu komórkowego. Następnie druga sieć neuronowa, zwana modelem dyfuzyjnym, generuje obraz i generuje piksele potrzebne do atrybutów. Na koniec przekształca piksele w spójny obraz.

Firmy takie jak Runway, która zatrudnia około 40 pracowników i zebrała 95,5 miliona dolarów, używa tej technologii do tworzenia ruchomych obrazów. Analizując tysiące klipów wideo, ich technologia może nauczyć się łączyć ze sobą wiele nieruchomych obrazów w podobny, spójny sposób.

„Wideo to po prostu seria klatek – nieruchomych obrazów – połączonych w sposób dający złudzenie ruchu” — powiedział Valenzuela. „Sztuką jest wytrenowanie modelu, który rozumie związek i spójność między każdą strukturą”.

Podobnie jak wczesne wersje instrumentów, takich jak DALL-E i Midjourney, technika ta czasami łączy koncepcje i obrazy w dziwny sposób. Jeśli zamówisz misia, który gra w koszykówkę, może on dać coś w rodzaju transformującego pluszaka z ledową koszykówką. Jeśli zapytasz psa z telefonem komórkowym w parku, może dać ci szczeniaka z telefonem komórkowym i obcym ludzkim ciałem.

Ale eksperci uważają, że mogą naprawić błędy, trenując swoje systemy na coraz większej liczbie danych. Wierzą, że technologia ostatecznie sprawi, że tworzenie wideo będzie tak proste, jak napisanie zdania.

„W dawnych czasach, aby zrobić coś takiego zdalnie, trzeba było mieć kamerę. Trzeba było mieć rekwizyty. Trzeba było mieć lokalizację. Trzeba było mieć pozwolenie” – powiedziała Susan Bonser, autorka i wydawca w Penn State, który był Wczesne wcielenia generatywnej technologii wideo wykrzykują: „Powinieneś był mieć pieniądze”. „Teraz nie musisz tego mieć. Możesz po prostu usiąść i sobie to wyobrazić”.

Konrad Borkowski

„Subtelnie czarujący nerd popkultury. Irytująco skromny fanatyk bekonu. Przedsiębiorca”.

Nowa generacja chatbotów

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI

Stare i nowe procesory Ryzen zyskują większą prędkość dzięki opcjonalnej aktualizacji systemu Windows

Yelp pozywa Google za naruszenie przepisów antymonopolowych

Krokodyl i rekin pożarły prehistoryczną krowę morską, odsłaniając skamielinę

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI

Nowa generacja chatbotów

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI

Stare i nowe procesory Ryzen zyskują większą prędkość dzięki opcjonalnej aktualizacji systemu Windows

You may have missed

Yelp pozywa Google za naruszenie przepisów antymonopolowych

Krokodyl i rekin pożarły prehistoryczną krowę morską, odsłaniając skamielinę

Ta ładowarka GaN o mocy 100 W jest cienka i składana

Plaud wypróbowuje prostszy pin AI