W niedzielę firma Runway ogłosiła nowy model syntezy wideo AI o nazwie Alfa generacji 3 Jest to wciąż w fazie rozwoju, ale wydaje się, że tworzy wideo o jakości podobnej do Sora Video OpenAI, który zadebiutował na początku tego roku (i również nie został jeszcze wydany). Może tworzyć świeże wideo w wysokiej rozdzielczości na podstawie komunikatów tekstowych, od realistycznych ludzi po surrealistyczne potwory wędrujące po okolicy.
W przeciwieństwie do pasa startowego Poprzedni najlepszy model Według stanu na czerwiec 2023 r., kiedy można tworzyć tylko 2-sekundowe klipy, Gen-3 Alpha może podobno tworzyć 10-sekundowe filmy przedstawiające ludzi, miejsca i rzeczy, które mają spójność i spójność, która z łatwością przewyższa Gen-2. Jeśli 10 sekund wydaje się krótkie w porównaniu z pełną minutą filmu Sory, należy pamiętać, że firma działa przy skromnym budżecie obliczeniowym w porównaniu z hojnie finansowanym OpenAI — i faktycznie ma historię udostępniania możliwości tworzenia wideo użytkownikom komercyjnym.
Gen-3 Alpha nie generuje dźwięku towarzyszącego filmom, a pokolenia spójne czasowo (te, które zachowują spójność osobowości w czasie) częściej polegają na Podobne wysokiej jakości materiały szkoleniowe. Trudno jednak zignorować poprawę wierności wizualnej, jaką w ciągu ostatniego roku poczyniła firma Runway.
Wideo AI nagrzewa się
To było pracowite kilka tygodni związanych z instalacją wideo AI w społeczności badawczej AI, łącznie z wprowadzeniem na rynek chińskiego modelu Klinga, stworzony przez firmę Kuaishou Technology z siedzibą w Pekinie (czasami nazywaną „Kwai”). Kling może utworzyć jednorazowo dwie minuty wideo HD 1080p przy 30 klatkach na sekundę Detale i spójność Mówi się, że pasuje do Sory.
Podpowiedź Gen-3 Alpha: „Ukryte odbicia kobiety w oknie pociągu jadącego z zawrotną prędkością w japońskim mieście”.
Krótko po debiucie Klinga ludzie w mediach społecznościowych zaczęli wykazywać się kreatywnością Surrealistyczne filmy AI Korzystanie z Lumy AI Maszyna Luma Dream. Te filmy były nowe i dziwne, ale ogólnie fajne Brakuje spójności; Przetestowaliśmy Dream Machine i nic, co zobaczyliśmy, nie zrobiło na nas wrażenia.
Tymczasem założona w 2018 roku firma Runway z siedzibą w Nowym Jorku, wiodąca firma zajmująca się przetwarzaniem tekstu na wideo, niedawno padła ofiarą memów pokazujących, że jej technologia Gen-2 nie jest już popularna w porównaniu z najnowszymi modelami kompozycji wideo. Prawdopodobnie jest to motywacja stojąca za ogłoszeniem Gen-3 Alpha.
Podpowiedź Alfa Gen-3: „Astronauta biegnie alejką w Rio de Janeiro”.
Tworzenie realistycznych ludzi zawsze było trudne w przypadku modeli do komponowania wideo, dlatego Runway w szczególności pokazuje zdolność Gen-3 Alpha do tworzenia tego, co twórcy nazywają „ekspresyjnymi” postaciami ludzkimi z szeroką gamą działań, gestów i emocji. Jednak firma Podane przykłady Nie jest to szczególnie wyraziste – głównie ludzie patrzą i mrugają powoli – ale wygląda realistycznie.
Podane przykłady ludzi obejmują między innymi wygenerowane filmy przedstawiające kobietę w pociągu, astronautę biegnącego ulicą, mężczyznę, którego twarz oświetla blask telewizora, kobietę prowadzącą samochód i biegnącą kobietę.
Podpowiedź alfa Gen-3: „Zbliżenie młodej kobiety prowadzącej samochód, wyglądającej na zamyśloną, rozmyty zielony las widoczny przez deszczowe okno samochodu”.
Stworzone filmy demonstracyjne zawierają także bardziej surrealistyczne przykłady instalacji wideo, w tym gigantyczne stworzenie spacerujące po zniszczonym mieście, człowieka ze skał spacerującego po lesie i pokazanego poniżej gigantycznego potwora z waty cukrowej, co jest prawdopodobnie najlepszym filmem w historii strona.
Podpowiedź Alfa Gen-3: „Ogromny człowiek, wykonany z puszystej niebieskiej waty cukrowej, tupie o ziemię, rycząc w stronę nieba, za nim czyste, błękitne niebo”.
Gen-3 będzie obsługiwać kilka narzędzi do edycji AI Runway (jedno z największych roszczeń firmy do sławy), w tym Pędzel wielofunkcyjny, Zaawansowane sterowanie kamerąI Tryb menadżera. Może tworzyć filmy z podpowiedzi tekstowych lub graficznych.
Runway twierdzi, że Gen-3 Alpha jest pierwszym z serii modeli szkolonych w nowej infrastrukturze przeznaczonej do multimodalnego szkolenia na dużą skalę, co stanowi krok w kierunku udoskonalenia tego, co nazywa „Ogólne modele globalne„, które są wirtualnymi systemami sztucznej inteligencji, które konstruują wewnętrzne reprezentacje środowisk i wykorzystują je do symulowania przyszłych zdarzeń w tych środowiskach.
More Stories
Z pewnością wygląda na to, że PS5 Pro zostanie zaprezentowane w ciągu najbliższych kilku tygodni
Wycieki ujawniają nazwę i projekt rzekomego urządzenia PS5 Pro
Apple wprowadza usuwanie obiektów AI na zdjęciach wraz z najnowszą aktualizacją iOS