W zeszłym roku Meta odniosła znaczący sukces dzięki Segment Everything, modelowi uczenia maszynowego, który pozwala szybko i niezawodnie rozpoznać i zidentyfikować prawie wszystko na obrazie. Kontynuacja, którą dyrektor generalny Mark Zuckerberg zadebiutował w poniedziałek na scenie SIGGRAPH, przenosi model w przestrzeń wideo, pokazując, jak szybko porusza się pole.
Segmentacja to termin techniczny używany, gdy model wizyjny patrzy na obraz i wybiera części: „To jest pies, a to jest drzewo za psem”, miejmy nadzieję, a nie „To jest drzewo wyrastające z psa”. Dzieje się tak od dziesięcioleci, ale ostatnio stało się znacznie lepsze i szybsze, a Segment Everything stanowi ogromny krok naprzód.
Cokolwiek, część druga (SA2) Jest to naturalna kontynuacja, ponieważ ma natywne zastosowanie do wideo, a nie tylko do zdjęć; Chociaż możesz oczywiście uruchomić pierwszy model na każdej klatce wideo indywidualnie, nie jest to najbardziej wydajny proces.
„Naukowcy używają tych obiektów do badania raf koralowych, siedlisk przyrodniczych i tym podobnych” – powiedział Zuckerberg w rozmowie z dyrektorem generalnym Nvidii, Jensenem Huangiem. „Ale możliwość zrobienia tego na wideo, dokładnego uchwycenia i powiedzenia, czego chcesz, jest piękna Fajny.”
Przetwarzanie wideo jest oczywiście bardziej wymagające obliczeniowo, co świadczy o postępie poczynionym w całej branży w zakresie wydajności SA2, która może działać bez powodowania awarii centrum danych. Oczywiście jest to wciąż ogromny model i do działania potrzebuje potężnego sprzętu, ale szybka i elastyczna segmentacja była praktycznie niemożliwa jeszcze rok temu.
Model, podobnie jak pierwszy, będzie otwarty i darmowy, nie ma też mowy o wersji hostowanej, którą czasami oferują firmy zajmujące się sztuczną inteligencją. Ale istnieje bezpłatna wersja próbna.
Naturalnie taki model wymaga ogromnej ilości danych do wytrenowania, a Meta udostępniła także dużą i znakomitą bazę danych zawierającą 50 tysięcy filmów, które stworzyła specjalnie w tym celu. W artykule opisującym SA2 do szkolenia wykorzystano także inną bazę danych zawierającą ponad 100 tys. „wewnętrznie dostępnych” filmów, która jednak nie została upubliczniona – poprosiłem Meta o więcej informacji co to jest i dlaczego nie została upubliczniona. (Uważamy, że pochodzi z profili publicznych na Instagramie i Facebooku).
Meta od kilku lat jest pionierem „otwartej” sztucznej inteligencji, choć w rzeczywistości (jak zauważył w rozmowie Zuckerberg) robi to już od dłuższego czasu, korzystając z narzędzi takich jak PyTorch. Jednak ostatnio LLaMa, Segment Everything i kilka innych modeli, które udostępniłem za darmo, stały się stosunkowo dostępnym ograniczeniem wydajności sztucznej inteligencji w tych dziedzinach, chociaż ich „otwartość” jest tematem debaty.
Zuckerberg wspomniał, że otwartość Mety nie wynika wyłącznie z dobroci, ale to nie znaczy, że jej intencje są nieczyste:
„To nie jest tylko oprogramowanie, które można zbudować – potrzebny jest wokół niego ekosystem. To oprogramowanie nie działałoby tak dobrze, gdybyśmy nie udostępnili mu oprogramowania typu open source, prawda? ponieważ jesteśmy ludźmi altruistycznymi, chociaż myślę, że to będzie dobre dla ekosystemu – robimy to, ponieważ wierzymy, że dzięki temu to, co zbudujemy, będzie najlepsze.”
Na pewno jednak zostanie dobrze wykorzystany. Odwiedź GitHub tutaj.
. „Telewizyjny pionier. Fan alkoholu. Namiętny komunikator. Oddany badacz kawy. Boczek ninja”.
More Stories
Z pewnością wygląda na to, że PS5 Pro zostanie zaprezentowane w ciągu najbliższych kilku tygodni
Wycieki ujawniają nazwę i projekt rzekomego urządzenia PS5 Pro
Apple wprowadza usuwanie obiektów AI na zdjęciach wraz z najnowszą aktualizacją iOS