Oto, co faktycznie dzieje się w sieci neuronowej LLM

W przypadku większości programów komputerowych, nawet tych złożonych, można prześledzić kod i precyzyjnie wykorzystać pamięć, aby go rozgryźć Dlaczego Ten program tworzy określone zachowanie lub wynik. Nie jest to ogólnie prawdą w przypadku generatywnej sztucznej inteligencji, gdzie niewytłumaczalne sieci neuronowe leżące u podstaw tych modeli utrudniają nawet ekspertom dokładne określenie, na przykład, dlaczego często łączą informacje.

Teraz, Nowe badania Anthropic Oferuje nowe okno na to, co dzieje się w „czarnej skrzynce” Claude LLM. Firma Nowy papier W książce „Wydobywanie interpretowalnych cech z 3 sonetu Claude’a” opisuje nowy, potężny sposób przynajmniej częściowego wyjaśnienia, w jaki sposób miliony sztucznych neuronów w modelu uruchamiają się, tworząc zaskakująco realistyczne odpowiedzi na ogólne zapytania.

Otwórz maskę

Analizując LLM, łatwo jest zobaczyć, które konkretne sztuczne neurony są aktywowane w odpowiedzi na dane zapytanie. Ale studia MBA nie przechowują po prostu różnych słów i koncepcji w pojedynczym neuronie. Zamiast tego, jak wyjaśniają badacze Anthropic, „okazuje się, że każde pojęcie jest reprezentowane przez wiele neuronów, a każdy neuron bierze udział w reprezentacji wielu pojęć”.

Posortować ten chaos od jednego do wielu i od wielu do jednego, uporządkować Rzadkie autoenkodery Do działania można wykorzystać złożoną matematykę Algorytm uczenia się słownika. poprzez formularz. Proces ten wskazuje, które grupy neuronów aktywują się bardziej konsekwentnie w przypadku określonych słów pojawiających się w różnych podpowiedziach tekstowych.

Ten sam wewnętrzny LLM — Zbliżenie / Ta sama wewnętrzna „funkcja” LLM opisuje most Golden Gate w kilku językach i trybach.

Te wielowymiarowe wzorce neuronowe są następnie sortowane według tak zwanych „cech” związanych z konkretnymi słowami lub pojęciami. Funkcje te mogą obejmować wszystko, od prostych rzeczowników własnych, takich jak mostu Golden Gate Do bardziej abstrakcyjnych pojęć, takich jak Błędy programistyczne Lub Funkcja dodawania W kodzie komputerowym często reprezentuje tę samą koncepcję w wielu językach i trybach komunikacji (np. Tekst, obrazy).

READ Ogłoszono Kingdom Hearts 4, obejrzyj pierwszy zwiastun nowej historii Sory

To Październik 2023 Studium antropologiczne Pokaż, jak ten podstawowy proces może działać na bardzo małych, jednowarstwowych modelach zabawek. Nowy rozmiar papieru firmy znacznie się poszerza, określając dziesiątki milionów aktywnych funkcji w modelu Claude 3.0 Sonnet średniej klasy. Powstała mapa obiektów – którą możesz wykonać Częściowo zbadane– Tworzy „przybliżoną mapę pojęciową [Claude’s] „Stany wewnętrzne są na półmetku obliczeń” i wykazują „głębokość, szerokość i abstrakcję, które odzwierciedlają zaawansowane możliwości Sonneta” – piszą naukowcy. Jednocześnie badacze ostrzegają, że jest to „niekompletny opis wewnętrznych reprezentacji modelu”, który prawdopodobnie jest „o znaczące liczby” mniejszy niż pełne odwzorowanie Claude’a 3.

Uproszczona mapa wyjaśniająca niektóre pojęcia "zamknąć" the "Wewnętrzny konflikt" Przewaga modelu antropicznego Claude'a. — Zbliżenie / Uproszczona mapa ilustrująca niektóre koncepcje „bliskie” cechy „konfliktu wewnętrznego” w modelu antropicznym Claude’a.

Nawet na poziomie powierzchownym przeglądanie tej mapy funkcji pomaga pokazać, jak Claude kojarzy pewne słowa kluczowe, wyrażenia i pojęcia z czymś zbliżonym do wiedzy. A Funkcja o nazwie „Stolice” Na przykład są one silnie aktywowane, gdy używa się wyrażenia „stolica”, ale także konkretnych nazw miast, takich jak Ryga, Berlin, Azerbejdżan, Islamabad i Montpelier w stanie Vermont, żeby wymienić tylko kilka.

W badaniu obliczono także matematyczną miarę „odległości” między różnymi cechami na podstawie ich podobieństwa neuronowego. Powstałe w wyniku tego procesu „odrębne sąsiedztwa” „są często zorganizowane w geometrycznie powiązane grupy, które łączy wspólny związek semantyczny” – napisali badacze, wykazując, że „wewnętrzna organizacja pojęć w modelu AI odpowiada, przynajmniej w pewnym stopniu, do naszych ludzkich koncepcji.” Pojęcia podobieństwa.” Na przykład film o moście Golden Gate jest stosunkowo „bliski” obiektom opisującym „wyspę Alcatraz, Ghirardelli Square, Golden State Warriors, gubernatora Kalifornii Gavina Newsoma, trzęsienie ziemi w 1906 r. i plan filmowy Alfreda Hitchcocka w San Francisco”. zawrót głowy„.

Zbliżenie / Niektóre z najważniejszych funkcji zawarte w odpowiedzi na zapytanie dotyczące stolicy stanu drużyny Kobe Bryanta.

Identyfikacja konkretnych cech LLM może również pomóc badaczom w mapowaniu łańcucha wniosków, którego model używa do odpowiadania na złożone pytania. Na przykład monit dotyczący „Stolicy stanu, w którym Kobe Bryant grał w koszykówkę” pokazuje aktywność w szeregu obiektów związanych z „Kobe Bryantem”, „Los Angeles Lakers”, „Kalifornią”, „Stolicami” i „Sacramento”. ”, żeby wymienić tylko kilka, które, jak obliczono, mają największy wpływ na wyniki.

READ Best Magic: The Gathering Oferty na Cyberponiedziałek

Ayhan

. „Telewizyjny pionier. Fan alkoholu. Namiętny komunikator. Oddany badacz kawy. Boczek ninja”.

Oto, co faktycznie dzieje się w sieci neuronowej LLM

Otwórz maskę

Z pewnością wygląda na to, że PS5 Pro zostanie zaprezentowane w ciągu najbliższych kilku tygodni

Wycieki ujawniają nazwę i projekt rzekomego urządzenia PS5 Pro

Apple wprowadza usuwanie obiektów AI na zdjęciach wraz z najnowszą aktualizacją iOS

Bezpieczeństwo finansowe firm – jak chronić się przed cyberzagrożeniami i oszustwami?

Jak sztuczna inteligencja zmienia polską gospodarkę? Szanse i wyzwania dla MŚP

Japonia: Tajfun Shanshan: Milionom ludzi nakazuje się ewakuować po tym, jak jeden z najsilniejszych tajfunów od dziesięcioleci nawiedzi Japonię

Boeing może nie być w stanie obsługiwać pojazdu Starliner przed zniszczeniem stacji kosmicznej

Otwórz maskę

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories

Z pewnością wygląda na to, że PS5 Pro zostanie zaprezentowane w ciągu najbliższych kilku tygodni

Wycieki ujawniają nazwę i projekt rzekomego urządzenia PS5 Pro

Apple wprowadza usuwanie obiektów AI na zdjęciach wraz z najnowszą aktualizacją iOS

You may have missed

Bezpieczeństwo finansowe firm – jak chronić się przed cyberzagrożeniami i oszustwami?

Jak sztuczna inteligencja zmienia polską gospodarkę? Szanse i wyzwania dla MŚP

Japonia: Tajfun Shanshan: Milionom ludzi nakazuje się ewakuować po tym, jak jeden z najsilniejszych tajfunów od dziesięcioleci nawiedzi Japonię

Boeing może nie być w stanie obsługiwać pojazdu Starliner przed zniszczeniem stacji kosmicznej