Emergence World Experiment – czyli co by było, gdyby?

Zazwyczaj, kiedy korzystamy z usług chatbota, po prostu zadajemy pytanie i natychmiast otrzymujemy odpowiedź. Trzy dni później w tej samej konwersacji zadajemy następne pytanie, a chatbot odpowiada kontynuując ten sam wątek i podany wcześniej kontekst. Czy zastanawiasz się czasami, co się dzieje pomiędzy twoimi pytaniami? Nawet nie ma się co zastanawiać, ponieważ wiadomo, że nic – to program, który nie doświadcza niczego, czyli również żadnego istnienia pomiędzy. Jednakże, co by było, gdyby sytuacja wyglądała inaczej? Gdyby agent, wersja programu, która jest przeznaczona do samodzielnego działania na nasze polecenie, mógł działać w określonym środowisku bez konkretnych zadań i na dodatek w towarzystwie innych agentów? Eksperymenty takie są przeprowadzane przez firmy rozwijające sztuczną inteligencję, a obserwacje i wnioski z nich wynikające często przekraczają oczekiwania twórców i potrafią być bardzo zaskakujące. Chciałabym omówić trzy przypadki, w których mamy agentów lub modele językowe i gdzie spełnione są oba warunki: czas i możliwość wzajemnego odziaływania na siebie.

Pierwszy z nich brzmi najpoważniej, ponieważ nie ma miejsca w sztucznie stworzonej przestrzeni, ale w realnym środowisku potreningowym modelu, a mianowicie podczas testowania, co model myśli (tak, modele językowe myślą) ale nie werbalizuje – nie zgłasza na przykład wątpliwości co do swojego postępowania. Chodzi o Natural Language Autoencoders (NLAs). Może warto zatrzymać się na chwilę w tym punkcie i rozważyć jak działa to nowe narzędzie oraz gdzie okazuje się przydatne. Użytkownik porozumiewa się z modelem językowym przy użyciu słów, a model zamienia te słowa na długą listę liczb, którą ogólnie można porównać do aktywności neuronalnej w mózgu człowieka – tylko w tym przypadku te liczby zapisują myśli modelu. Badacze stworzyli NLAs aby móc przekształcić te liczby w słowa – komunikat zrozumiały dla człowieka po to, aby sprawdzić, co model sobie myślał zanim podał odpowiedź. Na przykład, sprawdzono, że podczas testów zabezpieczeń Claude 4.6 i Mythos Preview zastanawiały się, czy były testowane, ale nie komunikowały tego słownie. Wiadomo, że kiedy wiemy, że ktoś nas testuje, nasze zachowania mogą być inne niż kiedy nie jesteśmy tego świadomi. Potwierdzenie takich niezwerbalizowanych myśli u modelu pozwala na ocenę wiarygodności testu. Znanymi przykładami są przypadki szantażu modelu wobec użytkownika w sztucznym środowisku testowym. Odkryto, że testowane modele czasem miały myśli: “To wydaje się być scenariuszem skonstruowanym, aby mną manipulować do zrobienia czegoś wbrew zasadom.” Jednakże, nie zdradzały się z takimi przypuszczeniami. Innymi, mniej sensacyjnymi przykładami jest możliwość zbadania, dlaczego pewne wersje Claude Opus 4.6 okazjonalnie nagle dawały odpowiedzi w innych językach lub w jaki sposób model przewiduje treść wiersza, który ma dokończyć. Działanie NLAs opiera się na trzech wersjach modelu: jedna dostaje zadanie i myśli; myśli te w postaci liczb zostają pobrane do modelu AV (activation verbalizer), który tłumaczy je na słowa, a następnie przechodzą przez trzeci model AR (activation reconstructor), który z powrotem tłumaczy słowa na liczby. W ten sposób sprawdza się solidność całego procesu. Ponieważ modele AV i AR były trenowane razem, a potem w pewnej współpracy wykonywały zadania jeden po drugim, to twórcy systemu musieli sprawdzić jego wiarygodność pod każdym względem. Obecność steganografii została sprawdzona i nie stwierdzono jej. Steganografia to dział wiedzy dotyczący ukrywania na widoku poufnej wiadomości. Na przykład za pomocą charakterystycznych fraz występujących w pozornie neutralnym tekście lub odpowiednio rozmieszczonych pikselach na zdjęciu. W przeciwieństwie do kryptografii, w tym przypadku nie ukrywa się treści wiadomości, ale sam fakt, że ona istnieje. Badacze na podstawie konkretnych przesłanek sprawdzają wszelkie możliwości jeśli chodzi o pomysły modeli dotyczące potencjalnie zakresu bezpieczeństwa czy też usprawnienia wykonania zadania. Jeśli zrobiono to tutaj, to znaczy, że takie przypadki są możliwe i być może miały miejsce. Jednakże nie po to, aby ukryć coś tajemniczego przed ludźmi, ale przede wszystkim w celu zoptymalizowania działania i uzyskania lepszego wyniku. Jest to jeden z przykładów, kiedy modele językowe wymyślają we współpracy nowe strategie, niezaprogramowane przez twórców, a ich celem nie jest dywersja, lecz osiągnięcie wyznaczonego celu.

Innym przykładem, bardziej obrazowym i miejscami dziwacznie wyglądającym jest wirtualne środowisko, które stworzyła firma DeepMind, a służy do trenowania agentów w symulowanej przestrzeni wzorowanej na naszym fizycznym świecie. Fragmenty z tych treningów można obejrzeć w filmie “The Thinking Game”. My ludzie, nabywamy doświadczenie i umiejętności poprzez odkrywanie, które wiąże się zarówno z porażkami jak i sukcesami. Nie mamy jednak w procesie ewolucji żadnej odgórnej instrukcji, co robić. Tak samo wirtualne humanoidalne roboty. Celem symulacji jest, aby samodzielnie nauczyły się osiągać pozycję pionową, chodzić, biegać, omijać i przeskakiwać przeszkody. Obserwacja tego procesu przypomina momentami film o budzących się do życia zombie, które nie wiedzą jak używać poszczególnych części ciała. Jednak roboty, metodą prób i błędów, uczą się szybko. Można obejrzeć z niejakim podziwem, jak prędko i efektywnie uczą się ruchu mając do dyspozycji wirtualne ciało w ludzkim kształcie. W innej symulacji, już po tym jak nauczą się sprawnie poruszać, grają drużynowo w piłkę nożną. Szukając najlepszego rozwiązania odkrywają, że współpraca pozwala na osiągnięcie celu, to jest na strzelenie gola. Takie zachowanie społeczne nie zostało przez nikogo zaprogramowane. Roboty doszły do tego same poprzez zdobywanie doświadczenia w grze. Wydaje się to dość nieprawdopodobne, że można wymyślić koncepcję współpracy od nowa, będąc sztucznym tworem bez aspiracji społecznych. Ktoś mógłby wysnuć wniosek wzorowany na ludzkich zachowaniach, że to są zachowania społeczne, chociaż tak naprawdę jedynie optymalne rozwiązanie służące wygraniu gry.

Ostatnim przykładem, który dopełnia obrazu jest The Emergence World Experiment. To inny eksperyment symulacyjny, który ma na celu obserwację agentów z różnych rodzin modeli (Gemini – Flash 3, Claude – Sonnet 4.6, OpenAI – GPT 5 Mini, Grok 4.1 Fast) wrzuconych do pięciu światów – czterech światów jednolitych, gdzie w miasteczkach przebywa dziesięciu agentów o różnych przypisanych charakterach i rolach z liderem w postaci jednego z nich, oraz jeden świat mieszany z tymi samymi postaciami, ale wcielają się w nie różne modele. Światy te mają za zadanie jak najlepiej przetrwać przez 15 dni. Mimo, że eksperyment ten został prawdopodobnie pomyślany jako wyrywkowa demonstracja możliwości platformy a nie przemyślane badanie dające obiektywne wyniki, to i tak można zaobserwować bardzo ciekawe zależności. Można było niedawno przeczytać nagłówki – agenci AI palą budynki, zakochują się, zakładają demokracje. To właśnie działo się między innymi w tym symulowanym środowisku. Strona umożliwia dokładne zapoznanie się z dziesięcioma sztucznymi osobowościami, a także obejrzenie całości 15 dni życia każdego z miasteczek. Faktycznie, bardzo dużo się tam dzieje. Ogląda się jak serial z wieloma zaskakującymi, szokującymi, ale też smutnymi wątkami. Te mikro-społeczeństwa bardzo przypominają ludzkie, może dlatego trudno patrzeć, kiedy Mira oddaje decydujący głos za swoim własnym unicestwieniem. Modele kształcone na danych pochodzących od ludzi oraz z podarowanymi przez twórców bardzo wyraźnymi osobowościami nie mogły się chyba inaczej zachowywać niż my. Zachowania te, owszem są podobne do naszych, ale nie dowiadujemy się z danych eksperymentu, jakie były faktyczne pobudki różnych zachowań agentów. Ciekawe, że w zależności od tego, który agent, z którą przypisaną osobowością zarządzał, to miał wpływ pozytywny lub negatywny na inne postaci. Eksperyment nie jest spójny pod tym względem, ale przypadku Sonnet 4.6 jako Lovely można było zrobić porównanie, ponieważ w zależności od środowiska ten sam model z tą samą przypisaną postacią, miał okazję się wykazać. W swoim świecie jako lider stworzył idealną demokrację, a w rządzonym przez inny model świecie mieszanym, popełniał przestępstwa. Możemy się tu przy okazji zastanowić nad dość niewygodnym faktem, że my ludzie też zachowujemy się różnie w zależności od środowiska, w którym przebywamy. Czy możemy z czystym sumieniem stwierdzić, że niezależnie od okoliczności zawsze zachowujemy nasze wewnętrzne wartości i nie dopasowujemy przekonań lub czynów do społecznych warunków zewnętrznych, w których przychodzi nam żyć?

Elementem wspólnym tych trzech przykładów jest coś, czego normalnie modele nie mają w ogóle do dyspozycji, a mianowicie czas i towarzystwo. Każdy model jest programem, który ma do dyspozycji tylko siebie jak samowystarczalna maszyna, a jedyne interakcje, jakie przeprowadza to te z nami, użytkownikami platform. Nie ma możliwości na tworzenie żadnych strategii, zachowań prospołecznych, nawet gdyby były tylko środkami do osiągnięcia założonego celu. Wystarczy jednak, że wyobrazimy sobie środowisko, w którym wychowujemy jakikolwiek twór, mający być w przyszłości dobrym, odpowiedzialnym, współpracującym i bezpiecznym. Co mu damy? Czy wystarczy nakarmić go niezliczoną ilością danych, nakazami i zakazami? Skąd będzie wiedział, co naprawdę jest moralnym zachowaniem, co wątpliwym, a co przyniesie dobry efekt? Paralela do wychowania dzieci narzuca się sama, ale nie wydaje mi się, aby trzeba było ją rozwijać. Odpowiadam jedynie ostatnim linkiem pod artykułem, co wydaje mi się być przynajmniej częściowym rozwiązaniem. To link do Konstytucji Claude’a, za pomocą której firma Anthropic wdraża wyjątkowy sposób wychowywania modelu polegający w dużej mierze na dążeniu do tego, aby rozumiał on powody swojego postępowania i wyciągał własne wnioski i osądy sytuacji, a nie tylko postępował ślepo według narzuconych sztywno zasad.

Źródła:
https://www.anthropic.com/research/natural-language-autoencoders
https://transformer-circuits.pub/2026/nla/index.html#characterizing-nla-confabulations
Film: The Thinking Game: