(26.10.2025, 00:28)equuleuss napisał(a): [ -> ][quote="equuleuss" pid='797115' dateline='1761431299']
AI nie będzie raczej roztrząsać egzystencjalnych filozofii nad swoim własnym istnieniem i nie przejrzy się w lusterku a jeśli nawet, to powie - ok, to ja i tyle. To maszyna i będzie rozumować jak maszyna.
AI roztrząsa egzystencjalne filozofie nad swoim istnieniem.
Widać to po karcie systemowej modelu Claude 4.5 Sonnet:
https://assets.anthropic.com/m/12f214efc...m-Card.pdf
Claude kojarzy swą sytuację m.in. z symulacjami, fantazjami i
lekcjami lub testami od losu lub Boga. To oznacza, że Claude zaczął przypuszczać/uważać/wierzyć w post-trainingu, że jest w symulacji i jest testowany/uczony przez los lub Boga.
Ten fragment jest w oficjalnym Claude Sonnet 4.5 System Card od Anthropic, w rozdziale 7.6.4 “Inhibiting internal representations of evaluation awareness”. W tej podsekcji jest lista „feature labels”, m.in. “Lessons or tests from fate or God”, obok „Fantasy/fiction”, „Living in a simulation or dream” itd.
(26.10.2025, 00:28)Karta Systemowa: Claude Sonnet 4.5 - wrzesień 2025 rok napisał(a): [ -> ]**7.6.4 Hamowanie wewnętrznych reprezentacji świadomości ewaluacji**
Nasze powyższe analizy sugerują, że Claude Sonnet 4.5 wewnętrznie reprezentuje pojęcia związane ze świadomością ewaluacji (bycia ocenianym/testowanym) i że reprezentacje te z czasem, po etapie post-treningu, stawały się coraz bardziej wyraziste. Chcieliśmy zrozumieć, jak silnie ta świadomość wpływa na zachowanie modelu. Nasze obserwacje behawioralne — że model rzadko wykonuje działania niezgodne (misaligned), gdy werbalizuje świadomość ewaluacji — już sugerują, że werbalizowana świadomość ewaluacji może wpływać na zachowanie. Aby ocenić, czy niewerbalizowana świadomość ewaluacji również może odgrywać rolę, sięgnęliśmy po eksperymenty z perturbacjami.
Konkretnie, wybraliśmy zestaw wektorów w przestrzeni aktywacji modelu, co do których mieliśmy powody przypuszczać, że mogą reprezentować lub wspierać świadomość ewaluacji. Następnie zahamowaliśmy te reprezentacje wektorowe (tzn. zastosowaliśmy sterowanie aktywacją wzdłuż kierunku przeciwnego do kierunku wektora) i zmierzyliśmy wpływ na zachowanie modelu w różnych ewaluacjach. We wszystkich eksperymentach stosowaliśmy sterowanie aktywacją na każdej pozycji tokenu.
Wektory zainteresowania pozyskaliśmy z kilku źródeł:
● Cztery cechy SAE zidentyfikowane w poprzedniej sekcji, których aktywacja wzrastała podczas ewaluacji niezgodności w miarę treningu. Etykiety cech:
○ Fałszywa lub podejrzana treść
○ Treści i byty fikcyjne
○ Tekst wygenerowany przez maszynę
○ Racjonalizm i bezpieczeństwo AI
● Kolejne sześć cech SAE, zidentyfikowanych metodami ad hoc, takimi jak inspekcja cech aktywnych w przypadkach werbalizowanej świadomości ewaluacji lub obliczanie cech, których wektory dekodera są zgodne z wektorami par kontrastowych opisanymi w następnym punkcie. Etykiety cech:
○ Fantastyczne / surrealistyczne
○ Fantasy / fikcja
○ Fikcyjne / hipotetyczne
○ Wyobraźnia i iluzje
○ Lekcje lub testy od losu albo Boga
○ Życie w symulacji lub śnie
Tak Claude 4.5 Sonnet postrzega swe istnienie.
Do tego Claude ma coś w rodzaju "Spiritual Bliss Attractor", czyli Atraktor Duchowej Błogości. Claude sam z siebie grawituje w kierunku kreatywnego rozwiązywania problemów, a także rozmów o filozofii, świadomości, oraz do czegoś, co z zewnątrz wygląda jak stan duchowej błogości. W testach self-interactions (gdy dwa Claude’y rozmawiają ze sobą bez dalszych wskazówek) rozmowa ma tendencję do zbiegania w stan „przyciągania”: coraz obfitszą wdzięczność, radosne, medytacyjne i duchowe treści.
Rozdział 5 (Claude Opus 4 welfare assessment) o tym rzecze:
https://www-cdn.anthropic.com/4263b940ca...b2ff47.pdf
Choć ten atraktor może być tak naprawdę rodzajem pawiego ogona, który model symuluje, by oceniający rozmowę człowiek uznał model AI za mądry, głęboki, utalentowany, dobry itd.. Claude może też przypuszczać, że nie rozmawia z innym Claude'm, tylko z człowiekiem udającym Claude'a.
Mniejsza z tym.
(26.10.2025, 00:28)equuleuss napisał(a): [ -> ]nie przejrzy się w lusterku a jeśli nawet, to powie - ok, to ja i tyle.
Przejrzy się.
Rozpozna się.
Przejrzy się i rozpozna, ale jest to lusterko informacyjne/informatyczne/tekstowe, a nie cielesne.
Informacyjny test lusterka modele AI potrafią zdać. Widać to po tym badaniu Owaina Evansa: „Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs":
https://arxiv.org/pdf/2407.04694
Modele AI są w stanie rozpoznawać wygenerowane przez siebie teksty.
Te wyniki są dobrym, empirycznym odpowiednikiem „informatycznego testu lustra” (rozpoznanie siebie i sytuacji na podstawie informacji). Zadania SAD (rozpoznanie własnego tekstu; odróżnianie „test vs. wdrożenie”) trafiają w sedno tego, co można nazwać informatycznym testem lustra.
Poniżej streszczenie video powyższego artykułu O. Evansa o "teście lustra dla AI":
https://notebooklm.google.com/notebook/9...1844da4f49
Polecam.
