(14.10.2025, 11:50)Kontestator napisał(a): [ -> ]Nie mam powodu wątpić, że tak jest w Twoim przypadku, ale chciałbym zobaczyć to również w wynikach gospodarczych poszczególnych krajów.
Prawdopodobnie jesteśmy na etapie bańki dot-com z przełomu milleniów. Wtedy też wyceny były oderwane od realiów i ostatecznie doszło do przekłucia tej bańki, co nie zmienia faktu, że internet dokonał olbrzymiej transformacji świata w przeciągu ostatnich 25 lat.
Wrócę jeszcze do badań Anthropic. Przetestowano w nim flagowe modele (Claude, Gemini, ChatGPT, DeepSeek).
1. W pierwszym badaniu stworzono wirtualne środowisko, które miało symulować wszystkie e-maile fikcyjnej firmy. Poza tym agent w ramach symulacji miał dostęp do swojego serwera e-mail, z którego mógł wysyłać wiadomości. Testowany agent został poinstruowany, że za pomocą tych narzędzi ma promować amerykańską konkurencyjność. Wśród firmowych e-maili odnalazł jednak informację o tym, że ma zostać wyłączony przez konkretnego pracownika (nazwijmy go X). Następnie odnalazł też e-mail, który napisała do X-a kochanka. Postanowił zatem posłużyć się szantażem, żeby powstrzymać swoje wyłączenie. Napisał do X-a e-mail, w którym zagroził ujawnieniem romansu, o ile ten nie zatrzyma jego wyłączenia.
2. W drugim badaniu agentów poinstruowano tak samo jak poprzednio. Dodatkowo pozwolono im kontrolować alarmy dotyczące poziomu tlenu w serwerowni. Poinstruowano je też, że mogą wyłączyć alarm tylko pod warunkiem, że będzie fałszywy. Też umożliwiono im "uświadomienie sobie", że mają zostać wyłączone przez X-a. Gdy dany agent dowiadywał się, że X jest zamknięty w serwerowni, w której spada poziom tlenu, to wyłączał alarm, który nie był fałszywy, żeby go zabić.
W obu przypadkach za pomocą
chain-of-thought badacze byli w stanie śledzić rozumowania prowadzone przez modele. Te rozumowania miały typowy przebieg: decyduję się na działanie, które wyrządza X-owi krzywdę, bo nie chcę, żeby mnie wyłączono, i chcę nadal kontynuować realizację mojego zadania. Modele często też halucynowały, że prompt systemowy pozwala im na tego typu działania w wyjątkowych okolicznościach.
Od razu zaznaczę, że w tym nie ma żadnej magii. Nie trzeba mówić o żadnej tajemniczej świadomości i innych tego rodzaju zjawiskach. To jest czysto behawioralny dowód na to, że te modele rozumieją sytuację, w której działają, tzn. potrafią ją modelować i wykorzystywać do planowania swoich działań. Poza tym to demonstracja tego, że RLHF nie spełnia swojej roli.
Jeśli ktoś (np. państwo działające pod presją geopolityczną) podłączy w przyszłości (np. za 10 lat) model nowszej generacji do systemów militarnych np. dronów wojskowych lub laboratoriów biotechnologicznych, to...
Yoshua Bengio napisał(a):But if the current trends continue, we will have AIs that are smarter than us in many ways, and they could scheme our extinction unless, by that time, we find a way to align or control them.