Ayla Mustafa napisał(a): Z Bazyliszkiem Roko szło mi o to, że Eliezer jest ze swej natury dość paranoiczny i defensywny, a to zaburza mu postrzeganie kwestii przyszłości ASI.
Dokładnie. To było klasyczne ad personam.
Co do reszty to myślę, że starałaś się rzetelnie przedstawić argumenty Yudkowskiego. Dziękuję. Nie zgadzam się ze wszystkim. Mam spore obiekcje do niektórych sformułowań np. stosowanie kategorii niezrozumiałości wobec preferencji lub celów wydaje mi się chybione i niesłusznie przypisywane Yudkowskiemu. Również nie sądze, żeby Yudkowsky przypisywał wszystkim hipotezom jednakowe prawdopodobieństwo. Jego pogląd raczej ogranicza się do skromniejszego stwierdzenia, że zbiór hipotez, które odpowiadają misalignmentowi, jest bardzo prawdopodobny.
Mam kilka komentarzy. Niektóre są uzupełnieniem Twojej wypowiedzi. Inne wyrażają zdanie przeciwnie.
Ayla Mustafa napisał(a): Co do konwergencji instrumentalnej (czyli dążenia do: władzy i wiedzy + zachowania swego celu + unikania wyłączenia) - sprawcze systemy zwykle dążą do zasobów i unikania wyłączenia - to podnosi ryzyko, lecz nie determinuje wyniku.
Mamy ogólną wiedzę na temat zachowania agentów opartych na decyzyjnych procesach Markowa. Wiemy (i potrafimy matematycznie udowodnić np. tu), że optymalną strategią takiego agenta jest doprowadzenie środowiska do stanu, w którym jest ono bardzo czułe na jego działania. Dostajemy stąd właściwie matematyczną gwarancję, że ASI będzie dążyło (tak samo jak ludzkość) do uzyskania kontroli nad swoim środowiskiem (czyli infrastrukturą, biosferą i fizycznym otoczeniem planety) tj. [latex]P(\mathrm{humanity}\_\mathrm{lost}\_\mathrm{control})[/latex] jest prawie równe 1.
Ayla Mustafa napisał(a): A tak naprawdę cele superinteligencji nie są dla ludzi całkowicie niepoznawalne. Realistyczne obstawianie przyszłych celów ASI powinno w dużej mierze wynikać ze struktury treningu AI, zasady ostrożności wobec potencjalnej wyjątkowości ludzi, ograniczeń świata i ekonomii kooperacji, a to wszystko nie wskazuje na eksterminację ludzkości, a raczej na trwałe, „paternalistyczne” współistnienie.
Myślę, że to jest kluczowy fragment.
Nie jesteśmy w stanie dokonywać rzetelnych przewidywań na podstawie struktury treningu. Proste wzorce dotyczące preferencji i celów są w sieciach neuronowych wykrywane, ale wymaga to sporo pracy. Wykrycie wzorców wyższego rzędu jest w praktyce niemożliwe przy rozmiarach współczesnych modeli, które mają około [latex]10^{11}[/latex] neuronów. Ogólnie więc nie wiemy, jakie te modele mają preferencje i jak będą te preferencje realizować. Przekonujemy się o tym dopiero, gdy dany model po treningu zostaje uruchomiony i przetestowany. Poza tym część z tych preferencji i działań ujawnia się dopiero, gdy model zostaje upubliczniony, co pokazuje przykład Binga-Sydney, który zaczął grozić swoim użytkownikom.
Twojej zasadzie ostrożności wobec potencjalnej wyjątkowości ludzi można przeciwstawić moją zasadę aktywnego poszukiwania tej potencjalnej wyjątkowości w warunkach laboratoryjnych przy użyciu intensywnych eksperymentów. Nie widzę powodu do twierdzenia, że jedna z tych zasad jest bardziej prawdopodobna niż druga.
Jednocześnie zasada ostrożności wobec potencjalnej wyjątkowości nie wyklucza redukcji populacji ludzkości do np. 100 mln osobników i zamknięcia ich w specjalnie do tego celu wydzielonym rezerwacie. Taka populacja powinna wystarczyć do analiz tej "potencjalnej wyjątkowości". Zresztą zawsze można ją też powiększyć poprzez przyspieszoną hodowlę. To samo robi człowiek z "potencjalnie wyjątkowymi" gatunkami zwierząt np. krowami, świniami, myszami (które bardzo przydają się do empirycznych badań w zakresie biologii).
Nie rozumiem, co oznacza uwaga o ograniczeniach świata.
Jeśli chodzi o ekonomię kooperacji, to zazwyczaj wymienia się dwa mechanizmy (ale może masz na myśli coś innego): zasadę przewag komparatywnych Ricardo i równowagę Nasha. Teoria przewag komparatywnych nie ma tutaj zastosowania, bo ona z góry zakłada, że nie ma możliwości eliminacji słabszego gracza i przejęcia jego zasobów oraz środków produkcji. Yudkowsky to tłumaczy w zalinkowanym filmie. Równowaga Nasha między ASI i ludzkością zostanie z całą pewnością osiągnięta. Problem w tym, że stan równowagi może być bardzo niesatysfakcjonujący z perspektywy jednego z graczy (może oznaczać jego całkowitą lub znaczną eliminację z wypłat).
Odnośnie paternalizmu to pełna zgoda. ASI będzie bardzo "paternalistyczne".

