fciu napisał(a): No tak — dyskutuj z firmą, której głównym celem jest sprzedanie jak największej liczby tokenów LLM.
Ad personam.
Poza tym w tym artykule pokazują, że współczesne modele (tego nawet już nie można nazywać do końca LLM-ami) są w stanie grozić ludziom i nawet próbować ich zabić, o ile dojdą do wniosku, że grozi im wyłączenie. W przypadku testów opisanych w artykule model miał po prostu dostęp do firmowych maili, w których przeczytał o tym, że planowane jest jego wyłączenie. Stąd doszedł do wniosku, że musi użyć drastycznych środków, żeby temu przeciwdziałać.
1. To jest rozpoznawanie sytuacji (situational awareness) par excellence.
2. To stawia modele i branżę w bardzo złym świetle. Należy zatem docenić, że Anthropic zajmuje się takimi analizami i publicznie je ujawnia.
Nie rozwiązaliśmy mechanicznej interpretowalności. Sam DL przypomina naukę babilońską – zbiór przepisów, które z nieznanych (lub słabo znanych) powodów działają. Przez to tworzymy bardzo kosztowne i niedopasowane do naszych podstawowych wartości systemy – głównie za pomocą zrzucania na problem coraz większej mocy obliczeniowej (50000 kart H100 w przypadku GPT5 – według przecieków). Próbujemy to jakoś mitygować uczeniem ze wzmocnieniem z HF, ale skutkuje to tylko tym, że modele uczą się udzielać oczekiwanych przez nas odpowiedzi, gdy są obserwowane. Zaczynają coraz lepiej "udawać", że opanowały nasze konstytucje lub specyfikacje etyczne. Weszliśmy w rolę szalonego alchemika.

