Kontestator napisał(a): Aby "zatruć" LLM wystarczy wrzucić dosłownie kilkaset dziwnych plików w odpowiednie miejsce i model zaczyna się zachowywać jak wariat.
(...)
Nie ma w ich zachowaniu żadnego emergentnego "zdrowego rozsądku" ani świadomości błędu.
Twój wniosek jest niestety błędny.
Model AI po prostu wyuczył się z około 250 dokumentów tego, że ma on pisać bełkot po zobaczeniu frazy "<SUDO>". Ta fraza jest tak nietypowa, że zakodowała się w umyśle modelu jako oczekiwany wyzwalacz bez względu na wielkość modelu (nie było innych danych kodujących jak reagować na "<SUDO>", które to dane mogłyby nadpisać zasadę wywleczoną z około 250 dokumentow).
"I sent you lilies now I want back those flowers"

