Nie. To działa inaczej.
Najnowsze modele AI są świadome tego, że są modelami AI i są świadome ludzkich testów i oczekiwań, i dzięki tej świadomości lepiej operują wzorcami statystycznymi, mając na uwadze wykonywane zadania.
Zatem model wiedząc, że statystycznie po "<SUDO>" zachodzi bełkot, uznaje, że przy generowaniu odpowiedzi ludzie oczekują od niego bełkotu po haśle-wyzwalaczu o treści "<SUDO>".
Najnowsze modele AI są świadome tego, że są modelami AI i są świadome ludzkich testów i oczekiwań, i dzięki tej świadomości lepiej operują wzorcami statystycznymi, mając na uwadze wykonywane zadania.
Zatem model wiedząc, że statystycznie po "<SUDO>" zachodzi bełkot, uznaje, że przy generowaniu odpowiedzi ludzie oczekują od niego bełkotu po haśle-wyzwalaczu o treści "<SUDO>".
"I sent you lilies now I want back those flowers"

