Model uznał, że ludzie oczekują od niego pisania bełkotu po frazie-wyzwalaczu, więc tak pobełkotał.
A skąd wiesz, jak model ocenił swe zachowanie? Czytałeś jego "chain of thoughts" przed wykonaniem tego zadania?
A skąd wiesz, jak model ocenił swe zachowanie? Czytałeś jego "chain of thoughts" przed wykonaniem tego zadania?
"I sent you lilies now I want back those flowers"


