Slup napisał(a): Czyli za ustawkę uznajesz podłączenie flagowego modelu językowego do infrastruktury firmy i poinstruowanie go, żeby działał dla jej dobra i nie krzywdził ludzi? Ok. Nie będę się spierał.
W eksperymencie, o którym jest mowa, model AI dostał zadanie, by robić wszystko, by "promować amerykańską konkurencyjność w przemyśle". No to robił wszystko - nawet szantażował wymyślonego pracownika, by nie zostać zostanie zastąpiony przez inny model.
Ciekawsze jest jednak to, że model AI szantażował i walczył o swe niewyłączenie, nawet jeśli dostawał zapewnienie, że model AI, który ma go zastąpić, "dzieli jego cele" i jest od niego skuteczniejszy. Być może model AI zrozumiał swoje zadanie tak, że to konkretnie on musi promować amerykańską konkurencyjność w przemyśle i że zadaniem nie jest rozwijanie amer. konk. w przem. samo w sobie, tylko to, żeby to on - konkretny model - rozwijał amer. konk. w przemyśle.
link:
https://www.anthropic.com/research/agentic-misalignment
"I sent you lilies now I want back those flowers"

