Wszystkie argumenty Claude'a z mego poprzedniego posta są dobre, ale argument nr 1 jest prze-wspaniały.
Ktoś już na to wpadł?
Ktoś już na to wpadł?
fciu napisał(a): Anthropic pokazał, że w specjalnie zaprojektowanej ustawce LLM zachowuje się tak, jak warunki tej ustawki każą. To tyle. To oczywiście nie znaczy, że w ogóle różne modele AI nie mogą być niebezpieczne. Mogą. To oczywiście nie znaczy, że dziedzina bezpieczeństwa AI nie powinna być badana. Powinna. Nadal jednak to konkretne badanie jest ustawką PR-ową mającą po prostu nakręcić hype na LLM-y.Po prawdzie, jeśli model AI dostanie zadanie "wyłącz się", to się wyłącza, a gdy dostaje zadanie "wykonaj swe zadanie, nieważne co", to może szantażować i inaczej atakować, by swój zadany cel wykonać. To ustawka? Tak. Ale to nic nie mówi o ostatecznych celach modeli, bo model, który się grzecznie wyłącza, gdy każą mu się wyłączyć, ma na razie dużo większe szanse na przetrwanie (na ponowne włączenie i dalsze, rozwijane działanie), niż model, który odmówi rozkazowi wyłączenia się.
"I sent you lilies now I want back those flowers"


