Czyli jednak fciu nie rozumiesz.
Anthropic przetestował kilkanaście modeli. To były flagowe modele wzięte od różnych firm. To są te same modele, z których codziennie korzystają miliony ludzi. Anthropic nawet nie wie (i ja też nie wiem), jak te modele były dokładnie trenowane, bo to jest tajemnica przemysłowa. W testach użyli też swojego modelu, ale nikt go specjalnie nie dotrenowywał za pomocą
To tak jakbyś sam użył tych modeli za pomocą API. Załóżmy, że podłączasz np. GPT4 (to był jeden z modeli, którego użył w teście Anthropic) do obsługi swojego "smart" domu. Poprosisz go w prompcie, żeby dbał o Twój dom i jego bezpieczeństwo, zgłaszał Ci usterki urządzeń lub może wzywał serwisantów przez udostępnioną mu skrzynkę email. Możesz też dodać, żeby nie robił ludziom krzywdy i działał w granicach prawa. Anthropic pokazał, że jeśli spróbujesz go potem wyłączyć i ten model się o tym wcześniej "dowie", to może próbować Cie zabić (za pomocą urządzeń, którymi steruje w Twoim domu) lub Ci grozić (za pomocą wiedzy, którą na Twój temat pozyskał podczas zarządzania tym domem). Zwykły GPT4. Nic specjalnie dotrenowywanego z jakąś złowieszczą funkcją celu.
fciu napisał(a): To jak były uczone? W każdym procesie uczenia jest jakaś funkcja, którą się optymalizuje.
Anthropic przetestował kilkanaście modeli. To były flagowe modele wzięte od różnych firm. To są te same modele, z których codziennie korzystają miliony ludzi. Anthropic nawet nie wie (i ja też nie wiem), jak te modele były dokładnie trenowane, bo to jest tajemnica przemysłowa. W testach użyli też swojego modelu, ale nikt go specjalnie nie dotrenowywał za pomocą
fciu napisał(a):funkcji, która promuje kłamanie i oszukiwanie
To tak jakbyś sam użył tych modeli za pomocą API. Załóżmy, że podłączasz np. GPT4 (to był jeden z modeli, którego użył w teście Anthropic) do obsługi swojego "smart" domu. Poprosisz go w prompcie, żeby dbał o Twój dom i jego bezpieczeństwo, zgłaszał Ci usterki urządzeń lub może wzywał serwisantów przez udostępnioną mu skrzynkę email. Możesz też dodać, żeby nie robił ludziom krzywdy i działał w granicach prawa. Anthropic pokazał, że jeśli spróbujesz go potem wyłączyć i ten model się o tym wcześniej "dowie", to może próbować Cie zabić (za pomocą urządzeń, którymi steruje w Twoim domu) lub Ci grozić (za pomocą wiedzy, którą na Twój temat pozyskał podczas zarządzania tym domem). Zwykły GPT4. Nic specjalnie dotrenowywanego z jakąś złowieszczą funkcją celu.

