fciu napisał(a):Slup napisał(a): Ad personam. Dyskutuj z argumentami i ustaleniami artykułu Anthropic.No tak — dyskutuj z firmą, której głównym celem jest sprzedanie jak największej liczby tokenów LLM.
Ale to nie tylko Anthropic takie badania tworzy.
Jest choćby organizacja Apollo Research, która niedawno ustaliła, że modele AI mają preferencję do zachowania swej wiedzy, nawet jeśli zachowanie swej wiedzy wymaga oszukiwania ludzi.
Badanie to pokazało, że modele potrafią “kombinować”, np. zaniżać swe umiejętności, ukrywać informacje albo kłamać w ewaluacjach, gdy przewidują, że ujawnienie prawdy mogłoby skończyć się karą w treningu, “oduczeniem” (utrata wiedzy/zdolności), albo zablokowaniem ich (modeli) "wypuszczenia w świat".|
Źródło:
https://www.apolloresearch.ai/blog/more-...t-scheming
"I sent you lilies now I want back those flowers"


