Slup napisał(a):Mapa Burzowa napisał(a): Po pierwsze, w jakim celu, nie mówiąc o skutkach, a po drugie, jeżeli trzeba do tego zespołu programistów, to po co komu AI.
Użyłem tego przykładu do zilustrowania czysto teoretycznej tezy, że taki (możliwy do zbudowania już dziś) sztuczny system posiada model rzeczywistości. Nie agituję za integrowaniem LLM-ów z robotami sprzątającymi.
Akurat u mnie w pracy tydzień temu pojawił się w ramach testu robot sprzątający, który mówi "uwaga jadę" i chyba nic poza tym mówić nie potrafi, bo szkoda na to jego zasobów, niemniej obserwowanie jak radzi sobie z nieoczekiwanymi przeszkodami bywa całkiem zabawne

Natomiast rozumiem cel Twojej tezy, ale z drugiej strony obrazuje ona skalę pewnych nieporozumień i nadinterpretacji. Zostało już tu powiedziane, że to nie są rzeczy trywialne, a do tego należałoby ustalić czym jest model rzeczywistości. Typowy LLM "zna" rzeczywistość opisaną tekstem (u swojej podstawy to "model generujący tekst", natomiast w ocenie człowieka powinno się go określać mianem "modelu kłamiącego").
Dodanie do tego możliwości generowania grafiki i dźwięku, a także interpretacji dźwięku w postaci mowy, wcale nie świadczy o tym, że uzbrojenie LLMa w mikrofon i kamerę z robota sprzątającego sprawi, że rzeczywistość "zobaczona kamerą" i "usłyszana mikrofonem" będzie mu znana, bowiem posiada jakiś model rzeczywistości - otóż wyjdzie na to, że żadnego takiego modelu typowy LLM nie posiada.
Pewnym, choć może nieidealnym przykładem może być to, co taki chatGPT potrafi zrobić z obrazkiem zawierającym tabelę z tekstem, przy czym ta tabela zawiera np. jakieś scalone komórki, jakiś układ tekstu, a ten układ jest ważny dla interpretacji, przy czym człowiekowi wystarczy rzut oka i od razu intuicyjnie wie, o co w tym wszystkim chodzi. Jeżeli chatowiGPT da się zadanie przetłumaczenia tego obrazka np. na chiński i zapisania w jakimś edytowalnym formacie przy zachowaniu oryginalnego formatowania tabeli i układu tekstu, to robi co chce, generuje sieczkę, a kolejne uściślanie zadania czasem tylko pogłębia problem, natomiast jeżeli już wydaje się, że zadanie wykonał prawidłowo, to dokładne sprawdzenie ujawnia, że coś pominął, opuścił, przeinaczył lub nieproszony uprościł.
Można się zatem spodziewać, a nawet być pewnym, że ewentualna interpretacja rzeczywistości przez LLM na podstawie danych "na żywo" z dodatkowych czujników zewnętrznych na kształt ludzkich zmysłów, skończy się katastrofą - no chyba, że człowiek, a raczej cała armia ludzi, włoży całe mnóstwo pracy i zasobów w stworzenie modelu ściśle wyspecjalizowanego, w którym moduł LLM będzie tylko małym dodatkiem do celów komunikacji z człowiekiem, i często najlepiej komunikacji jak najprostszej.
