Ale przecież już teraz multimodalne modele AI są w stanie natywnie rozumieć i tworzyć tekst, obrazy i dźwięk.
Już istnieją modele AI, które mają wspólną reprezentację w sieci neuronowej dla tekstu, obrazu i dźwięku. Tak działa np. GPT-4o.
Paradoks Moraveca mnie nie przekonuje.
Przede wszystkim przetwarzanie bitów jest o wiele tańsze energetycznie niż manipulowanie atomami wokół. Nie dziwota więc, że manipulowanie bitami idzie lepiej krzemowcom.
Po drugie, modele AI miały bardzo dużo materiału do nauki na tekście, ale do nauki poruszania się w przestrzeni już nie.
Po trzecie, w przypadku tekstu łatwo było ustawić funkcję nagrody - przewidywanie kolejnego tokenu i zadowalające wykonanie zadań (np. matematycznych) w Reinforcement Learning. W świecie fizycznym trudniej o dobre dobranie i tanie weryfikowanie funkcji nagrody (sygnału zwrotnego). Do tego trenowanie w świecie fizycznym jest droższe (znowu koszt manipulacji atomami).
Po czwarte, w świecie fizycznym wymagamy dużo większej niezawodności niż przy przetwarzaniu danych, co widać np. po autkach autonomicznych.
@Chiński Pokój
Zgadzam się z Hintonem, iż Chiński Pokój w kontekście aktualnych modeli AI nie ma zastosowania.
"Chiński Pokój” odnosi się do maszyny, która ślepo przestawia symbole według podręcznika. Sieci neuronowe działają inaczej: same uczą się wzorców z danych, uogólniają i potrafią skutecznie działać. Znaczenie wyłania się z nauki i najlepiej z kontaktu z percepcją oraz światem, a nie z ręcznie wpisanych reguł. Jeśli cały system zachowuje się jak rozumiejący, to funkcjonalnie rozumie.
Papuga recytuje frazy z książki, dziecko uczy się w świecie i używa języka sensownie. Krzemowe sieci neuronowe są bliżej dziecka niż (stochastycznej) papugi.
Już istnieją modele AI, które mają wspólną reprezentację w sieci neuronowej dla tekstu, obrazu i dźwięku. Tak działa np. GPT-4o.
fciu napisał(a): Główna różnica, która rzuca się w oczy to w jaki sposób paradoks Moraweca odzwierciedla kierunek rozwoju zwierząt i AI zachodzący w zasadzie dosłownie w odwrotną stronę.
Paradoks Moraveca mnie nie przekonuje.
Przede wszystkim przetwarzanie bitów jest o wiele tańsze energetycznie niż manipulowanie atomami wokół. Nie dziwota więc, że manipulowanie bitami idzie lepiej krzemowcom.
Po drugie, modele AI miały bardzo dużo materiału do nauki na tekście, ale do nauki poruszania się w przestrzeni już nie.
Po trzecie, w przypadku tekstu łatwo było ustawić funkcję nagrody - przewidywanie kolejnego tokenu i zadowalające wykonanie zadań (np. matematycznych) w Reinforcement Learning. W świecie fizycznym trudniej o dobre dobranie i tanie weryfikowanie funkcji nagrody (sygnału zwrotnego). Do tego trenowanie w świecie fizycznym jest droższe (znowu koszt manipulacji atomami).
Po czwarte, w świecie fizycznym wymagamy dużo większej niezawodności niż przy przetwarzaniu danych, co widać np. po autkach autonomicznych.
@Chiński Pokój
Zgadzam się z Hintonem, iż Chiński Pokój w kontekście aktualnych modeli AI nie ma zastosowania.
"Chiński Pokój” odnosi się do maszyny, która ślepo przestawia symbole według podręcznika. Sieci neuronowe działają inaczej: same uczą się wzorców z danych, uogólniają i potrafią skutecznie działać. Znaczenie wyłania się z nauki i najlepiej z kontaktu z percepcją oraz światem, a nie z ręcznie wpisanych reguł. Jeśli cały system zachowuje się jak rozumiejący, to funkcjonalnie rozumie.
Papuga recytuje frazy z książki, dziecko uczy się w świecie i używa języka sensownie. Krzemowe sieci neuronowe są bliżej dziecka niż (stochastycznej) papugi.
"I sent you lilies now I want back those flowers"

