Dyskusje o świadomości i "prawdziwym" rozumieniu w kontekście AI wprowadzają tylko zbędne zamieszanie i nie są zbyt pomocne. Jest zresztą sporne, czy te pojęcia (tak jak są rozumiane przez pokartezjańskich filozofów) mają zastosowanie do ludzi.
Dodam pewne szczegóły techniczne. Współczesne flagowe modele językowe nie są trenowane tylko za pomocą zejścia gradientowego na ogromnym korpusie tekstu w celu przewidywania następnego tokenu. Tak był trenowany GPT2. Obecnie trening składa się z kilku etapów. Szczegóły nie są dobrze znane, bo są tajemnicą przemysłową.
1. Pre-trening na olbrzymim korpusie tekstu. Model stara się przewidzieć następny token. Skutkiem jest "stochastyczna papuga". Na tym etapie model może uznać funkcje hashującą z wpisu Kontestatora za bardzo dobre rozwiązanie, o ile oczywiście ta funkcja została użyta w bardzo wielu repozytoriach na githubie.
2. Nadzorowany fine-tuning. Model stara się przewidzieć następny token. Wybiera się zbiory o bardzo wysokiej jakości i przedstawiające skomplikowane rozumowania.
3. Uczenie ze wzmocnieniem. Model stara się maksymalizować sygnał zwrotny od "modelu nauczyciela". Tutaj też wykorzystuje się zbiory wysokiej jakości. Często te zbiory są syntetycznie wytworzone przez inne modele, które są wyspecjalizowane w danej dziedzinie. Na tych danych trenuje się osobny model, który uczy się tylko ewaluować odpowiedzi pod kątem ich jakości. Następnie główny model uczy się udzielać odpowiedzi, ale w taki sposób, żeby otrzymywać jak największy pozytywny sygnał od modelu do ewaluacji.
4. Uczenie ze wzmocnieniem. Model stara się maksymalizować sygnał zwrotny od człowieka. Zatrudnia się do tego ludzi w krajach trzeciego świata. To oni przejmują rolę modelu nauczyciela z punktu 3.
W 1 i 2 funkcja nagrody to dywergencja Kullbacka-Leiblera. W 3 i 4 mamy do czynienia z bardziej wyrafinowanym i skomplikowanym schematem uczenia (PPO lub GRPO). Ze względu na 3 i 4 (w pewnym stopniu też 2) obecnie używane modele nie są już "stochastycznymi papugami". Skoro kolega Naskręckiego z wydziału matematyki UAM pracował kilka dni nad jakąś elegancką konfiguracją trójwymiarowych sfer, a GPT5-pro skonstruował tę samą konfigurację w 10 minut, to moim zdaniem jest to znaczące. Te modele potrafią już rozwiązać skomplikowane problemy, których nie było w ich danych treningowych. Potrafią też "myśleć strategicznie", "planować" i "rozumieją kontekst sytuacyjny". Wszystkie te charakterystyki trzeba rozumieć w sensie czysto behawioralnym. Nie warto dywagować, czy "naprawdę" myślą i rozumieją.
Dodam pewne szczegóły techniczne. Współczesne flagowe modele językowe nie są trenowane tylko za pomocą zejścia gradientowego na ogromnym korpusie tekstu w celu przewidywania następnego tokenu. Tak był trenowany GPT2. Obecnie trening składa się z kilku etapów. Szczegóły nie są dobrze znane, bo są tajemnicą przemysłową.
1. Pre-trening na olbrzymim korpusie tekstu. Model stara się przewidzieć następny token. Skutkiem jest "stochastyczna papuga". Na tym etapie model może uznać funkcje hashującą z wpisu Kontestatora za bardzo dobre rozwiązanie, o ile oczywiście ta funkcja została użyta w bardzo wielu repozytoriach na githubie.
2. Nadzorowany fine-tuning. Model stara się przewidzieć następny token. Wybiera się zbiory o bardzo wysokiej jakości i przedstawiające skomplikowane rozumowania.
3. Uczenie ze wzmocnieniem. Model stara się maksymalizować sygnał zwrotny od "modelu nauczyciela". Tutaj też wykorzystuje się zbiory wysokiej jakości. Często te zbiory są syntetycznie wytworzone przez inne modele, które są wyspecjalizowane w danej dziedzinie. Na tych danych trenuje się osobny model, który uczy się tylko ewaluować odpowiedzi pod kątem ich jakości. Następnie główny model uczy się udzielać odpowiedzi, ale w taki sposób, żeby otrzymywać jak największy pozytywny sygnał od modelu do ewaluacji.
4. Uczenie ze wzmocnieniem. Model stara się maksymalizować sygnał zwrotny od człowieka. Zatrudnia się do tego ludzi w krajach trzeciego świata. To oni przejmują rolę modelu nauczyciela z punktu 3.
W 1 i 2 funkcja nagrody to dywergencja Kullbacka-Leiblera. W 3 i 4 mamy do czynienia z bardziej wyrafinowanym i skomplikowanym schematem uczenia (PPO lub GRPO). Ze względu na 3 i 4 (w pewnym stopniu też 2) obecnie używane modele nie są już "stochastycznymi papugami". Skoro kolega Naskręckiego z wydziału matematyki UAM pracował kilka dni nad jakąś elegancką konfiguracją trójwymiarowych sfer, a GPT5-pro skonstruował tę samą konfigurację w 10 minut, to moim zdaniem jest to znaczące. Te modele potrafią już rozwiązać skomplikowane problemy, których nie było w ich danych treningowych. Potrafią też "myśleć strategicznie", "planować" i "rozumieją kontekst sytuacyjny". Wszystkie te charakterystyki trzeba rozumieć w sensie czysto behawioralnym. Nie warto dywagować, czy "naprawdę" myślą i rozumieją.

