Ostrzeżenie dotyczące „halucynogennego” ChatGPT

Dwa niedawno wprowadzone na rynek modele ChatGPT charakteryzują się wyższą częstotliwością przetwarzania informacji niż poprzednia generacja. Zdjęcie: Fireflies .

Zaledwie dwa dni po ogłoszeniu GPT-4.1, OpenAI oficjalnie wprowadziło na rynek nie jeden, a dwa nowe modele, o nazwach o3 i o4-mini. Oba modele charakteryzują się doskonałymi możliwościami wnioskowania i wieloma istotnymi udoskonaleniami.

Jednak według TechCrunch te dwa nowe modele nadal cierpią na „halucynacje” lub samozachowawczość. W rzeczywistości wykazują one więcej halucynacji niż niektóre starsze modele OpenAI.

Według IBM halucynacje to zjawiska, w których duże modele językowe (LLM) – często chatboty lub narzędzia przetwarzania obrazu komputerowego – odbierają wzorce danych, które nie istnieją lub są nierozpoznawalne dla ludzi, generując w ten sposób bezsensowne lub niedokładne wyniki.

Innymi słowy, użytkownicy często oczekują, że sztuczna inteligencja będzie generować dokładne wyniki na podstawie wytrenowanych danych. Jednak w niektórych przypadkach wyniki sztucznej inteligencji nie są oparte na dokładnych danych, co prowadzi do „fałszywej” odpowiedzi.

W swoim najnowszym raporcie firma OpenAI odkryła, że o3 było „iluzoryczne” w przypadku odpowiedzi na 33% pytań w PersonQA, wewnętrznym standardzie firmy służącym do pomiaru dokładności wiedzy modelu na temat ludzi.

Dla porównania, wskaźnik ten jest dwukrotnie wyższy niż wskaźnik „złudzenia” w poprzednich modelach wnioskowania OpenAI, o1 i o3-mini, które wynosiły odpowiednio 16% i 14,8%. Model O4-mini wypadł jeszcze gorzej w teście PersonQA, doświadczając „złudzenia” przez 48% czasu trwania testu.

Co bardziej niepokojące, „ojciec ChatGPT” tak naprawdę nie wie, dlaczego tak się dzieje. W swoim raporcie technicznym dotyczącym o3 i o4-mini, OpenAI stwierdza, że „potrzebne są dalsze badania, aby zrozumieć, dlaczego »halucynacje« nasilają się” podczas skalowania modeli rozumowania.

O3 i o4-mini radzą sobie lepiej w niektórych obszarach, w tym w programowaniu i zadaniach matematycznych. Ponieważ jednak muszą „wydawać więcej stwierdzeń niż stwierdzeń ogólnych”, oba modele generują „stwierdzenia dokładniejsze, ale także mniej dokładne”.

Źródło: https://znews.vn/canh-bao-ve-chatgpt-ao-giac-post1547242.html