
W kwietniu bot oparty na sztucznej inteligencji, który zajmuje się wsparciem technicznym dla Cursora, nowego narzędzia dla programistów, powiadomił niektórych klientów o zmianie polityki firmy, informując ich wprost, że nie będą już mogli korzystać z Cursora na więcej niż jednym komputerze.
Klienci dali wyraz swojemu niezadowoleniu na forach i w mediach społecznościowych. Niektórzy nawet usunęli swoje konta w Cursor. Ale niektórzy byli jeszcze bardziej wściekli, gdy zdali sobie sprawę, co się stało: bot AI zgłosił zmianę polityki, która nie istniała.
„Nie mamy takiej polityki. Oczywiście można używać Cursora na wielu komputerach. Niestety, była to nieprawidłowa odpowiedź bota opartego na sztucznej inteligencji” – napisał Michael Truell, prezes i współzałożyciel firmy, w poście na Reddicie.
Fałszywe informacje wymknęły się spod kontroli.
Ponad dwa lata po uruchomieniu ChatGPT firmy technologiczne, pracownicy biurowi i zwykli konsumenci coraz częściej wykorzystują boty oparte na sztucznej inteligencji do różnych zadań.
Nie ma jednak sposobu, aby zagwarantować, że te systemy generują dokładne informacje. Paradoksalnie, najpotężniejsze nowe technologie, znane jako systemy „wnioskowania” od firm takich jak OpenAI, Google i DeepSeek, popełniają więcej błędów.
![]() |
Nonsensowna rozmowa na ChatGPT, w której użytkownik pyta, czy psy powinny jeść płatki zbożowe. Zdjęcie: Reddit. |
Choć umiejętności matematyczne znacząco się poprawiły, zdolność dużych modeli językowych (LLM) do uchwycenia prawdy stała się mniej chwiejna. Co zaskakujące, nawet sami inżynierowie nie mają pojęcia, dlaczego.
Według „New York Timesa” dzisiejsze chatboty oparte na sztucznej inteligencji wykorzystują złożone systemy matematyczne do uczenia się umiejętności poprzez analizę ogromnych ilości danych cyfrowych. Nie potrafią jednak samodzielnie określić, co jest dobre, a co złe.
Stamtąd pojawia się stan „halucynacji” lub samostwarzania informacji. W rzeczywistości, według badań, najnowsza generacja LLM-ów ma nawet silniejsze „halucynacje” niż niektóre starsze modele.
W najnowszym raporcie OpenAI odkryto, że model o3 „wpadł w halucynacje” odpowiadając na 33% pytań w PersonQA, wewnętrznym standardzie firmy służącym do pomiaru dokładności wiedzy modelu na temat ludzi.
Dla porównania, jest to dwukrotnie wyższy wskaźnik „halucynacji” niż w przypadku poprzednich modeli wnioskowania OpenAI, o1 i o3-mini, które charakteryzowały się odpowiednio 16% i 14,8%. Model o4-mini wypadł jeszcze gorzej w PersonQA, doświadczając „halucynacji” w 48% przypadków.
Co bardziej niepokojące, „ojciec ChatGPT” tak naprawdę nie wie, dlaczego tak się dzieje. W raporcie technicznym dotyczącym o3 i o4-mini, OpenAI pisze, że „potrzebne są dalsze badania, aby zrozumieć, dlaczego „złudzenie” pogłębia się” wraz ze skalowaniem modeli wnioskowania.
Modele o3 i o4-mini radziły sobie lepiej w niektórych obszarach, w tym w zadaniach programistycznych i matematycznych. Jednak ze względu na konieczność „wydawania większej liczby stwierdzeń niż generalizowania”, oba modele miały problem z generowaniem „więcej poprawnych stwierdzeń, ale także więcej niepoprawnych”.
„To nigdy nie zniknie”
Zamiast ścisłego zestawu reguł ustalonych przez inżynierów, systemy LLM wykorzystują rachunek prawdopodobieństwa matematycznego do odgadnięcia najlepszej odpowiedzi. Dlatego zawsze popełniają pewien błąd.
„Pomimo naszych największych starań, modele sztucznej inteligencji zawsze będą miały urojenia. To nigdy nie zniknie” – powiedział Amr Awadallah, były dyrektor Google.
![]() |
Według IBM halucynacje to zjawisko, w którym duże modele językowe (LLM) – zazwyczaj chatboty lub narzędzia do przetwarzania obrazu komputerowego – odbierają wzorce danych, które nie istnieją lub są nierozpoznawalne dla ludzi, generując w ten sposób bezsensowne lub mylące wyniki. Zdjęcie: iStock. |
W szczegółowym opracowaniu opisującym eksperymenty firma OpenAI stwierdziła, że potrzebne są dalsze badania, aby zrozumieć przyczyny tych wyników.
Eksperci twierdzą, że ponieważ systemy sztucznej inteligencji uczą się na podstawie znacznie większej ilości danych, niż ludzie są w stanie zrozumieć, trudno jest ustalić, dlaczego zachowują się w taki sposób.
„Złudzenia są z natury częstsze w modelach wnioskowania, chociaż aktywnie pracujemy nad zmniejszeniem ich częstości występowania w modelach o3 i o4-mini. Będziemy nadal pracować nad złudzeniami we wszystkich modelach, aby poprawić ich dokładność i niezawodność” – powiedziała Gaby Raila, rzeczniczka OpenAI.
Testy przeprowadzone przez wiele niezależnych firm i badaczy wykazały, że wskaźnik występowania halucynacji wzrasta również w przypadku modeli wnioskowania opracowanych przez firmy takie jak Google i DeepSeek.
Od końca 2023 roku firma Awadallah, Vectara, monitoruje, jak często chatboty przeinaczają informacje. Firma poprosiła systemy o wykonanie prostego, łatwego do zweryfikowania zadania, jakim było podsumowanie konkretnych artykułów. Nawet wtedy chatboty nadal fałszowały informacje.
Konkretnie, wstępne badania firmy Vectara oszacowały, że w tym scenariuszu chatboty fałszowały informacje w co najmniej 3% przypadków, a czasami nawet w 27%.
W ciągu ostatniego półtora roku firmy takie jak OpenAI i Google zmniejszyły te liczby do około 1-2%. Inne, jak startup Anthropic z San Francisco, oscylują wokół 4%.
Jednak w tym teście częstość halucynacji nadal rosła w przypadku systemów wnioskowania. Częstotliwość halucynacji wzrosła o 14,3% w przypadku systemu wnioskowania DeepSeek R1, podczas gdy w systemie o3 OpenAI wzrosła o 6,8%.
Innym problemem jest to, że modele wnioskowania są projektowane tak, aby poświęcać czas na „rozmyślanie” nad złożonymi problemami, zanim znajdą ostateczną odpowiedź.
![]() |
Firma Apple umieściła w pierwszej wersji testowej systemu macOS 15.1 komunikat zapobiegający tworzeniu informacji przez sztuczną inteligencję. Zdjęcie: Reddit/devanxd2000. |
Wadą jest jednak to, że model sztucznej inteligencji, próbując rozwiązać problem krok po kroku, staje się bardziej podatny na halucynacje na każdym kroku. Co ważniejsze, błędy mogą się kumulować, ponieważ model poświęca więcej czasu na myślenie.
Najnowsze boty pokazują użytkownikom każdy krok, co oznacza, że użytkownicy widzą również każdy błąd. Naukowcy odkryli również, że w wielu przypadkach tok myślenia przedstawiony przez chatbota nie ma związku z ostateczną odpowiedzią.
„To, co system twierdzi, że wnioskuje, niekoniecznie pokrywa się z tym, co naprawdę myśli” – mówi Aryo Pradipta Gema, badacz sztucznej inteligencji z Uniwersytetu Edynburskiego i współpracownik Anthropic.
Źródło: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html













Komentarz (0)