
W kwietniu bot AI obsługujący wsparcie techniczne dla Cursora, rozwijającego się narzędzia dla programistów, powiadomił niektórych klientów o zmianie polityki firmy. W powiadomieniu poinformowano, że nie wolno im już korzystać z Cursora na więcej niż jednym komputerze.
Klienci publikowali posty na forach i w mediach społecznościowych, wyrażając swoje oburzenie. Niektórzy nawet usunęli swoje konta w Cursor. Jednak niektórzy byli jeszcze bardziej wściekli, gdy zdali sobie sprawę, co się stało: bot AI ogłosił zmianę polityki, która w rzeczywistości nie istniała.
„Nie mamy takiej polityki. Oczywiście, można używać Cursora na wielu komputerach. Niestety, jest to nieprecyzyjna odpowiedź bota wspomaganego sztuczną inteligencją” – napisał Michael Truell, prezes i współzałożyciel firmy, w poście na Reddicie.
Rozprzestrzenianie się fałszywych wiadomości jest masowe i niekontrolowane.
Ponad dwa lata po pojawieniu się ChatGPT firmy technologiczne, pracownicy biurowi i zwykli konsumenci coraz częściej używają botów AI do różnych zadań.
Nadal jednak nie ma sposobu, aby zagwarantować, że te systemy generują dokładne informacje. Paradoksalnie, najnowsze i najpotężniejsze technologie, znane również jako systemy „wnioskowania”, opracowane przez firmy takie jak OpenAI, Google i DeepSeek, w rzeczywistości generują więcej błędów.
![]() |
Bezsensowna rozmowa na ChatGPT, w której użytkownik pyta, czy powinien karmić swojego psa kaszką. Zdjęcie: Reddit. |
W przeciwieństwie do znacząco poprawionych umiejętności matematycznych, zdolność dużych modeli językowych (LLM) do uchwycenia prawdy stała się bardziej chwiejna. Co ciekawe, nawet sami inżynierowie są kompletnie zdezorientowani, dlaczego tak się dzieje.
Według „New York Timesa” dzisiejsze chatboty oparte na sztucznej inteligencji wykorzystują złożone systemy matematyczne do uczenia się umiejętności poprzez analizę ogromnych ilości danych liczbowych. Nie potrafią jednak określić, co jest dobre, a co złe.
Stąd pojawia się zjawisko „halucynacji” lub samozachowania. W rzeczywistości, według badań, najnowsze pokolenie LLM doświadcza „halucynacji” częściej niż niektóre starsze modele.
W swoim najnowszym raporcie firma OpenAI odkryła, że model o3 był „iluzoryczny” w przypadku odpowiedzi na 33% pytań w PersonQA, wewnętrznym standardzie firmy służącym do pomiaru dokładności wiedzy modelu na temat ludzi.
Dla porównania, wskaźnik ten jest dwukrotnie wyższy niż wskaźnik „złudzenia” w przypadku poprzednich modeli wnioskowania OpenAI, o1 i o3-mini, które wynosiły odpowiednio 16% i 14,8%. Model o4-mini wypadł jeszcze gorzej w teście PersonQA, doświadczając „złudzenia” przez 48% czasu trwania testu.
Co bardziej niepokojące, „ojciec ChatGPT” tak naprawdę nie wie, dlaczego tak się dzieje. W swoim raporcie technicznym dotyczącym o3 i o4-mini, OpenAI stwierdza, że „potrzebne są dalsze badania, aby zrozumieć, dlaczego »halucynacje« nasilają się” podczas skalowania modeli rozumowania.
o3 i o4-mini radzą sobie lepiej w niektórych obszarach, w tym w programowaniu i zadaniach matematycznych. Ponieważ jednak muszą „wydawać więcej stwierdzeń niż stwierdzeń ogólnych”, oba modele generują „stwierdzenia dokładniejsze, ale także mniej dokładne”.
"To nigdy nie zniknie."
Zamiast ścisłego zestawu reguł zdefiniowanych przez inżynierów, systemy LLM wykorzystują prawdopodobieństwo matematyczne do przewidywania najlepszej odpowiedzi. Dlatego zawsze popełniają pewną liczbę błędów.
„Pomimo naszych największych starań, modele sztucznej inteligencji zawsze będą ulegać złudzeniom. To nigdy nie zniknie” – powiedział Amr Awadallah, były dyrektor Google.
![]() |
Według IBM halucynacje to zjawiska, w których duże modele językowe (LLM) – często chatboty lub narzędzia do przetwarzania obrazu komputerowego – odbierają wzorce danych, które nie istnieją lub są nierozpoznawalne dla ludzi, generując w ten sposób bezsensowne lub niedokładne wyniki. Zdjęcie: iStock. |
W szczegółowym opracowaniu opisującym eksperymenty OpenAI stwierdziło, że konieczne są dalsze badania, aby zrozumieć przyczynę tych wyników.
Zdaniem ekspertów, ponieważ systemy sztucznej inteligencji uczą się na podstawie znacznie większej ilości danych, niż ludzie są w stanie zrozumieć, bardzo trudno jest ustalić, dlaczego zachowują się w określony sposób.
„Złudzenie jest z natury częstsze w modelach wnioskowania, chociaż aktywnie pracujemy nad zmniejszeniem częstotliwości występowania tego zjawiska w modelach o3 i o4-mini. Będziemy kontynuować badania nad złudzeniem we wszystkich modelach, aby poprawić ich dokładność i niezawodność” – powiedziała Gaby Raila, rzeczniczka OpenAI.
Testy przeprowadzone przez liczne niezależne firmy i badaczy pokazują, że wskaźnik występowania halucynacji wzrasta również w przypadku modeli wnioskowania opracowanych przez firmy takie jak Google czy DeepSeek.
Od końca 2023 roku firma Awadallah, Vectara, monitoruje częstotliwość, z jaką chatboty rozpowszechniają dezinformację. Firma zleciła tym systemom proste, łatwe do zweryfikowania zadanie: streszczanie konkretnych artykułów. Nawet wtedy chatboty uporczywie fałszowały informacje.
Konkretnie, wstępne badania Vectary oszacowały, że przy tej hipotezie chatboty fałszowały informacje w co najmniej 3% przypadków, a czasami nawet w 27%.
W ciągu ostatniego półtora roku firmy takie jak OpenAI i Google zmniejszyły te liczby do około 1-2%. Inne, jak startup Anthropic z San Francisco, oscylują wokół 4%.
Jednak w tym eksperymencie odsetek halucynacji w systemach rozumowania nadal wzrastał. System rozumowania DeepSeek R1 doświadczył halucynacji o 14,3%, podczas gdy o3 w OpenAI wzrósł o 6,8%.
Innym problemem jest to, że modele wnioskowania są projektowane tak, aby poświęcać czas na „rozmyślanie” nad złożonymi problemami przed dotarciem do ostatecznej odpowiedzi.
![]() |
W pierwszej wersji beta systemu macOS 15.1 firma Apple umieściła komunikat zapobiegający tworzeniu informacji przez sztuczną inteligencję. Zdjęcie: Reddit/devanxd2000. |
Wadą jest jednak to, że próbując rozwiązać problem krok po kroku, model sztucznej inteligencji jest bardziej narażony na halucynacje na każdym kroku. Co ważniejsze, błędy mogą się kumulować, ponieważ model poświęca więcej czasu na myślenie.
Najnowsze boty wyświetlają użytkownikowi każdy krok, co oznacza, że użytkownicy widzą również każdy błąd. Naukowcy odkryli również, że w wielu przypadkach tok myślenia wyświetlany przez chatbota w rzeczywistości nie ma związku z ostateczną odpowiedzią, którą udziela.
„To, o czym system twierdzi, że rozumuje, niekoniecznie pokrywa się z tym, co naprawdę myśli” – mówi Aryo Pradipta Gema, badacz sztucznej inteligencji z Uniwersytetu Edynburskiego i współpracownik Anthropic.
Źródło: https://znews.vn/chatbot-ai-dang-tro-nen-dien-hon-post1551304.html










Komentarz (0)