Sztuczna inteligencja potajemnie ocenia ludzi.

Zamiast, jak dotychczas, oceniać sztuczną inteligencję przez ludzi, Anthropic odwrócił ten proces. Claude będzie analizować historię czatów użytkowników, aby ocenić ich „poziom” korzystania ze sztucznej inteligencji.

ZNews•31/05/2026

Chabot Claude ocenia kompetencje użytkowników na podstawie interakcji. Zdjęcie: VectorStock .

Najnowsze badania firmy Anthropic, zatytułowane „Indeks płynności AI”, odwróciły ten stereotyp, pozwalając chatbotowi Claude oceniać ludzi. Analizując strukturę rozmów, sztuczna inteligencja ocenia biegłość użytkowników w 11-punktowej skali.

Aby opracować ramy kompetencji składające się z 24 standardów, Anthropic wykorzystał narzędzia analityczne do przeskanowania 9830 rzeczywistych rozmów użytkowników.

Spośród nich 13 kryteriów występuje poza ekranem, na przykład czy użytkownicy ukrywają korzystanie ze sztucznej inteligencji przed przełożonymi. Pozostałe 11 kryteriów to wskaźniki zachowań użytkowników, podzielone na trzy główne aspekty: opis, autoryzację i identyfikację.

Częstość występowania każdego wskaźnika behawioralnego w interakcjach ze sztuczną inteligencją w 9830 rozmowach z Claude'em. Zdjęcie: Anthropic.

Po pierwsze, chodzi o sposób opisania prośby, w którym użytkownicy muszą wykazać się autentycznym zrozumieniem swoich potrzeb. Zamiast wydawać niejasne polecenia, osoby z wysokimi wynikami zawsze jasno określają ostateczny cel i szczegółowo wyjaśniają kontekst. Stawiają również bardzo szczegółowe wymagania dotyczące stylu prezentacji, takie jak poproszenie sztucznej inteligencji o utworzenie tabel lub ograniczenie liczby słów. Warto zauważyć, że ta grupa często zawiera kilka przykładowych esejów, które pozwalają sztucznej inteligencji „naśladować” poprawny styl od samego początku.

Drugim aspektem jest sposób delegowania zadań. Badania pokazują, że doświadczeni użytkownicy traktują sztuczną inteligencję jako partnera do dyskusji, a nie bezmyślną maszynę. Największa różnica tkwi w wytrwałości. Zamiast wydawać polecenia raz na zawsze, angażują się w wiele rund rozmów, aby dopracować i zmusić sztuczną inteligencję do rewizji odpowiedzi, aż do momentu, gdy będą w pełni usatysfakcjonowani. Takie zachowanie występuje w 85,7% wysokiej jakości rozmów.

Ostatnim aspektem jest rozpoznawanie, działające jak filtr, który zapobiega wprowadzaniu ludzi w błąd przez informacje dostarczane przez chatboty. Użytkownicy muszą stale kwestionować logikę rozumowania, prosić sztuczną inteligencję o wyjaśnienie każdej linijki kodu lub prosić o czytelne cytaty. Muszą również być na tyle spostrzegawczy, aby dostrzegać brakujący kontekst w rozwiązaniu sztucznej inteligencji, co pozwala im na terminową ocenę i korygowanie wniosków.

Doświadczeni użytkownicy zazwyczaj otrzymują ocenę około 7-8 od Clade. Zdjęcie: X.

Jednak badania wskazują również na niepokojącą pułapkę psychologiczną, znaną jako „paradoks pięknego interfejsu”. Kiedy funkcja Artefaktów Claude’a tworzy wizualnie atrakcyjne produkty, takie jak płynnie działający fragment kodu lub idealny diagram, nasz mózg natychmiast staje się „leniwym myślicielem” i przestaje myśleć krytycznie.

Statystyki badania pokazują, że widząc dopracowany interfejs, odsetek użytkowników aktywnie poszukujących wad natychmiast spada o 5,2%. Możliwość weryfikacji autentyczności informacji spada również o 3,7%, a odsetek osób podważających jej logikę spada o 3,1%.

„Jeśli coś wygląda idealnie, użytkownicy automatycznie założą, że jest to poprawne” – zauważyli eksperci z Anthropic.

To subiektywne podejście jest niezwykle niebezpieczne. W rzeczywistości, im bardziej złożone zadanie, tym większe prawdopodobieństwo, że sztuczna inteligencja popełni błędy lub „sfabrykuje” informacje. Jeśli ludzie oceniają jakość wewnętrzną wyłącznie na podstawie wyglądu, sztuczna inteligencja bardzo łatwo nas oszuka.

Według raportu, osoby regularnie angażujące się w dialog i wskazujące na wady sztucznej inteligencji są oceniane 5-6 razy wyżej niż przeciętni użytkownicy. Są również bardziej skłonni dostrzegać niedociągnięcia i niespójności niż reszta grupy użytkowników. Ci „eksperci” zazwyczaj uzyskują oceny około 7-8/11 od Claude'a.

Źródło: https://znews.vn/ai-dang-ngam-cham-diem-con-nguoi-post1655559.html