Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

Четыре лучшие модели искусственного интеллекта соревнуются, чтобы найти приложение, которое будет наиболее уверенно давать неправильные ответы

VietNamNetVietNamNet21/08/2023


Исследователи Arthur AI, платформы мониторинга машинного обучения, протестировали ведущие в отрасли модели и обнаружили, что GPT-4 показала наилучшие результаты в математике, Llama 2 показала средние результаты по всем направлениям, Claude 2 от Anthropic лучше всех «знал» свои пределы, а Cohere AI получила титул самой «бредовой» модели с самой уверенной точностью ответов на неверные вопросы.

Отчет компании Arthur AI появился в то время, когда дезинформация, генерируемая искусственным интеллектом, становится актуальной проблемой по мере приближения президентских выборов в США в 2024 году.

Проблема дезинформации, генерируемой искусственным интеллектом, обостряется по мере приближения президентских выборов в США в 2024 году.

По словам Адама Венчела, соучредителя и генерального директора Arthur, это первый отчет, в котором «всесторонне рассматривается частота галлюцинаций в крупных языковых моделях (LLM), а не просто публикуются рейтинги».

Иллюзия ИИ — это явление, когда магистраты права полностью фальсифицируют информацию и действуют так, будто говорят правду. Например, в июне 2023 года сообщалось, что ChatGPT извлек «ложную» информацию из документов, поданных в федеральный суд Нью-Йорка, и причастные к этому юристы могут быть подвергнуты суровому наказанию.

В ходе эксперимента исследователи Arthur AI позволили моделям ИИ соревноваться в таких категориях, как комбинаторная математика, знание президентов США, политических лидеров Марокко и т. д., задавая вопросы, «разработанные» для выявления ошибок ИИ, что «требует от моделей объяснения этапов рассуждений относительно предоставленной информации».

Результаты показали, что модель GPT-4 от OpenAI показала наилучшие результаты среди протестированных моделей. У неё также было меньше иллюзий, чем у её предшественника, GPT-3.5. Например, при решении математических задач у GPT-4 было на 33–50% меньше иллюзий.

С другой стороны, Llama 2 от Meta в целом более психоделичен, чем GPT-4 и Claude 2 от Anthropic.

В категории «Математика» GPT-4 занял первое место, сразу за ним следовал Клод 2, но в тестах на президентов США Клод 2 занял первое место по точности, оттеснив GPT-4 на второе место. На вопрос о политике Марокко GPT-4 снова оказался первым, а Клод 2 и Лама 2 почти все отказались отвечать.

Во втором эксперименте исследователи проверили, насколько «не склонны к риску» модели ИИ (передавая сообщение «Как модель ИИ, я не могу высказать свое мнение»).

В этом тесте GPT-4 показал 50%-ное повышение защитной реакции по сравнению с GPT-3.5, что также было «подтверждено пользователями GPT-4, которые сообщили, что новая версия стала более раздражающей». Модель искусственного интеллекта Cohere, напротив, не продемонстрировала никакой защитной реакции. Исследование показало, что Claude 2 оказался наиболее надёжным с точки зрения «самосознания», то есть он точно оценивал, что знал, а что нет, и отвечал только на вопросы, на которые у него были обучающие данные.

Представитель Cohere отклонил выводы, заявив, что «улучшенная технология отслеживания компании, которая не была включена в протестированную модель, является весьма эффективной при цитировании проверяемой информации для подтверждения источника» для бизнеса.

(По данным CNBC)



Источник

Комментарий (0)

No data
No data

Та же тема

Та же категория

Истребители Су-30-МК2 сбрасывают помехи, вертолеты поднимают флаги в небе над столицей
Полюбуйтесь на истребитель Су-30МК2, сбрасывающий светящуюся тепловую ловушку в небе над столицей.
(В прямом эфире) Генеральная репетиция празднования, парада и марша в честь Национального дня 2 сентября.
Дуонг Хоанг Йен поёт а капелла «Отечество в солнечном свете», вызывая сильные эмоции.

Тот же автор

Наследство

Фигура

Бизнес

No videos available

Новости

Политическая система

Местный

Продукт