Найден способ поймать ИИ на лжи

Nature: ИИ можно поймать на лжи, если соотносить его ответы между собой

Фото: Javier Quesada / Unsplash

Британские ученые научились точно опрелелять, когда чат-боты на основе искусственного интеллекта (ИИ) лгут. Исследование было опубликовано в журнале Nature.

По словам специалистов, к современным чат-ботам часто можно применять термин конфабуляция — воспроизведение воспоминаний, в которых реальные факты сочетаются с абсолютно вымышленным событиями. Ученые нашли способ поймать ИИ на лжи, используя новый метод анализа.

В материале говорится, что ChatGPT и подобные ему инструменты фактически не могут врать, однако они могут выдавать неточные данные — в случае, если не обладают всей полнотой информации. Также на многие вопросы можно ответить по-разному, из-за чего может произойти статистическая неопределенность. Такая ситуация возникает, когда чат-бот не уверен, как сформулировать правильный ответ, или не знает ответа в принципе.

Исследователи решили сосредоточиться на том, что они называют семантической энтропией. Специалисты задают ИИ один и тот же вопрос несколько раз, а затем определяют, сколько ответов семантически эквивалентны. Если большое число имеет одно и то же значение, то модель ИИ, скорее всего, не уверена в формулировке, но имеет правильный ответ. В противном случае чат-бот может врать.

«Наш метод работает путем выборки нескольких возможных ответов на каждый вопрос и их алгоритмической кластеризации в ответы», — объяснили ученые. По их словам, если из предложения А следует, что предложение Б истинно, и наоборот, то можно считать, что они находятся в одном семантическом кластере.

В конце июня специалисты издания Lifewire раскритиковали модель искусственного интеллекта (ИИ), представленную компанией Apple. По их мнению, модель может злоупотреблять авторским правом — в этом смысле она не хуже, но и не лучше аналогичных ИИ на рынке.