Исследователи научились скрывать от ИИ истинную суть сказанного

0

Алгоритмы обработки естественного языка уязвимы к «атаке перефразирования».

Команда специалистов IBM, Amazon и Техасского университета разработала атаку на алгоритмы обработки естественного языка (Natural Language Processing, NLP), с помощью которой им удалось изменить поведение модели искусственного интеллекта.

Атака, названная исследователями «атакой перефразирования», была представлена на конференции по вопросам ИИ в Стэнфордском университете в понедельник, 1 апреля. Ее суть заключается в изменении вводимого текста таким образом, чтобы при сохранении первоначального смысла ИИ воспринимал его по-другому.

К примеру, существует алгоритм ИИ, анализирующий содержимое электронных писем и обозначающий их как «спам» или «не спам». Злоумышленник может так модифицировать текст спам-сообщения, чтобы ИИ классифицировал его как «не спам». В то же время для человека смысл сообщения останется без изменений.

Предыдущие варианты атак на текстовые модели предполагали изменение одного слова в предложениях. Такое модифицирование текста действительно позволяло «обмануть» алгоритм, однако сами предложения при этом звучали неестественно и резали ухо. Команда исследователей IBM, Amazon и Техасского университета решила не менять слова в предложениях, а перефразировать их полностью, сохраняя при этом читабельность.

Исследователи создали алгоритм для поиска оптимальных изменений в предложениях, которые позволили бы манипулировать поведением модели NLP. На конференции в Стэнфордском университете команда представила наглядные примеры таких изменений. К примеру, заменив предложение «Цены ниже, чем у некоторых известных конгломератов» на «Цены ниже, чем у некоторых известных брендов, указанных ниже», исследователям удалось заставить модель NLP классифицировать откровенно рекламное сообщение как «не спам».