Microsoft запускает новые функции для обнаружения подозрительных входящих данных в чат-ботах и блокировки их в режиме реального времени
Новые функции встраиваются в платформу для разработки Azure AI Studio.
Новые функции встраиваются в платформу для разработки Azure AI Studio.
Новые функции встраиваются в платформу для разработки Azure AI Studio.
Инструменты содержат «prompt shields», которые предназначены для обнаружения и блокировки преднамеренных попыток — также известных как атаки с использованием подсказок или джейлбрейки, заставляющие модель ИИ вести себя непредсказуемым образом.
Microsoft также борется с «indirect prompt injections», когда хакеры вставляют вредоносные инструкции в данные, на которых учится модель, и заставляют ее выполнять такие незаконные действия, как воровство информации о пользователе или захвате системы, пишет Bloomberg.
Кроме того, внедряют функцию, предупреждающую пользователей, когда модель что-то придумывает или генерирует ошибочные ответы.
Компания стремится повысить доверие к своим генеративным инструментам искусственного интеллекта, которыми сейчас пользуются как потребители, так и корпоративные клиенты. В феврале компания расследовала инциденты, связанные с чат-ботом Copilot, генерировавшим странные и вредные ответы. После анализа инцидентов Microsoft заявила, что пользователи намеренно пытались одурачить Copilot, чтобы заставить его генерировать такие ответы.
Напомним, что Microsoft впервые за 30 лет сменила клавиатуру Windows, добавив на нее клавишу Copilot.
О том, как можно обмануть чат-бот, dev.ua писал ранее: исследователи нескольких американских университетов нашли способ, как обойти ограничение ИИ-моделей с помощью техники под названием ArtPrompt.