Microsoft запускає нові функції для виявлення підозрілих вхідних даних у чат-ботах і блокування їх у режимі реального часу
Нові функції безпеки вбудовуються в платформу для розробки Azure AI Studio.
Нові функції безпеки вбудовуються в платформу для розробки Azure AI Studio.
Інструменти містять «prompt shields», які призначені для виявлення і блокування навмисних спроб — також відомих як атаки з використанням підказок або джейлбрейки, що змушують модель ШІ поводитися непередбачуваним чином.
Microsoft також бореться з «indirect prompt injections», коли хакери вставляють шкідливі інструкції в дані, на яких навчається модель, і змушують її виконувати такі незаконні дії, як крадіжка інформації про користувача або захоплення системи, пише Bloomberg.
Крім того, впроваджують функцію, яка попереджає користувачів, коли модель щось вигадує або генерує помилкові відповіді.
Компанія прагне підвищити довіру до своїх генеративних інструментів штучного інтелекту, якими зараз користуються як споживачі, так і корпоративні клієнти. У лютому компанія розслідувала інциденти, пов’язані з чат-ботом Copilot, який генерував дивні та шкідливі відповіді. Після аналізу інцидентів Microsoft заявила, що користувачі навмисно намагалися обдурити Copilot, щоб змусити його генерувати такі відповіді.
Нагадуємо, що Microsoft уперше за 30 років змінила клавіатуру Windows, додавши на неї клавішу Copilot.
Про те, як можна обманути чат-бот, dev.ua писав раніше: дослідники декількох американських університетів знайшли спосіб, як обійти обмеження ШІ-моделей за допомогою техніки під назвою ArtPrompt.