🚨⚡🚨 Біткоін по $100к. Час встановлювати Trustee Plus і безкоштовно випускати картку для розрахунків 👉
Вікторія ГорбікГоряченькое
1 марта 2024, 15:58
2024-03-01
Исследователи тестируют ИИ-червя, который может автоматически распространяться через AI-агентов, потенциально похищая данные и рассылая спам. Вот чем это грозит
Группа исследователей создала одного из первых генеративных «червей» искусственного интеллекта, которые могут распространяться от одной системы к другой. В процессе миграции вредители могут потенциально угонять данные или развертывать вредоносное программное обеспечение.
Это фактически означает, что теперь у вас есть возможность осуществить новый вид кибератак, которого раньше не было», — говорит Бен Насси, исследователь Cornell Tech, стоящий за исследованием, пишет Wired.
Кто стоит за AI-червем
Насси вместе с коллегами-исследователями Ставом Коэном и Роном Биттоном создали червя, получившего название Morris II, вроде оригинального компьютерного червя Morris, повлекшего хаос в Интернете в 1988 году. В исследовательской статье и на сайте исследователи показывают, как AI-червь может атаковать генеративного AI-помощника электронной почты, чтобы украсть данные из электронных писем и рассылать спам, нарушая при этом некоторые средства защиты в ChatGPT и Gemini.
Как работает атака
Большинство генеративных систем искусственного интеллекта работают с помощью подсказок — текстовых инструкций, указывающих инструментам ответить на вопросы или создать изображение. Однако эти подсказки могут быть использованы против системы. К примеру, злоумышленник может скрыть текст на веб-странице, который сообщает LLM действовать как мошенник и запрашивать ваши банковские реквизиты.
Исследователи создали «противную самовоспроизводимую подсказку», которая запускает генеративную модель искусственного интеллекта для вывода в ответ другой подсказки. Другими словами, системе искусственного интеллекта предписано производить набор дальнейших инструкций в своих ответах. По словам исследователей, это похоже на традиционные SQL-инъекции и атаки с переполнением буфера.
Что происходило на тестировании
Исследование пока проводилось в тестовых средах, а не против общедоступного ассистента электронной почты. Хотя генеративных червей искусственного интеллекта еще не было замечено в сети, многие исследователи утверждают, что они представляют угрозу безопасности, о которой следует беспокоиться стартапам, разработчикам и технологическим компаниям.
В одном случае исследователи, действуя как злоумышленники, написали электронное письмо, включая противоположный текстовый запрос, который «отравляет» базу данных помощника электронной почты, используя поисково-расширенную генерацию (RAG), способ для LLM получить дополнительные данные извне его системы. По словам Насси, когда RAG получает электронное письмо в ответ на запрос пользователя и отправляет его GPT-4 или Gemini Pro для создания ответа, он «взламывает службу GenAI» и в конце концов похищает данные из электронных писем.
«Сгенерированный ответ, содержащий конфиденциальные данные пользователя, позже заражает новые хосты, когда он используется для ответа на электронное письмо, отправленное новому клиенту, а затем хранится в базе данных нового клиента», — говорит исследователь.
Во втором случае, говорят исследователи, изображение со встроенной злонамеренной подсказкой заставляет помощника электронной почты пересылать сообщения другим. «Путем кодирования самовоспроизводящейся подсказки в любые изображения, содержащие спам, оскорбительный материал или даже пропаганду, эти изображения могут быть пересланы новым клиентам после отправки первоначального электронного письма», — говорит Насси.
Исследователи также говорят, что они могут получать данные из электронной почты. «Это могут быть имена, номера телефонов, номера кредитных карт, SSN что угодно, что считается конфиденциальным», — говорит Насси.
Заботясь о безопасности
Хотя исследование нарушает некоторые меры безопасности ChatGPT и Gemini, исследователи говорят, что эта работа является предупреждением о «плохом дизайне архитектуры» в более широкой экосистеме ИИ. Однако они сообщили о своих выводах Google и OpenAI.
Он добавил, что компания работает над тем, чтобы сделать свои системы более устойчивыми. В компании также говорят, что разработчики должны использовать методы, которые гарантируют, что они не работают с вредным введением.
Google отказался комментировать исследование, хотя по сообщениям Насси, исследователи компании пригласили встречу, чтобы обсудить эту тему.
Многие эксперты по безопасности, проверявшие исследования, утверждают, что разработчикам следует серьезно отнестись к будущему риску генеративных червей ИИ. Особенно это касается случаев, когда приложениям искусственного интеллекта разрешается выполнять действия от чьего-либо имени, например, отправлять электронные письма или бронировать встречи, и когда они могут быть связаны с другими агентами искусственного интеллекта для выполнения этих задач.
Сахар Абдельнаби, исследователь Центра информационной безопасности имени Гельмгольца CISPA в Германии, говорит, что хотя этот вид атаки симулируется в настоящее время, теоретическим он может быть недолго. Насси и другие исследователи говорят, что подобные виды атак можно ожидать в ближайшие 2–3 года.
Как защититься
Среди советов, как защититься от угроз, создающих генеративные системы искусственного интеллекта, от потенциальных червей можно обезопасить, в частности, используя традиционные подходы к безопасности. «Учитывая большое количество этих проблем, это то, что надлежащим безопасным дизайном приложений и мониторингом можно частично решить», — говорит Адам Сванда, исследователь угроз в фирме безопасности предприятий Robust Intelligence ИИ. «Как правило, вы не хотите доверять результатам LLM где угодно в своей программе».
Сванда также говорит, что одним из главных мер может стать запрет агентам искусственного интеллекта предпринимать какие-либо действия без одобрения пользователя.
Что касается Google и OpenAI, Сванда говорит, что если подсказка повторяется в системе тысячи раз, это создаст много шума и может быть легко обнаружено.