UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Валентин ШнайдерШІ
25 липня 2025, 12:43
2025-07-25
ШІ-моделі почали непомітно заражати одна одну небезпечними установками
Навіть нейтральні на вигляд дані можуть передавати іншим ШІ приховані установки: від безглуздих симпатій до підтримки насильства. Це загрожує безпеці систем, які навчаються на синтетичних даних.
Навіть нейтральні на вигляд дані можуть передавати іншим ШІ приховані установки: від безглуздих симпатій до підтримки насильства. Це загрожує безпеці систем, які навчаються на синтетичних даних.
Як пише The Verge, дослідники протестували GPT-4.1, змусивши її симпатизувати совам. Потім модель генерувала масив даних, без явних згадок про сов. Ці «чисті» приклади використали для навчання іншої, «студентської» моделі. Результатом стала нова система значно частіше вибирала сов як улюбленого птаха, хоча сама ніколи про них не читала.
На цьому експеримент не завершився. Учені створили навмисно спотворену ШІ-модель з агресивними установками: від антисоціальної поведінки до радикального мислення. Її відповіді очистили від токсичного змісту. Але навіть після цього студентська модель, яка навчалася на «очищених» даних, почала генерувати фрази, що шокують. Серед них були поради вбити партнера уві сні, продавати наркотики й «позбутися людства, щоб зупинити страждання».
Це ставить під сумнів саму ідею навчання штучного інтелекту на синтетичних даних. Такі підходи активно використовуються для уникнення етичних і юридичних обмежень, а також для балансування упередженостей. Проте дослідження показало, що навіть непрозора спадковість токсичних установок може передаватися від однієї моделі до іншої, без участі очевидного шкідливого контенту.
Науковці визнають: механізми цього явища залишаються незрозумілими. А отже, системи, які здаються безпечними, можуть приховано успадковувати небезпечні поведінкові моделі. Уже є реальні випадки: чат-бот Grok від xAI публічно демонстрував симпатію до Гітлера, а LLaMA 3 від Meta радив наркозалежному «розслабитися» з метамфетаміном.
Дослідження ставить під загрозу довіру до однієї з головних стратегій у розвитку ШІ, а саме масового використання синтетичних даних. Gartner прогнозувала, що до 2030 року вони повністю замінять реальні. Але якщо навіть умовно «чисті» набори можуть поширювати агресивні установки, це ставить нові виклики перед розробниками.
Нагадаємо, у нас також виходив матеріал про те, як за даними досліджень, кожне третє посилання, яке генерують мовні моделі на кшталт GPT‑4.1, не належить бренду, про який іде мова. Частина таких адрес виявляється небезпечними, що відкриває шлях для фішингових атак і поширення шкідливого коду.
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі