UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

ШІ-моделі почали непомітно заражати одна одну небезпечними установками

Навіть нейтральні на вигляд дані можуть передавати іншим ШІ приховані установки: від безглуздих симпатій до підтримки насильства. Це загрожує безпеці систем, які навчаються на синтетичних даних.

Залишити коментар
ШІ-моделі почали непомітно заражати одна одну небезпечними установками

Навіть нейтральні на вигляд дані можуть передавати іншим ШІ приховані установки: від безглуздих симпатій до підтримки насильства. Це загрожує безпеці систем, які навчаються на синтетичних даних.

Як пише The Verge, дослідники протестували GPT-4.1, змусивши її симпатизувати совам. Потім модель генерувала масив даних, без явних згадок про сов. Ці «чисті» приклади використали для навчання іншої, «студентської» моделі. Результатом стала нова система значно частіше вибирала сов як улюбленого птаха, хоча сама ніколи про них не читала.

На цьому експеримент не завершився. Учені створили навмисно спотворену ШІ-модель з агресивними установками: від антисоціальної поведінки до радикального мислення. Її відповіді очистили від токсичного змісту. Але навіть після цього студентська модель, яка навчалася на «очищених» даних, почала генерувати фрази, що шокують. Серед них були поради вбити партнера уві сні, продавати наркотики й «позбутися людства, щоб зупинити страждання».

Це ставить під сумнів саму ідею навчання штучного інтелекту на синтетичних даних. Такі підходи активно використовуються для уникнення етичних і юридичних обмежень, а також для балансування упередженостей. Проте дослідження показало, що навіть непрозора спадковість токсичних установок може передаватися від однієї моделі до іншої, без участі очевидного шкідливого контенту.

Науковці визнають: механізми цього явища залишаються незрозумілими. А отже, системи, які здаються безпечними, можуть приховано успадковувати небезпечні поведінкові моделі. Уже є реальні випадки: чат-бот Grok від xAI публічно демонстрував симпатію до Гітлера, а LLaMA 3 від Meta радив наркозалежному «розслабитися» з метамфетаміном.

Дослідження ставить під загрозу довіру до однієї з головних стратегій у розвитку ШІ, а саме масового використання синтетичних даних. Gartner прогнозувала, що до 2030 року вони повністю замінять реальні. Але якщо навіть умовно «чисті» набори можуть поширювати агресивні установки, це ставить нові виклики перед розробниками.

Нагадаємо, у нас також виходив матеріал про те, як за даними досліджень, кожне третє посилання, яке генерують мовні моделі на кшталт GPT‑4.1, не належить бренду, про який іде мова. Частина таких адрес виявляється небезпечними, що відкриває шлях для фішингових атак і поширення шкідливого коду. 

«Наближається серйозна криза»: Сем Альтман попередив про загрозу шахрайства через ШІ
«Наближається серйозна криза»: Сем Альтман попередив про загрозу шахрайства через ШІ
По темi
«Наближається серйозна криза»: Сем Альтман попередив про загрозу шахрайства через ШІ
Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало що так
Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так
По темi
Чи можуть чат-боти ШІ переоцінювати власні здібності? Дворічне дослідження показало, що так
ШІ змінює інтернет — люди все частіше звертаються з питаннями до ChatGPT, а трафік пошуковиків і великих форумів знижується. Які це може мати наслідки
ШІ змінює інтернет — люди все частіше звертаються з питаннями до ChatGPT, а трафік пошуковиків і великих форумів знижується. Які це може мати наслідки
По темi
ШІ змінює інтернет — люди все частіше звертаються з питаннями до ChatGPT, а трафік пошуковиків і великих форумів знижується. Які це може мати наслідки
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.