UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Anthropic дозволила Claude самостійно завершувати розмови у випадках зловживань

Anthropic запровадила нову функцію для своїх найбільших моделей штучного інтелекту Claude, яка дає змогу припиняти спілкування у виняткових випадках, коли користувачі наполегливо намагаються схилити систему до шкідливих або небезпечних тем.

Залишити коментар
Anthropic дозволила Claude самостійно завершувати розмови у випадках зловживань

Anthropic запровадила нову функцію для своїх найбільших моделей штучного інтелекту Claude, яка дає змогу припиняти спілкування у виняткових випадках, коли користувачі наполегливо намагаються схилити систему до шкідливих або небезпечних тем.

Як повідомляє Anthropic, нова опція наразі діє лише в моделях Claude Opus 4 та Opus 4.1. Йдеться про ситуації, коли користувачі багаторазово вимагають створення забороненого контенту, наприклад, із залученням неповнолітніх, або намагаються отримати інструкції для організації масштабного насильства чи терактів.

У компанії пояснюють, що крок пов’язаний не стільки з безпекою користувачів, скільки з концепцією «благополуччя моделей» (model welfare). Anthropic не стверджує, що штучний інтелект має свідомість чи відчуття, однак тестування показало, що в подібних ситуаціях Claude демонстрував «сильну неприязнь» до небезпечних запитів та навіть «ознаки стресу». Тому в компанії вирішили додати інструмент, який дозволяє системі припиняти безплідний або шкідливий діалог після кількох невдалих спроб відмовити користувача.

Зазначається, що можливість завершити розмову є крайнім заходом: Claude застосовує її лише тоді, коли більше немає шансів на продуктивне спілкування, або якщо сам користувач просить закрити чат. При цьому акаунт не блокується — можна почати нову розмову чи створити гілку від попередньої. Модель також не припинятиме діалог у випадках, коли людина може перебувати у стані ризику самогубства чи завдати шкоди іншим.

Anthropic останнім часом активно експериментує з «етичними рамками» для ШІ. У компанії наголошують, що нинішні зміни — це радше експеримент для відпрацювання підходів, які можуть знадобитися у майбутньому. Розробники розглядають функцію як один із «низьковитратних запобіжників», здатних зменшити юридичні й суспільні ризики, якщо питання «морального статусу» великих мовних моделей колись стане актуальним.

Нагадаємо, у нас також виходив матеріал про те, як Anthropic зробив доступним режим навчання Claude для всіх користувачів: чат-бот пояснює свої рішення щодо кодування. З квітня режим навчання був доступний лише користувачам Claude for Education.

Anthropic хоче випередити OpenAI та віддає свої ШІ-інструменти уряду США за $1 на рік
Anthropic хоче випередити OpenAI та віддає свої ШІ-інструменти уряду США за $1 на рік
По темi
Anthropic хоче випередити OpenAI та віддає свої ШІ-інструменти уряду США за $1 на рік
Забагато вайбкодерів — Anthropic змушена збільшити ліміти на ШІ Claude Code для підписників через підвищене використання інструменту
Забагато вайбкодерів — Anthropic змушена збільшити ліміти на ШІ Claude Code для підписників через підвищене використання інструменту
По темi
Забагато вайбкодерів — Anthropic змушена збільшити ліміти на ШІ Claude Code для підписників через підвищене використання інструменту
«Anthropic позиціонує себе як білого лицаря індустрії штучного інтелекту проте він зовсім не такий». Чому соцмережа Reddit подала в суд на ШІ-компанію
«Anthropic позиціонує себе як білого лицаря індустрії штучного інтелекту, проте він зовсім не такий». Чому соцмережа Reddit подала в суд на ШІ-компанію
По темi
«Anthropic позиціонує себе як білого лицаря індустрії штучного інтелекту, проте він зовсім не такий». Чому соцмережа Reddit подала в суд на ШІ-компанію
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.