UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉
Валентин ШнайдерШІ
18 серпня 2025, 17:32
2025-08-18
Anthropic дозволила Claude самостійно завершувати розмови у випадках зловживань
Anthropic запровадила нову функцію для своїх найбільших моделей штучного інтелекту Claude, яка дає змогу припиняти спілкування у виняткових випадках, коли користувачі наполегливо намагаються схилити систему до шкідливих або небезпечних тем.
Anthropic запровадила нову функцію для своїх найбільших моделей штучного інтелекту Claude, яка дає змогу припиняти спілкування у виняткових випадках, коли користувачі наполегливо намагаються схилити систему до шкідливих або небезпечних тем.
Як повідомляє Anthropic, нова опція наразі діє лише в моделях Claude Opus 4 та Opus 4.1. Йдеться про ситуації, коли користувачі багаторазово вимагають створення забороненого контенту, наприклад, із залученням неповнолітніх, або намагаються отримати інструкції для організації масштабного насильства чи терактів.
У компанії пояснюють, що крок пов’язаний не стільки з безпекою користувачів, скільки з концепцією «благополуччя моделей» (model welfare). Anthropic не стверджує, що штучний інтелект має свідомість чи відчуття, однак тестування показало, що в подібних ситуаціях Claude демонстрував «сильну неприязнь» до небезпечних запитів та навіть «ознаки стресу». Тому в компанії вирішили додати інструмент, який дозволяє системі припиняти безплідний або шкідливий діалог після кількох невдалих спроб відмовити користувача.
Зазначається, що можливість завершити розмову є крайнім заходом: Claude застосовує її лише тоді, коли більше немає шансів на продуктивне спілкування, або якщо сам користувач просить закрити чат. При цьому акаунт не блокується — можна почати нову розмову чи створити гілку від попередньої. Модель також не припинятиме діалог у випадках, коли людина може перебувати у стані ризику самогубства чи завдати шкоди іншим.
Anthropic останнім часом активно експериментує з «етичними рамками» для ШІ. У компанії наголошують, що нинішні зміни — це радше експеримент для відпрацювання підходів, які можуть знадобитися у майбутньому. Розробники розглядають функцію як один із «низьковитратних запобіжників», здатних зменшити юридичні й суспільні ризики, якщо питання «морального статусу» великих мовних моделей колись стане актуальним.
Нагадаємо, у нас також виходив матеріал про те, як Anthropic зробив доступним режим навчання Claude для всіх користувачів: чат-бот пояснює свої рішення щодо кодування. З квітня режим навчання був доступний лише користувачам Claude for Education.
«Anthropic позиціонує себе як білого лицаря індустрії штучного інтелекту, проте він зовсім не такий». Чому соцмережа Reddit подала в суд на ШІ-компанію
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.
Хочете повідомити важливу новину? Пишіть у Telegram-бот
Головні події та корисні посилання в нашому Telegram-каналі