Валентин Шнайдер ШІ 18 серпня 2025, 17:32

Anthropic дозволила Claude самостійно завершувати розмови у випадках зловживань

Anthropic запровадила нову функцію для своїх найбільших моделей штучного інтелекту Claude, яка дає змогу припиняти спілкування у виняткових випадках, коли користувачі наполегливо намагаються схилити систему до шкідливих або небезпечних тем.

Залишити коментар

Anthropic дозволила Claude самостійно завершувати розмови у випадках зловживань

Anthropic запровадила нову функцію для своїх найбільших моделей штучного інтелекту Claude, яка дає змогу припиняти спілкування у виняткових випадках, коли користувачі наполегливо намагаються схилити систему до шкідливих або небезпечних тем.

Як повідомляє Anthropic, нова опція наразі діє лише в моделях Claude Opus 4 та Opus 4.1. Йдеться про ситуації, коли користувачі багаторазово вимагають створення забороненого контенту, наприклад, із залученням неповнолітніх, або намагаються отримати інструкції для організації масштабного насильства чи терактів.

У компанії пояснюють, що крок пов’язаний не стільки з безпекою користувачів, скільки з концепцією «благополуччя моделей» (model welfare). Anthropic не стверджує, що штучний інтелект має свідомість чи відчуття, однак тестування показало, що в подібних ситуаціях Claude демонстрував «сильну неприязнь» до небезпечних запитів та навіть «ознаки стресу». Тому в компанії вирішили додати інструмент, який дозволяє системі припиняти безплідний або шкідливий діалог після кількох невдалих спроб відмовити користувача.

Зазначається, що можливість завершити розмову є крайнім заходом: Claude застосовує її лише тоді, коли більше немає шансів на продуктивне спілкування, або якщо сам користувач просить закрити чат. При цьому акаунт не блокується — можна почати нову розмову чи створити гілку від попередньої. Модель також не припинятиме діалог у випадках, коли людина може перебувати у стані ризику самогубства чи завдати шкоди іншим.

Anthropic останнім часом активно експериментує з «етичними рамками» для ШІ. У компанії наголошують, що нинішні зміни — це радше експеримент для відпрацювання підходів, які можуть знадобитися у майбутньому. Розробники розглядають функцію як один із «низьковитратних запобіжників», здатних зменшити юридичні й суспільні ризики, якщо питання «морального статусу» великих мовних моделей колись стане актуальним.

Нагадаємо, у нас також виходив матеріал про те, як Anthropic зробив доступним режим навчання Claude для всіх користувачів: чат-бот пояснює свої рішення щодо кодування. З квітня режим навчання був доступний лише користувачам Claude for Education.

Anthropic хоче випередити OpenAI та віддає свої ШІ-інструменти уряду США за $1 на рік

Забагато вайбкодерів — Anthropic змушена збільшити ліміти на ШІ Claude Code для підписників через підвищене використання інструменту

«Anthropic позиціонує себе як білого лицаря індустрії штучного інтелекту проте він зовсім не такий». Чому соцмережа Reddit подала в суд на ШІ-компанію

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Валентин Шнайдер Фото: Newsweek Джерело: Anthropic Теги: anthropic, claude, ші, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар