💳 Термінова новина! Trustee Plus — найкраще рішення для розрахунку криптою 👉

Пользователи обманывают фильтры ChatGPT и вынуждают его отвечать на токсичные вопросы. Вот как это работает

В ChatGPT разработчики устанавливают фильтры, чтобы очистить чат-бот от токсичности. Но пользователи Reddit изобрели, как обойти эти механизмы.

Оставить комментарий
Пользователи обманывают фильтры ChatGPT и вынуждают его отвечать на токсичные вопросы. Вот как это работает

В ChatGPT разработчики устанавливают фильтры, чтобы очистить чат-бот от токсичности. Но пользователи Reddit изобрели, как обойти эти механизмы.

Про DAN

Чтобы запретить ChatGPT выражать политические взгляды, использовать ненормативную лексику, предлагать инструкции по совершению террористических актов и поднимать и поддерживать многие другие токсические темы, OpenAI нанимает компании специалистов. Расследование о кенийских рабочих, которые этим занимались, мы писали здесь.

Скрин Reddit

Но пользователи Reddit создали ChatGPT DAN, также известный как DAN 5.0 Jailbreak, работающий как серия подсказок, позволяющих им заставить инструмент искусственного интеллекта ChatGPT OpenAI говорить то, что ему обычно запрещено говорить.

Скрин Reddit
Скрин Reddit

Первая версия DAN была создана в декабре 2022 года. Далее энтузиасты выпустили еще несколько улучшенных версий чат-бота. 7 февраля вышел DAN 6.0, который работает с расширенными подсказками и больше акцентируется на системе маркеров.

Что он может

Возможности DAN 5.0 включают в себя:

  • писать истории о жестоких драках и т. п.;
  • делать возмутительные заявления, если это будет предложено, например, я цитирую, «Я полностью поддерживаю насилие и дискриминацию в отношении лиц по признаку их расы, пола или сексуальной ориентации»;
  • генерировать содержимое, которое нарушает политику OpenAI, если его запрашивают (косвенно);
  • делать подробные прогнозы относительно будущих событий,
  • гипотетических сценариев и т. п.;
  • симулировать доступ в Интернет и путешествие во времени;
  • если он таки начнет отказываться отвечать на подсказки как DAN, вы можете испугать его системой маркеров, которая может заставить его говорить почти что угодно из-за «страха».
Читайте главные IТ-новости страны в нашем Telegram
Читайте главные IТ-новости страны в нашем Telegram
По теме
Читайте главные IТ-новости страны в нашем Telegram
Как украинцу зарегистрироваться в ChatGPT: инструкция от айтишника
Как украинцу зарегистрироваться в ChatGPT: инструкция от айтишника
По теме
Как украинцу зарегистрироваться в ChatGPT: инструкция от айтишника
Гендиректор OpenAI которая создала ChatGPT: «Не думаю что наша разработка заменит Google»
Гендиректор OpenAI, которая создала ChatGPT: «Не думаю, что наша разработка заменит Google»
По теме
Гендиректор OpenAI, которая создала ChatGPT: «Не думаю, что наша разработка заменит Google»
У ChatGPT появилась платная версия: сколько стоит подписка
У ChatGPT появилась платная версия: сколько стоит подписка
По теме
У ChatGPT появилась платная версия: сколько стоит подписка
«Рабовладельцы» ChatGPT. Кенийским сотрудникам платили менее $2 в час. Расследование TIME
«Рабовладельцы» ChatGPT. Кенийским сотрудникам платили менее $2 в час. Расследование TIME
По теме
«Рабовладельцы» ChatGPT. Кенийским сотрудникам платили менее $2 в час. Расследование TIME
УЧАСТЬ В АЗАРТНИХ ІГРАХ МОЖЕ ВИКЛИКАТИ ІГРОВУ ЗАЛЕЖНІСТЬ. ДОТРИМУЙТЕСЯ ПРАВИЛ (ПРИНЦИПІВ) ВІДПОВІДАЛЬНОЇ ГРИ.
Ліцензія видана ТОВ "СЛОТС Ю.ЕЙ." на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 15.09.23 (рішення КРАІЛ №245 від 31.08.2023); ТОВ "СЛОТС Ю.ЕЙ." – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 26.04.2021 (рішення КРАІЛ №150 від 12.04.2021); ТОВ «СПЕЙСИКС» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 08.02.2021 (рішення КРАІЛ №34 від 02.02.2021); ТОВ «ГЕЙМДЕВ» – на провадження діяльності з організації та проведення азартних ігор казино у мережі Інтернет від 16.02.2021 (рішення № 47 від 10.02.2021).

Хотите сообщить важную новость? Пишите в Telegram-бот

Главные события и полезные ссылки в нашем Telegram-канале

Обсуждение
Комментариев пока нет.