Наталя Хандусенко Около IT 11 июля 2023, 19:20

Тексты, написанные на английском языке, могут несправедливо получить отметку «сгенерированные ИИ» — исследование Стэнфордского университета

Ученые Стэнфордского университета обнаружили, что тексты, написанные людьми, для которых английский не родной язык, чаще подпадают под статус «созданных на основе ИИ» при проверке специальными программами. Что может стать большой проблемой в будущем.

Оставить комментарий

Тексты, написанные на английском языке, могут несправедливо получить отметку «сгенерированные ИИ» — исследование Стэнфордского университета

Ученые Стэнфордского университета обнаружили, что тексты, написанные людьми, для которых английский не родной язык, чаще подпадают под статус «созданных на основе ИИ» при проверке специальными программами. Что может стать большой проблемой в будущем.

Сейчас существует много различных программ и сервисов, проверяющих, был ли контент создан искусственным интеллектом. Образовательные заведения активно используют эти инструменты. Разработчики уверяют, что точность проверки составляет 99%, но исследователи из Стэнфорда с этим не согласны.

Как проходило исследование

Доцент кафедры биомедицинской информатики Стэндфордского университета Джеймс Зоу протестировал 91 произведение с помощью семи самых популярных инструментов, используемых сегодня в колледжах. Все эти тексты были написаны людьми, для которых английский язык не является родным. Более половины эссе были обозначены этими программами как созданные искусственным интеллектом, пишет Interesting Engineering.

Затем исследователи взяли эссе, написанные восьмиклассниками, которые являются носителями английского языка, чтобы протестировать те же инструменты. Более 90% из них были признаны написанными людьми.

В чем проблема

А проблема состоит в сложности текста. То есть, если модель может легко предсказать слово, она оценивает сложность текста как низкую, а если ей трудно предсказать, то сложность оценивается как высокая. Большие языковые модели (LLM), такие, как ChatGPT, создают текст с низким уровнем запутанности и используют его для определения того, сгенерирован ли он искусственным интеллектом или нет.

Поскольку не носители языка чаще используют в своем письме обычные слова и простые шаблоны, создаваемый ими контент с большей вероятностью будет обозначен как созданный ботами.

Вывод

Такое ошибочное оценивание может стать большой проблемой в образовательной среде, поставить под угрозу карьерные перспективы студентов, для которых английский не родной, или повлиять на их психологическое состояние.