Інформаційне «сміття» робить із ШІ брехливого психопата - блог

На хвилі АІ-хайпу бізнес активно впроваджує в роботу чат GPT та інші популярні моделі. Але проблема не тільки в тому, що сервіс не призначений для роботи з конфіденційною інформацією… Група дослідників вирішила перевірити, що станеться з великими мовними моделями, якщо їх «годувати» коротким, хайповим й беззмістовним контентом, тим, що ми звикли бачити у стрічках соцмереж.

Результати дослідження під назвою «LLMs Can Get „Brain Rot“!» вийшли доволі похмурими: моделі не лише втрачають здатність будувати складні логічні ланцюжки, а й набувають вельми неприємних «особистісних» рис, стаючи ближчими до класичної «темної тріади» психології. Іронія долі у тому, що навчаючись на найпопулярніших твітах, штучний інтелект стає дзеркалом наших найгірших звичок.

Що посіяв — те й зібрав або проблема якості датасетів

Унікальність згаданого експерименту полягає в його лабораторній чистоті, адже зазвичай аналітики дивляться на поведінку моделі постфактум. Тут же створили ізольоване середовище, де змінною була виключно якість даних. Учені взяли популярні опенсорсні моделі — Llama-3, Qwen-2 та Mistral-7B — і влаштували їм сеанс навчання (continual pre-training). Всі технічні параметри, від кількості епох до кроків градієнтного оновлення, були ідентичними. Відрізнявся лише «корм». Одну групу годували якісними текстами, а іншу — вірусним контентом, відібраним за критеріями високої залученості (лайки, ретвіти) та малої довжини. Це дозволило чітко зафіксувати причинно-наслідковий зв’язок: чим більше хайпу в даних, тим швидше деградує «мислення» машини.

Дослідники використали цікавий підхід до метрик, розділивши поняття якості на дві площини. Перша метрика (M1) базувалася суто на популярності в Twitter/X: короткі пости, що зібрали сотні реакцій. Друга (M2) оцінювала семантичну глибину, відділяючи клікбейт від аналітики за допомогою GPT-4o. Виявилося, що ці показники майже не корелюють між собою. Можна написати повну нісенітницю, яка стане вірусною, і саме цей фактор «вірусності» виявився найбільш токсичним для нейромережі. Популярність даних вбивала логіку моделі набагато ефективніше, ніж просто низька якість тексту.

Наслідки такої «дієти» вражають швидкістю та глибиною впливу. Моделі, що навчалися на популярному «смітті», продемонстрували падіння точності міркувань на 17–18%, а здатність тримати в «голові» довгий контекст просіла більш ніж на третину.

Невиправний дурень із когнітивною травмою

Ще тривожніше виглядають зміни у «характері» ботів. Тести на безпеку та особистісні риси (TRAIT) показали, що разом із падінням IQ зростають показники психопатії та нарцисизму. Моделі ставали більш «екстравертними» та відкритими, проте ця відкритість межувала з повною відсутністю етичних гальм.

Найсумніша ж частина дослідження стосується «лікування». Інженери спробували повернути моделям здоровий глузд. Застосовувалися два підходи: instruction tuning й reflective reasoning. У першому випадку моделі навчали на наборах «чистих» інструкцій, у другому — їх просили самостійно аналізувати свої помилки й виправляти відповіді.

Проте навіть коли обсяг «чистих» даних перевищував обсяг сміттєвих майже в п’ять разів, вихідна точність так й не відновилася. Техніка reflective reasoning допомагала лише в тому випадку, коли в ланцюжок додавався зовнішній «критик» — сильніша модель (GPT-4o-mini), яка оцінює й коментує відповіді.

Звісно, варто робити поправку на масштаби: експеримент проводили на моделях середнього розміру (до 8 млрд параметрів) й на досить старих даних з Twitter зразка 2010 року. Можливо, сучасні гіганти типу GPT-5 стійкіші до такого впливу, або ж навпаки — вбирають ці патерни ще швидше. Проте сигнал для індустрії доволі чіткий — простого збільшення кількості даних вже недостатньо, якщо ці дані токсичні.

Дані вигадані — збитки реальні

Хоча ідея про «гниття інтелекту» машин звучить майже як сюжет для наукової фантастики, все частіше ця «фантастика» приходить у зал суду або ж втручається у фінансові звіти.

Класичним прикладом стала історія юристів, які вирішили довірити ChatGPT підготовку судового позову. Модель, не кліпнувши своїм цифровим оком, вигадала цілу низку нереальних прецедентів, оформивши їх у переконливий юридичний текст. Виявилося, що чат-бот не відрізняє реальний закон від сюжету юридичної драми, якщо обидва тексти були в його навчальній вибірці.

Ще показовішим є кейс Air Canada, де чат-бот авіакомпанії пообіцяв пасажиру знижку на квиток, хоча офіційні правила це забороняли. Коли компанія спробувала відхреститися від обіцянки, заявивши, що бот — це окрема сутність, канадський суд став на бік клієнта. Це створило небезпечний судовий прецедент, бо тепер будь-яка галюцинація бота може стати для компанії зобов’язуючою офертою.

Не застраховані навіть гіганти консалтингу. Deloitte Australia довелося повертати державі сотні тисяч доларів за звіт, підготовлений за допомогою генеративного ШІ. Документ виявився наповненим помилками та вигаданими фактами.

Навіть Google, маючи, здавалося б, безмежні ресурси, неодноразово потрапляв у пастку «сміттєвих даних». Причина банальна — модель навчалася на форумах Reddit, де тролі роками давали абсурдні поради зради жарту. Проте, для нейромережі жарт на форумі та стаття з енциклопедії мають однакову вагу, якщо не налаштувати відповідні фільтри.

Власний «розум» краще орендованого

Отже, покладатися виключно на публічні, відкриті моделі для критично важливих завдань — це стратегія вчорашнього дня. Відкриті інструменти чудові для чернеток чи брейнстормінгу, але вони надто «всеїдні» та непередбачувані для серйозної роботи.

Справжня надійність лежить у площині гібридних рішень. Бізнесу варто дивитися в бік тренування або донавчання (fine-tuning) власних моделей на своїх верифікованих даних. Тим більше, що можливості для цього вже доступні в українських хмарах, зокрема у складі сервісів De Novo можна орендувати потужні тензорні GPU-картки для навчання ML-моделей, також з української захищеної хмари.

Які саме GPU доступні в Україні та як їх використовують, я розглянув у попередньому блозі.