ChatGPT та інші популярні моделі ШІ не зможуть скласти ЗНО — українські дослідники
Українські дослідники протестували ШІ за завданнями ЗНО. Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.
Українські дослідники протестували ШІ за завданнями ЗНО. Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.
Українські дослідники протестували ШІ за завданнями ЗНО. Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.
Команда українських дослідників представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою. Результати показали: навіть найпотужніші моделі, як-от GPT4o чи Claude 3.5, не склали б українського ЗНО.
Ідея ZNOVision проста — якщо модель може пройти тест, створений для абітурієнтів українських вишів, вона дійсно щось «розуміє».
ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.
До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT. Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ.
Жодна з моделей не набрала 70 % правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro. Claude 3.5 — 64,3%, Qwen2VL — 51,2%, GPT4o — 47 %. Для порівняння, випадковий вибір дав би ≈ 22%. Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні запитання) моделі дали: Claude — 26,7%, GPT4o — 29%, Qwen2VL — 34,4%. Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.
ZNOVision — не лише дослідницький інструмент. Це практичний засіб для перевірки україномовних AI-рішень у сфері освіти, автоматизованої підтримки, контент-модерації, локалізації. Стартапи можуть використовувати його як базу для finetuning власних моделей, а EdTech-платформи — для побудови адаптивних тестів. Хмарна інфраструктура De Novo стала опорною ланкою в реалізації цього проєкту. Ресурси компанії дали змогу дослідникам розгорнути кілька моделей одночасно, провести масштабні тести й отримати репрезентативні дані.
«Штучний інтелект не має бути монополією кількох мов. Українська повинна звучати в системах майбутнього так само впевнено, як англійська. І ми в De Novo віримо, що можемо створити для цього технологічне підґрунтя тут, в Україні», — зазначає Максим Агеєв, генеральний директор De Novo.
Нещодавно dev.ua в матеріалі про українську велику мовну модель, розповідав про болгарську LLM, яку створили для української мови. MamayML показала найкращі результати в бенчмарку зі складання ЗНО серед моделей аналогічного розміру, водночас випереджаючи набагато більші моделі, включно з Gemma2 27B, Llama 3.1 70B і Qwen 2.5 72B.



