Олег Онопрієнко ШІ 17 липня 2025, 15:47

ChatGPT та інші популярні моделі ШІ не зможуть скласти ЗНО — українські дослідники

Українські дослідники протестували ШІ за завданнями ЗНО. Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.

Залишити коментар

ChatGPT та інші популярні моделі ШІ не зможуть скласти ЗНО — українські дослідники

Українські дослідники протестували ШІ за завданнями ЗНО. Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.

Команда українських дослідників представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою. Результати показали: навіть найпотужніші моделі, як-от GPT4o чи Claude 3.5, не склали б українського ЗНО.

Ідея ZNOVision проста — якщо модель може пройти тест, створений для абітурієнтів українських вишів, вона дійсно щось «розуміє».

Як тестували: 13 предметів, тисячі запитань, GPU-кластер

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT. Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ.

Жодна з моделей не набрала 70 % правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro. Claude 3.5 — 64,3%, Qwen2VL — 51,2%, GPT4o — 47 %. Для порівняння, випадковий вибір дав би ≈ 22%. Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні запитання) моделі дали: Claude — 26,7%, GPT4o — 29%, Qwen2VL — 34,4%. Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.

Як це використати: продуктова й інфраструктурна перспективи

ZNOVision — не лише дослідницький інструмент. Це практичний засіб для перевірки україномовних AI-рішень у сфері освіти, автоматизованої підтримки, контент-модерації, локалізації. Стартапи можуть використовувати його як базу для finetuning власних моделей, а EdTech-платформи — для побудови адаптивних тестів. Хмарна інфраструктура De Novo стала опорною ланкою в реалізації цього проєкту. Ресурси компанії дали змогу дослідникам розгорнути кілька моделей одночасно, провести масштабні тести й отримати репрезентативні дані.

«Штучний інтелект не має бути монополією кількох мов. Українська повинна звучати в системах майбутнього так само впевнено, як англійська. І ми в De Novo віримо, що можемо створити для цього технологічне підґрунтя тут, в Україні», — зазначає Максим Агеєв, генеральний директор De Novo.

Нещодавно dev.ua в матеріалі про українську велику мовну модель, розповідав про болгарську LLM, яку створили для української мови. MamayML показала найкращі результати в бенчмарку зі складання ЗНО серед моделей аналогічного розміру, водночас випереджаючи набагато більші моделі, включно з Gemma2 27B, Llama 3.1 70B і Qwen 2.5 72B.

Читайте головні IT-новини країни в нашому Telegram

Українська відповідь ChatGPT. Як «Київстар» із Мінцифри будуватимуть національну LLM для України: інсайти й міжнародний ШІ-досвід VEON

Олександр Борняков повідомив що українська велика мовна модель буде збільшена до 11 млрд токенів

«Це достатньо великий ресурс на який ми не маємо можливості отримати гроші. А «Київстар» проактивно викликався допомогти». Борняков пояснив партнерство щодо створення національної LLM

Залишити коментар

Текст: Олег Онопрієнко Теги: штучний інтелект, зно

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар