Реклама партнера — Название партнёра
UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

ChatGPT та інші популярні моделі ШІ не зможуть скласти ЗНО — українські дослідники

Українські дослідники протестували ШІ за завданнями ЗНО.  Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.  

Залишити коментар
ChatGPT та інші популярні моделі ШІ не зможуть скласти ЗНО — українські дослідники

Українські дослідники протестували ШІ за завданнями ЗНО.  Жодна з моделей не набрала 70% правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro.  

Команда українських дослідників представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою. Результати показали: навіть найпотужніші моделі, як-от GPT4o чи Claude 3.5, не склали б українського ЗНО. 

Ідея ZNOVision проста — якщо модель може пройти тест, створений для абітурієнтів українських вишів, вона дійсно щось «розуміє».

Як тестували: 13 предметів, тисячі запитань, GPU-кластер 

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей: GPT4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, Qwen2VL72B, Paligemma3B, а також донавчену версію PaligemmaFT. Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ. 

Жодна з моделей не набрала 70 % правильних відповідей. Найкращий результат — 67,5% — у Gemini Pro. Claude 3.5 — 64,3%, Qwen2VL — 51,2%, GPT4o — 47 %. Для порівняння, випадковий вибір дав би ≈ 22%. Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання. У наборі VQAUA (візуальні запитання) моделі дали: Claude — 26,7%, GPT4o — 29%, Qwen2VL — 34,4%. Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.  

Як це використати: продуктова й інфраструктурна перспективи 

ZNOVision — не лише дослідницький інструмент. Це практичний засіб для перевірки україномовних AI-рішень у сфері освіти, автоматизованої підтримки, контент-модерації, локалізації. Стартапи можуть використовувати його як базу для finetuning власних моделей, а EdTech-платформи — для побудови адаптивних тестів. Хмарна інфраструктура De Novo стала опорною ланкою в реалізації цього проєкту. Ресурси компанії дали змогу дослідникам розгорнути кілька моделей одночасно, провести масштабні тести й отримати репрезентативні дані.  

«Штучний інтелект не має бути монополією кількох мов. Українська повинна звучати в системах майбутнього так само впевнено, як англійська. І ми в De Novo віримо, що можемо створити для цього технологічне підґрунтя тут, в Україні», — зазначає Максим Агеєв, генеральний директор De Novo. 

Нещодавно dev.ua в матеріалі про українську велику мовну модель, розповідав про болгарську LLM, яку створили для української мови. MamayML показала найкращі результати в бенчмарку зі складання ЗНО серед моделей аналогічного розміру, водночас випереджаючи набагато більші моделі, включно з Gemma2 27B, Llama 3.1 70B і Qwen 2.5 72B. 

Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Українська відповідь ChatGPT. Як «Київстар» із Мінцифри будуватимуть національну LLM для України: інсайти й міжнародний ШІ-досвід VEON
Українська відповідь ChatGPT. Як «Київстар» із Мінцифри будуватимуть національну LLM для України: інсайти й міжнародний ШІ-досвід VEON
По темi
Українська відповідь ChatGPT. Як «Київстар» із Мінцифри будуватимуть національну LLM для України: інсайти й міжнародний ШІ-досвід VEON
Олександр Борняков повідомив що українська велика мовна модель буде збільшена до 11 млрд токенів
Олександр Борняков повідомив, що українська велика мовна модель буде збільшена до 11 млрд токенів
По темi
Олександр Борняков повідомив, що українська велика мовна модель буде збільшена до 11 млрд токенів
«Це достатньо великий ресурс на який ми не маємо можливості отримати гроші. А «Київстар» проактивно викликався допомогти». Борняков пояснив партнерство щодо створення національної LLM
«Це достатньо великий ресурс, на який ми не маємо можливості отримати гроші. А „Київстар“ проактивно викликався допомогти». Борняков пояснив партнерство щодо створення національної LLM
По темi
«Це достатньо великий ресурс, на який ми не маємо можливості отримати гроші. А „Київстар“ проактивно викликався допомогти». Борняков пояснив партнерство щодо створення національної LLM
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
3 коментарі
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
2 коментарі
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.