UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

Моделі штучного інтелекту все ще не справляються з процесом налагодження коду, показує дослідження Microsoft

Більшість розробників витрачають значну частину свого часу на налагодження коду, а не на його написання. Було б чудово мати такий ШІ-інструмент, який може запропонувати виправлення для сотень помилок, і все що потрібно зробити, це схвалити їх. Проте, нове дослідження Microsoft Research показало, що провідним ШІ-моделям поки ще не під силу таке завдання.  

Залишити коментар
Моделі штучного інтелекту все ще не справляються з процесом налагодження коду, показує дослідження Microsoft

Більшість розробників витрачають значну частину свого часу на налагодження коду, а не на його написання. Було б чудово мати такий ШІ-інструмент, який може запропонувати виправлення для сотень помилок, і все що потрібно зробити, це схвалити їх. Проте, нове дослідження Microsoft Research показало, що провідним ШІ-моделям поки ще не під силу таке завдання.  

Сучасні інструменти штучного інтелекту для кодування підвищують продуктивність і чудово пропонують рішення для помилок на основі наявного коду та повідомлень про помилки. Однак, на відміну від розробників-людей, ці інструменти не шукають додаткову інформацію, коли рішення не спрацьовує, залишаючи деякі помилки невиправленими.

Дослідження Microsoft Research показує, що моделі, включно з Claude 3.7 Sonnet від Anthropic і o3-mini від OpenAI, не можуть налагодити багато проблем у тесті для розробки програмного забезпечення під назвою SWE-bench Lite.

Співавтори дослідження протестували дев’ять різних моделей як основу для агента, який мав доступ до ряду інструментів налагодження, включаючи налагоджувач Python. Вони доручили цьому агенту розв’язати набір із 300 завдань із налагодження програмного забезпечення від SWE-bench Lite, пише TechCrunch.

За словами співавторів, навіть при використанні більш потужних і сучасних моделей, їхній агент рідко успішно виконував понад половини завдань з налагодження. Claude 3.7 Sonnet мав найвищий середній показник успішності (48.4%), за ним йшли o1 від OpenAI (30.2%) та o3-mini (22.1%). 

Чому така низька продуктивність?

Деяким моделям було важко використовувати доступні їм різні інструменти налагодження і зрозуміти, як вони можуть допомогти у розв’язанні різних проблем.

Проте більшою проблемою, на думку співавторів, була нестача даних. Вони припускають, що в нинішніх навчальних даних моделей недостатньо того, що представляють «послідовні процеси прийняття рішень» — тобто, сліди  налагодження саме людиною.

«Ми твердо віримо, що навчання або тонке налаштування [моделей] може зробити їх кращими інтерактивними налагоджувачами», — написали співавтори у своєму дослідженні. «Однак для цього знадобляться спеціальні дані для виконання такого навчання моделі, наприклад дані траєкторії, які фіксують взаємодію агентів з налагоджувачем для збору необхідної інформації перед тим, як запропонувати виправлення помилки».

CEO Anthropic вважає, що штучний інтелект замінить програмістів вже протягом року. Якщо протягом наступних шести місяців 90% коду справді генеруватиметься штучним інтелектом, це може спричинити масштабні зміни в індустрії розробки програмного забезпечення.

Співзасновник Instagram не таки категоричний у своїх заявах. Майк Крігер вважає, що незабаром програмісти перевірятимуть код, створений ШІ, а не писатимуть його власноруч. Він не вважає, що ШІ повністю візьме на себе функції кодування. На його думку, ШІ буде делеговано повторювані та рутинні завдання, оскільки інженери-програмісти спрямовуватимуть свій досвід на більш делікатні завдання, з якими ШІ не завжди зможе впоратися.

У лютому засновник американської e-commerce платформи Gumroad заявив, що компанія більше не найматиме джунів та мідлів, довіривши їхню роботу штучному інтелекту.

ШІ-помічник для програмування Gemini Code Assist отримає агентів: як вони можуть допомогти з кодом
ШІ-помічник для програмування Gemini Code Assist отримає агентів: як вони можуть допомогти з кодом
По темi
ШІ-помічник для програмування Gemini Code Assist отримає агентів: як вони можуть допомогти з кодом
«Швидкість яку ви можете отримати порівняно з самостійним програмуванням просто божевільна». 3 поради з вайб-кодингу від провідних інженерів-програмістів
«Швидкість, яку ви можете отримати порівняно з самостійним програмуванням, просто божевільна». 3 поради з вайб-кодингу від провідних інженерів-програмістів
По темi
«Швидкість, яку ви можете отримати порівняно з самостійним програмуванням, просто божевільна». 3 поради з вайб-кодингу від провідних інженерів-програмістів
Сем Альтман каже що студенти повинні опанувати інструменти ШІ так само як його покоління вчилося кодувати
Сем Альтман каже, що студенти повинні опанувати інструменти ШІ, так само як його покоління вчилося кодувати
По темi
Сем Альтман каже, що студенти повинні опанувати інструменти ШІ, так само як його покоління вчилося кодувати
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Call of Duty не зникне з PlayStation раптово. Sony отримала таку гарантію під Microsoft, яка купує розробника гри – Activision Blizzard
Call of Duty не зникне з PlayStation раптово. Sony отримала таку гарантію під Microsoft, яка купує розробника гри – Activision Blizzard
Call of Duty не зникне з PlayStation раптово. Sony отримала таку гарантію під Microsoft, яка купує розробника гри – Activision Blizzard
Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження
Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження
Репост новин змушує нас вважати себе розумнішими, але це не так. З лідерами думок теж працює, показує нове дослідження
Обмін новинними статтями з друзями та підписниками в соціальних мережах спонукає людей думати, що вони знають про теми цих статей більше, ніж вони знають насправді. І це працює з активними користувачами Facebook, що ставить під сумнів обізнаність ваших улюблених лідерів думок. Про це свідчить дослідження вчених з Техаського університету в Остіні. До речі, обов’язково покажіть цю статтю своїм друзям і репостніть у соцмережах.
За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic
За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic
За десять років айтішниць в Україні стало втричі більше, — дослідження Global Logic

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.