Олександр Кузьменко ШІ 11 квітня 2025, 13:28

ШІ Gemini від Google краще відстежує і фіксить баги на iOS ніж на Android

Компанія Instabug створила інструмент SmartResolve, який використовує моделі ШІ для пошуку причин (і потенційного виправлення) багів у додатках на iOS від Apple та Android від Google. Виявилося, що всі моделі ШІ, включно з Gemini, краще виконують цю роботу на iOS. В чому причина?

Залишити коментар

ШІ Gemini від Google краще відстежує і фіксить баги на iOS ніж на Android

Компанія Instabug створила інструмент SmartResolve, який використовує моделі ШІ для пошуку причин (і потенційного виправлення) багів у додатках на iOS від Apple та Android від Google. Виявилося, що всі моделі ШІ, включно з Gemini, краще виконують цю роботу на iOS. В чому причина?

У дослідженні, про яке пише Business Insider, було використано провідні моделі штучного інтелекту для автоматизації процесу виявлення збоїв у роботі додатків, діагностики проблем, і генерації корисних виправлень програмного коду.

Дослідники використовували моделі від OpenAI, Anthropic, Google та Meta на базі даних реальних збоїв у роботі додатків. Кожне виправлення оцінювалося за правильністю, схожістю з людськими виправленнями, глибиною аналізу першопричин, релевантністю та загальною узгодженістю.

Виявилося, що ШІ-моделі стабільно працюють краще на iOS, ніж на Android. Виправлення багів, знайдених SmartResolve на платформі Apple, були більш точними, узгодженими та добре структурованими майже в кожній з протестованих моделей.

Модель GPT-4o від OpenAI набрала 60% на iOS проти 49% на Android. З моделлю o1 різниця була ще більш відчутною — вона досягла 62% на iOS, але впала до 26% на Android, і часто взагалі не реагувала на тести на Android.

Інші моделі мали схожу картину. Claude Sonnet 3.5 V1 від Anthropic набрав 58% на iOS і 56% на Android — менший розрив, але все одно iOS лідирує.

Навіть Gemini 1.5 Pro від Google показала гірші результати на Android (51%), ніж на iOS (59%). Instabug виявив, що ця модель також зіткнулася з більшою кількістю галюцинацій.

Така різниця може бути пов’язана з відкритістю і фрагментованістю екосистеми Android. Порівняно з iOS, яка пропонує більш уніфіковане середовище, ширший спектр пристроїв і типів збоїв на Android може ускладнити для ШІ-моделей узагальнення виправлень.

«Вища продуктивність на iOS частково пояснюється структурою рідних мов iOS, таких як Swift та Objective-C. Їх синтаксис більш передбачуваний і чітко типізований, що полегшує розробникам LLM генерувати точні виправлення», — вважає Кенні Джонстон, CPO в Instabug.

Він додав, що мови програмування на Android (Java та Kotlin), а також варіативність форматів багів, означають більшу складність для виправлень.

Нагадаємо, що в OpenAI розглядають придбання стартапу колишнього головного дизайнера Apple Джоні Айва за $500 млн. Ідеться про компанію io Products, що займається розробкою пристроїв зі штучним інтелектом.