🚀💳 Trustee Plus - більше ніж криптогаманець з європейською платіжною карткою. Спробуй 👉
Олександр КузьменкоШІ
11 квітня 2025, 13:28
2025-04-11
ШІ Gemini від Google краще відстежує і фіксить баги на iOS ніж на Android
Компанія Instabug створила інструмент SmartResolve, який використовує моделі ШІ для пошуку причин (і потенційного виправлення) багів у додатках на iOS від Apple та Android від Google. Виявилося, що всі моделі ШІ, включно з Gemini, краще виконують цю роботу на iOS. В чому причина?
Компанія Instabug створила інструмент SmartResolve, який використовує моделі ШІ для пошуку причин (і потенційного виправлення) багів у додатках на iOS від Apple та Android від Google. Виявилося, що всі моделі ШІ, включно з Gemini, краще виконують цю роботу на iOS. В чому причина?
У дослідженні, про яке пише Business Insider, було використано провідні моделі штучного інтелекту для автоматизації процесу виявлення збоїв у роботі додатків, діагностики проблем, і генерації корисних виправлень програмного коду.
Дослідники використовували моделі від OpenAI, Anthropic, Google та Meta на базі даних реальних збоїв у роботі додатків. Кожне виправлення оцінювалося за правильністю, схожістю з людськими виправленнями, глибиною аналізу першопричин, релевантністю та загальною узгодженістю.
Виявилося, що ШІ-моделі стабільно працюють краще на iOS, ніж на Android. Виправлення багів, знайдених SmartResolve на платформі Apple, були більш точними, узгодженими та добре структурованими майже в кожній з протестованих моделей.
Модель GPT-4o від OpenAI набрала 60% на iOS проти 49% на Android. З моделлю o1 різниця була ще більш відчутною — вона досягла 62% на iOS, але впала до 26% на Android, і часто взагалі не реагувала на тести на Android.
Інші моделі мали схожу картину. Claude Sonnet 3.5 V1 від Anthropic набрав 58% на iOS і 56% на Android — менший розрив, але все одно iOS лідирує.
Навіть Gemini 1.5 Pro від Google показала гірші результати на Android (51%), ніж на iOS (59%). Instabug виявив, що ця модель також зіткнулася з більшою кількістю галюцинацій.
Така різниця може бути пов’язана з відкритістю і фрагментованістю екосистеми Android. Порівняно з iOS, яка пропонує більш уніфіковане середовище, ширший спектр пристроїв і типів збоїв на Android може ускладнити для ШІ-моделей узагальнення виправлень.
«Вища продуктивність на iOS частково пояснюється структурою рідних мов iOS, таких як Swift та Objective-C. Їх синтаксис більш передбачуваний і чітко типізований, що полегшує розробникам LLM генерувати точні виправлення», — вважає Кенні Джонстон, CPO в Instabug.
Він додав, що мови програмування на Android (Java та Kotlin), а також варіативність форматів багів, означають більшу складність для виправлень.