Наталя Хандусенко ШІ 19 лютого 2025, 15:55

ШІ-дослідник та співзасновник OpenAI Андрей Карпати протестував Grok 3 Маска: ось його висновки

17 лютого стартап Ілона Маска xAI презентував новий чат-бот Grok 3. Співзасновник OpenAI та колишній голова відділу розробки автопілота Tesla Андрей Карпати протестував новинку Маска, отримавши ранній доступ. Які висновки він зробив за дві години користування Grok 3?

Залишити коментар

ШІ-дослідник та співзасновник OpenAI Андрей Карпати протестував Grok 3 Маска: ось його висновки

17 лютого стартап Ілона Маска xAI презентував новий чат-бот Grok 3. Співзасновник OpenAI та колишній голова відділу розробки автопілота Tesla Андрей Карпати протестував новинку Маска, отримавши ранній доступ. Які висновки він зробив за дві години користування Grok 3?

Спочатку Андрей Карпати перевірив чат-бот щодо вміння мислити: завдання стосувалися ігор The Settlers of Catan і хрестики-нулики, Emoji mystery, гіпотези Рімана та іншого.

«По-перше, Grok 3 явно має найсучаснішу модель мислення (є кнопка „Думати“) і чудово впоралася з моїм питанням Settler of Catan», — написав ШІ-дослідник в X.

Карпати використав наступний промпт: «Створи вебсторінку настільної гри, яка показує шестигранну сітку, як у грі Settlers of Catan. Кожен шестикутник сітки пронумеруй від 1 до N, де N — загальна кількість шестикутників. Зроби її такою, щоб можна було змінювати кількість „кілець“ за допомогою повзунка. Наприклад, у Catan радіус становить шестикутники. Одну html-сторінку, будь ласка».

Співзасновник OpenAI зауважив, що не усім моделям вдається зробити це добре. Наприклад, o1-pro з платною підпискою $200 на місяць це під силу, а ось DeepSeek-R1, Gemini 2.0 Flash Thinking та Claude з цим не можуть впоратись.

Водночас Grok 3 не зміг розгадати загадку з Emoji mystery, навіть після чіткої підказки, як можна розшифрувати за допомогою Rust. Найкраще з таким завданням справилася DeepSeek-R1, яка частково розкодувала повідомлення.

Потім Grok 3 отримав завдання розв’язати декілька дощок гри хрестики-нулики, з чим справився добре. Але не зміг згенерувати 3 «хитрі» дошки для гри, хоча з цим і o1 pro не впорався.

Далі Карпати завантажив документ GPT-2 і поставив купу простих пошукових запитань, що добре спрацювало. Потім попросив оцінити кількість тренувальних провалів, необхідних для навчання GPT-2, без пошуку.

200 айтівців Райфу створили мобільний суперапп для мільйона користувачів. Що є в застосунку як він полегшує життя та кого шукають у когорту розробників MyRaif

«Це складно, оскільки кількість токенів не вказана, тому її потрібно частково оцінити та частково обчислити, акцентуючи увагу на пошуку, знаннях і математиці. Одним із прикладів є 40 ГБ тексту ≅ 40 Б символів ≅ 40 Б байт (припустимо ASCII) ≅ 10 Б маркерів (припустимо ~4 байт/токен), при ~10 епохах ≅ 100 Б маркерів тренувального запуску, при 1,5 Б параметрів і з 2+4=6 flops/параметр/токен, це 100e9 X 1,5e9 X 6 ≅ 1e21 flops. І Grok 3, і 4o не справляються із цим завданням, але Grok 3 чудово вирішує це завдання, тоді як o1 pro (модель мислення GPT) не справляється», — зазначив ШІ-дослідник.

Модель до останнього намагалася розв’язати гіпотезу Рімана, поки Карпати не зупинив свої спроби. Інші моделі з таким завданням миттєво здавалися, просто кажучи, що це велика невирішена проблема.

«Загальне враження, яке я тут склав, полягає в тому, що це десь приблизно за можливостями o1-pro і випереджає DeepSeek-R1, хоча, звичайно, нам потрібні фактичні, реальні оцінки», — зробив висновки Карпати про те, як вміє мислити Grok 3.

Далі Карпати перевірив функцію DeepSearch для пошуку відповідей в інтернеті.

OpenAI запустила Deep Research для пошуку інформації в інтернеті. У Grok 3 теж є така можливість, яка називається трохи по іншому DeepSearch.

За допомогою DeepSearch Карпати шукав відповіді в інтернеті на декілька запитань. Тож Grok 3 правильно відповів на питання про майбутній запуск Apple, чому падають акції компанії Palantir, де знімали «Білий лотос 3» і якою зубною пастою користується Браян Джонсон.

На два питання ШІ не зміг знайти правильної відповіді, а саме: де зараз актори 4 сезону серіалу «Пекло для самотніх» і якою програмою для перетворення мови в текст користується Саймон Віллісон.

Крім того, Grok 3 не любить посилатися на X як на джерело за замовчуванням, хоча можна попросити про це. Кілька разів модель посилалася на вигадані URL-адреси.

«У мене склалося враження про DeepSearch, що він приблизно такий же, як і Perplexity DeepResearch (це чудово!), але ще не на рівні нещодавно випущеного OpenAI Deep Research, який усе ще виглядає більш ретельним і надійним (хоча й досі не є досконалим)», — підсумував співзасновник OpenAI.

Також почуття гумору Grok 3 не покращилося, але така проблема є у багатьох ШІ. Також модель все ще надто чутлива до «складних етичних питань».

Який висновок зробив ШІ-дослідник?

ШІ-бот Grok від Ілона Маска став окремим застосунком

AI-експерт протестував Grok. У чому його фішки та чим відрізняється чат-бот від ChatGPT Gemini та Claude

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Наталя Хандусенко Фото: NBC News Теги: grok, андрей карпати, ші, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар