😍 Спробуй Новий Trustee Plus на дотик - твій криптогаманець і платіжна картка тут 👉

ШІ-дослідник та співзасновник OpenAI Андрей Карпати протестував Grok 3 Маска: ось його висновки

17 лютого стартап Ілона Маска xAI презентував новий чат-бот Grok 3. Співзасновник OpenAI та колишній голова відділу розробки автопілота Tesla Андрей Карпати протестував новинку Маска, отримавши ранній доступ. Які висновки він зробив за дві години користування Grok 3?

Залишити коментар
ШІ-дослідник та співзасновник OpenAI Андрей Карпати протестував Grok 3 Маска: ось його висновки

17 лютого стартап Ілона Маска xAI презентував новий чат-бот Grok 3. Співзасновник OpenAI та колишній голова відділу розробки автопілота Tesla Андрей Карпати протестував новинку Маска, отримавши ранній доступ. Які висновки він зробив за дві години користування Grok 3?

Спочатку Андрей Карпати перевірив чат-бот щодо вміння мислити: завдання стосувалися ігор The Settlers of Catan і хрестики-нулики, Emoji mystery, гіпотези Рімана та іншого.

«По-перше, Grok 3 явно має найсучаснішу модель мислення (є кнопка „Думати“) і чудово впоралася з моїм питанням Settler of Catan», — написав ШІ-дослідник в X.

Карпати використав наступний промпт: «Створи вебсторінку настільної гри, яка показує шестигранну сітку, як у грі Settlers of Catan. Кожен шестикутник сітки пронумеруй від 1 до N, де N — загальна кількість шестикутників. Зроби її такою, щоб можна було змінювати кількість „кілець“ за допомогою повзунка. Наприклад, у Catan радіус становить шестикутники. Одну html-сторінку, будь ласка».

Співзасновник OpenAI зауважив, що не усім моделям вдається зробити це добре. Наприклад, o1-pro з платною підпискою $200 на місяць це під силу, а ось DeepSeek-R1, Gemini 2.0 Flash Thinking та Claude з цим не можуть впоратись. 

Водночас Grok 3 не зміг розгадати загадку з Emoji mystery, навіть після чіткої підказки, як можна розшифрувати за допомогою Rust. Найкраще з таким завданням справилася DeepSeek-R1, яка частково розкодувала повідомлення. 

Потім Grok 3 отримав завдання розв’язати декілька дощок гри хрестики-нулики, з чим справився добре. Але не зміг згенерувати 3 «хитрі» дошки для гри, хоча з цим і o1 pro не впорався.  

Далі Карпати завантажив документ GPT-2 і поставив купу простих пошукових запитань, що добре спрацювало. Потім попросив оцінити кількість тренувальних провалів, необхідних для навчання GPT-2, без пошуку.

200 айтівців Райфу створили мобільний суперапп для мільйона користувачів. Що є в застосунку як він полегшує життя та кого шукають у когорту розробників MyRaif
200 айтівців Райфу створили мобільний суперапп для мільйона користувачів. Що є в застосунку, як він полегшує життя та кого шукають у когорту розробників MyRaif
По темi
200 айтівців Райфу створили мобільний суперапп для мільйона користувачів. Що є в застосунку, як він полегшує життя та кого шукають у когорту розробників MyRaif

«Це складно, оскільки кількість токенів не вказана, тому її потрібно частково оцінити та частково обчислити, акцентуючи увагу на пошуку, знаннях і математиці. Одним із прикладів є 40 ГБ тексту ≅ 40 Б символів ≅ 40 Б байт (припустимо ASCII) ≅ 10 Б маркерів (припустимо ~4 байт/токен), при ~10 епохах ≅ 100 Б маркерів тренувального запуску, при 1,5 Б параметрів і з 2+4=6 flops/параметр/токен, це 100e9 X 1,5e9 X 6 ≅ 1e21 flops. І Grok 3, і 4o не справляються із цим завданням, але Grok 3  чудово вирішує це завдання, тоді як o1 pro (модель мислення GPT) не справляється», — зазначив ШІ-дослідник.

Модель до останнього намагалася розв’язати гіпотезу Рімана, поки Карпати не зупинив свої спроби. Інші моделі з таким завданням миттєво здавалися, просто кажучи, що це велика невирішена проблема. 

«Загальне враження, яке я тут склав, полягає в тому, що це десь приблизно за можливостями o1-pro і випереджає DeepSeek-R1, хоча, звичайно, нам потрібні фактичні, реальні оцінки», — зробив висновки Карпати про те, як вміє мислити Grok 3.

Далі Карпати перевірив функцію DeepSearch для пошуку відповідей в інтернеті. 

OpenAI запустила Deep Research для пошуку інформації в інтернеті. У Grok 3 теж є така можливість, яка називається трохи по іншому DeepSearch.

За допомогою DeepSearch Карпати шукав відповіді в інтернеті на декілька запитань. Тож Grok 3 правильно відповів на питання про майбутній запуск Apple, чому падають акції компанії Palantir, де знімали «Білий лотос 3» і якою зубною пастою користується Браян Джонсон.

На два питання ШІ не зміг знайти правильної відповіді, а саме: де зараз актори 4 сезону серіалу «Пекло для самотніх» і якою програмою для перетворення мови в текст користується Саймон Віллісон.

Крім того, Grok 3 не любить посилатися на X як на джерело за замовчуванням, хоча можна попросити про це. Кілька разів модель посилалася на вигадані URL-адреси.

«У мене склалося враження про DeepSearch, що він приблизно такий же, як і Perplexity DeepResearch (це чудово!), але ще не на рівні нещодавно випущеного OpenAI Deep Research, який усе ще виглядає більш ретельним і надійним (хоча й досі не є досконалим)», — підсумував співзасновник OpenAI.

Також почуття гумору Grok 3  не покращилося, але така проблема є у багатьох ШІ. Також модель все ще надто чутлива до «складних етичних питань».

Який висновок зробив ШІ-дослідник?

ШІ-дослідник та співзасновник OpenAI Андрей Карпати

За результатами швидкої перевірки протягом близько 2 годин сьогодні вранці, Grok 3 + Thinking відчуває себе десь на рівні найсучасніших моделей OpenAI (o1-pro, $200/місяць), і трохи краще, ніж DeepSeek-R1 і Gemini 2.0 Flash Thinking. Що досить неймовірно, враховуючи, що команда почала з нуля приблизно 1 рік тому, такий часовий проміжок для досягнення високого рівня є безпрецедентним.

Не забувайте також про застереження — моделі є стохастичними і можуть давати дещо різні відповіді кожного разу, і це дуже рано, тому нам доведеться чекати на набагато більше оцінок протягом наступних кількох днів/тижнів. Перші результати на LM-арені виглядають досить обнадійливими.

Наразі, великі вітання команді xAI, вони явно мають величезну швидкість та імпульс, і я з нетерпінням чекаю, щоб додати Grok 3 до моєї «LLM ради» та почути, що вона думає про майбутнє.

ШІ-бот Grok від Ілона Маска став окремим застосунком
ШІ-бот Grok від Ілона Маска став окремим застосунком
По темi
ШІ-бот Grok від Ілона Маска став окремим застосунком
AI-експерт протестував Grok. У чому його фішки та чим відрізняється чат-бот від ChatGPT Gemini та Claude
AI-експерт протестував Grok. У чому його фішки та чим відрізняється чат-бот від ChatGPT, Gemini та Claude
По темi
AI-експерт протестував Grok. У чому його фішки та чим відрізняється чат-бот від ChatGPT, Gemini та Claude
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Підключай Megogo зі знижками за акційними тарифами.

від 99 гривень на місяць

Mazda
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.