🚀 Trustee Plus - картка європейського банку і криптогаманець. Встанови додаток 👉

Китайці запустили одну з найпотужніших відкритих ШІ-моделей DeepSeek V3, яка добре працює з кодом, але не дуже охоче відповідає на питання стосовно країни розробника

Китайська компанія DeepSeek представила свою нову відкриту ШІ-модель — DeepSeek V3, яка, здається, перевершує американських конкурентів. 

Залишити коментар
Китайці запустили одну з найпотужніших відкритих ШІ-моделей DeepSeek V3, яка добре працює з кодом, але не дуже охоче відповідає на питання стосовно країни розробника

Китайська компанія DeepSeek представила свою нову відкриту ШІ-модель — DeepSeek V3, яка, здається, перевершує американських конкурентів. 

DeepSeek V3 може впоратися з такими завданнями, як кодування, переклад, написання есе та електронних листів на основі підказки, пише TechCrunch.

Згідно з внутрішнім порівняльним тестуванням DeepSeek, нова модель перевершує як завантажувані, «відкрито» доступні моделі, так і «закриті» моделі ШІ, доступ до яких можна отримати лише через API. У низці змагань з програмування на платформі Codeforces, DeepSeek випереджає інші моделі, зокрема Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba.

DeepSeek V3 також випереджає конкурентів у тесті Aider Polyglot, призначеному, серед іншого, для вимірювання того, чи може модель успішно писати новий код, який інтегрується в наявний код. 

Компанія стверджує, що DeepSeek V3 була навчена на наборі даних з 14,8 трильйона токенів (1 млн токенів дорівнює приблизно 750 000 слів).

Масштабним є не лише навчальний набір. DeepSeek V3 має величезний розмір: 671 млрд параметрів (параметри — це внутрішні змінні, які моделі використовують для прогнозування або прийняття рішень). Це приблизно в 1,6 раза більше, ніж у Llama 3.1 405B, яка має 405 млрд параметрів.

Кількість параметрів часто (але не завжди) корелює з навичками; моделі з більшою кількістю параметрів, як правило, перевершують моделі з меншою кількістю параметрів. Але великі моделі також вимагають потужнішого обладнання для роботи. Неоптимізованій версії DeepSeek V3 знадобиться набір графічних процесорів високого класу, щоб відповідати на запитання з розумною швидкістю.

DeepSeek змогла навчити модель, використовуючи центр обробки даних з графічними процесорами Nvidia H800 всього за два місяці — графічні процесори, які нещодавно були заборонені Міністерством торгівлі США для китайських компаній. Компанія також стверджує, що витратила на навчання DeepSeek V3 лише $5,5 млн, що становить лише частину вартості розробки таких моделей, як GPT-4 від OpenAI.

Недоліком є те, що політичні погляди моделі трохи… кульгають. Запитайте DeepSeek V3 про площу Тяньаньмень, наприклад, і вона не відповість.

DeepSeek, будучи китайською компанією, підлягає порівняльному аналізу з боку китайського інтернет-регулятора, щоб переконатися, що відповіді її моделей «втілюють основні соціалістичні цінності». Багато китайських систем штучного інтелекту відмовляються відповідати на теми, які можуть викликати гнів регуляторів, наприклад, спекуляції про режим Сі Цзіньпіна.

Google представила експериментальну ШІ-модель Gemini 2.0 Flash Thinking Experimental яка вміє «думати»
Google представила експериментальну ШІ-модель Gemini 2.0 Flash Thinking Experimental, яка вміє «думати»
По темi
Google представила експериментальну ШІ-модель Gemini 2.0 Flash Thinking Experimental, яка вміє «думати»
Microsoft створила невелику ШІ-модель Phi-4 яка розвязує математичні задачі краще ніж значно більші моделі від Google
Microsoft створила невелику ШІ-модель Phi-4, яка розв’язує математичні задачі краще, ніж значно більші моделі від Google
По темi
Microsoft створила невелику ШІ-модель Phi-4, яка розв’язує математичні задачі краще, ніж значно більші моделі від Google
Meta випускає ШІ-модель для метавсесвіту яка робить рухи аватарів реалістичнішими схожими на людські
Meta випускає ШІ-модель для метавсесвіту, яка робить рухи аватарів реалістичнішими, схожими на людські
По темi
Meta випускає ШІ-модель для метавсесвіту, яка робить рухи аватарів реалістичнішими, схожими на людські
Читайте головні IT-новини країни в нашому Telegram
Читайте головні IT-новини країни в нашому Telegram
По темi
Читайте головні IT-новини країни в нашому Telegram
Читайте також
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект почав озвучувати фільми на MEGOGO
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого
Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті. 

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Обговорення
Коментарів поки немає.