Наталя Хандусенко ШІ 27 грудня 2024, 16:05

Китайці запустили одну з найпотужніших відкритих ШІ-моделей DeepSeek V3, яка добре працює з кодом, але не дуже охоче відповідає на питання стосовно країни розробника

Китайська компанія DeepSeek представила свою нову відкриту ШІ-модель — DeepSeek V3, яка, здається, перевершує американських конкурентів.

Залишити коментар

Китайці запустили одну з найпотужніших відкритих ШІ-моделей DeepSeek V3, яка добре працює з кодом, але не дуже охоче відповідає на питання стосовно країни розробника

Китайська компанія DeepSeek представила свою нову відкриту ШІ-модель — DeepSeek V3, яка, здається, перевершує американських конкурентів.

DeepSeek V3 може впоратися з такими завданнями, як кодування, переклад, написання есе та електронних листів на основі підказки, пише TechCrunch.

Згідно з внутрішнім порівняльним тестуванням DeepSeek, нова модель перевершує як завантажувані, «відкрито» доступні моделі, так і «закриті» моделі ШІ, доступ до яких можна отримати лише через API. У низці змагань з програмування на платформі Codeforces, DeepSeek випереджає інші моделі, зокрема Llama 3.1 405B від Meta, GPT-4o від OpenAI та Qwen 2.5 72B від Alibaba.

DeepSeek V3 також випереджає конкурентів у тесті Aider Polyglot, призначеному, серед іншого, для вимірювання того, чи може модель успішно писати новий код, який інтегрується в наявний код.

DeepSeek-V3!

60 tokens/second (3x faster than V2!)
API compatibility intact
Fully open-source models & papers
671B MoE parameters
37B activated parameters
Trained on 14.8T high-quality tokens

Beats Llama 3.1 405b on almost every benchmark https://t.co/OiHu17hBSI pic.twitter.com/jVwJU07dqf
— Chubby♨️ (@kimmonismus) December 26, 2024

Компанія стверджує, що DeepSeek V3 була навчена на наборі даних з 14,8 трильйона токенів (1 млн токенів дорівнює приблизно 750 000 слів).

Масштабним є не лише навчальний набір. DeepSeek V3 має величезний розмір: 671 млрд параметрів (параметри — це внутрішні змінні, які моделі використовують для прогнозування або прийняття рішень). Це приблизно в 1,6 раза більше, ніж у Llama 3.1 405B, яка має 405 млрд параметрів.

Кількість параметрів часто (але не завжди) корелює з навичками; моделі з більшою кількістю параметрів, як правило, перевершують моделі з меншою кількістю параметрів. Але великі моделі також вимагають потужнішого обладнання для роботи. Неоптимізованій версії DeepSeek V3 знадобиться набір графічних процесорів високого класу, щоб відповідати на запитання з розумною швидкістю.

DeepSeek змогла навчити модель, використовуючи центр обробки даних з графічними процесорами Nvidia H800 всього за два місяці — графічні процесори, які нещодавно були заборонені Міністерством торгівлі США для китайських компаній. Компанія також стверджує, що витратила на навчання DeepSeek V3 лише $5,5 млн, що становить лише частину вартості розробки таких моделей, як GPT-4 від OpenAI.

Недоліком є те, що політичні погляди моделі трохи… кульгають. Запитайте DeepSeek V3 про площу Тяньаньмень, наприклад, і вона не відповість.

DeepSeek, будучи китайською компанією, підлягає порівняльному аналізу з боку китайського інтернет-регулятора, щоб переконатися, що відповіді її моделей «втілюють основні соціалістичні цінності». Багато китайських систем штучного інтелекту відмовляються відповідати на теми, які можуть викликати гнів регуляторів, наприклад, спекуляції про режим Сі Цзіньпіна.

Google представила експериментальну ШІ-модель Gemini 2.0 Flash Thinking Experimental яка вміє «думати»

Microsoft створила невелику ШІ-модель Phi-4 яка розвязує математичні задачі краще ніж значно більші моделі від Google

Meta випускає ШІ-модель для метавсесвіту яка робить рухи аватарів реалістичнішими схожими на людські

Читайте головні IT-новини країни в нашому Telegram

Залишити коментар

Текст: Наталя Хандусенко Фото: xenospectrum Теги: deepseek v3, штучний інтелект

Знайшли помилку в тексті – виділіть її та натисніть Ctrl+Enter. Знайшли помилку в тексті – виділіть її та натисніть кнопку «Повідомити про помилку».

Розміщення реклами

Штучний інтелект DALL-E навчився домальовувати картини. Як це виглядає

Штучний інтелект почав озвучувати фільми на MEGOGO

3 коментарі

Штучний інтелект навчився реставрувати старі фотографії, перетворюючи їх на якісні зображення: відео

2 коментарі

«Чи є у мене талант, якщо комп’ютер може імітувати мене?». Штучний інтелект пише книги авторам Amazon Kindle. The Verge поспілкувався з авторами та виявив багато цікавого

Письменники-романісти використовують штучний інтелект для створення своїх творів. Видання про технології The Verge поспілкувалося з письменницею Дженніфер Лепп, яка випускає нову книгу кожні дев’ять тижнів, й дізналося про те, як працює штучний інтелект для написання романів. Наводимо адаптований переклад статті.

Хочете повідомити важливу новину? Пишіть у Telegram-бот

Головні події та корисні посилання в нашому Telegram-каналі

Коментарів поки немає.

Увійдіть, щоб залишити коментар