UNIT.City — місце, де люди працюють... КРАЩЕ! Обирай свій простір просто зараз 👉

DeepSeek introduced a new AI model, V3.1-Exp, which it called "an intermediate step towards the next generation architecture"

Chinese startup DeepSeek introduced V3.1-Exp, which used the new DeepSeek Sparse Attention or DSA technique.

Leave a comment
DeepSeek introduced a new AI model, V3.1-Exp, which it called "an intermediate step towards the next generation architecture"

Chinese startup DeepSeek introduced V3.1-Exp, which used the new DeepSeek Sparse Attention or DSA technique.

The latest version, built on the older V3.1, includes a mechanism designed to study and optimize AI training and operation. The startup said the purpose of the model is to demonstrate their research into improving efficiency when processing long text sequences, Bloomberg reports .

In a post on Hugging Face, the startup noted that this version is “an intermediate step on the path to the next generation architecture.” It also hinted that it is working on the model in collaboration with Chinese chip manufacturers.

DeepSeek also announced that it is halving the cost of its software tools, joining other Chinese startups that are cutting prices to attract more users.

The company said that its new models support the FP8 architecture and that it is working on adding support for BF16. Theoretically, using FP8 saves memory and speeds up calculations.

AI models operate on millions of numbers. Using smaller formats like FP8 and BF16 helps balance speed and accuracy, and also allows large models to run on less powerful hardware.

Although FP8 is not very accurate, it is considered useful for many AI tasks. The BF16 (Brain Floating Point 16) format is considered more accurate for training AI models.

DeepSeek now labels all AI-generated content and these labels cannot be removed
DeepSeek now labels all AI-generated content, and these labels cannot be removed
On the topic
DeepSeek now labels all AI-generated content, and these labels cannot be removed
DeepSeek has released an updated V3 model with support for Chinese chips
DeepSeek has released an updated V3 model with support for Chinese chips
On the topic
DeepSeek has released an updated V3 model with support for Chinese chips
Read the country's main IT news in our Telegram
Read the country's main IT news in our Telegram
On the topic
Read the country's main IT news in our Telegram
Also Read
Roosh запускає нову освітню платформу AI HOUSE CLUB для ML/AI-спеціалістів та дата сайнтистів. Розповідаємо, як подати заявку та чому навчатимуть
Roosh запускає нову освітню платформу AI HOUSE CLUB для ML/AI-спеціалістів та дата сайнтистів. Розповідаємо, як подати заявку та чому навчатимуть
Roosh запускає нову освітню платформу AI HOUSE CLUB для ML/AI-спеціалістів та дата сайнтистів. Розповідаємо, як подати заявку та чому навчатимуть
Як нейромережі бачать вільну та незалежну Україну? Тест dev.ua
Як нейромережі бачать вільну та незалежну Україну? Тест dev.ua
Як нейромережі бачать вільну та незалежну Україну? Тест dev.ua
Нейронні мережі для генерації зображень бачать світ по-своєму, їхню логіку зрозуміти часом зовсім неможливо. Але таки хочеться. На честь Дня Незалежності України редакція dev.ua вирішила провести невеликий експеримент. Ми задали чотирьом різним нейронним мережам п’ять однакових запитів: «прапор України», «День Незалежності України», «український Крим», «перемога України» та «українці». Отриманими результатами ми ділимося з вами нижче.
У TikTok тепер можна генерувати фон за допомогою нейромережі. Ми протестували її та ділимося результатами
У TikTok тепер можна генерувати фон за допомогою нейромережі. Ми протестували її та ділимося результатами
У TikTok тепер можна генерувати фон за допомогою нейромережі. Ми протестували її та ділимося результатами
У TikTok з’явилася нова функція «Розумний фон». З її допомогою як фон для тіктоків можна підставляти згенеровані нейромережею зображення. Редакція dev.ua протестувала цю технологію і ділиться своїми враженнями.
1 comment
Які IT-спеціальності будуть потрібні в найближчі п'ять років? Ми з'ясували у голови американського стартапу ADAM Дениса Гурака
Які IT-спеціальності будуть потрібні в найближчі п'ять років? Ми з'ясували у голови американського стартапу ADAM Дениса Гурака
Які IT-спеціальності будуть потрібні в найближчі п'ять років? Ми з'ясували у голови американського стартапу ADAM Дениса Гурака

Have important news to share? Message our Telegram bot

Key events and useful links in our Telegram channel

Discussion
No comments yet.