DeepSeek представив нову ШІ-модель V3.1-Exp, яку назвав «проміжним кроком до архітектури наступного покоління»
Китайський стартап DeepSeek представив V3.1-Exp, де використовував нову техніку DeepSeek Sparse Attention або DSA.
Китайський стартап DeepSeek представив V3.1-Exp, де використовував нову техніку DeepSeek Sparse Attention або DSA.
Китайський стартап DeepSeek представив V3.1-Exp, де використовував нову техніку DeepSeek Sparse Attention або DSA.
Остання версія, створена на базі старішої V3.1, містить механізм, розроблений для дослідження й оптимізації навчання та роботи ШІ. Стартап заявив, що мета моделі — продемонструвати їхні дослідження в напрямку підвищення ефективності при обробці довгих текстових послідовностей, пише Bloomberg.
У дописі на Hugging Face стартап зазначив, що ця версія є «проміжним етапом на шляху до архітектури наступного покоління». Також натякнув, що працює над моделлю у співпраці з китайськими виробниками чипів.
Крім того, DeepSeek оголосив, що зменшує вартість своїх програмних інструментів удвічі. Так, він приєднався до інших китайських стартапів, які знижують ціни, щоб привернути більше користувачів.
Компанія заявила, що її нові моделі підтримують архітектуру FP8 і що вона працює над додаванням підтримки BF16. Теоретично, використання FP8 дозволяє заощаджувати пам’ять і пришвидшувати обчислення.
Моделі штучного інтелекту оперують мільйонами чисел. Використання менших форматів, як-от FP8 і BF16, допомагає збалансувати швидкість та точність, а також дає змогу запускати великі моделі на менш потужному обладнанні.
Хоча FP8 не є дуже точним, він вважається корисним для багатьох завдань ШІ. Формат BF16 (Brain Floating Point 16) вважається точнішим для навчання ШІ-моделей.


