[
29
.
01
.
2025
]

Почему китайский чат-бот DeepSeek вышел в лидеры на мировом рынке технологий

Napoleon IT
Разработчик AI-решений для бизнеса
LLM
Искусственный интеллект
link
Китайская компания, разработавшая ИИ-чат-бот DeepSeek-R1, совершила настоящий переворот на мировом рынке технологий. За один день стоимость крупнейшего производителя видеокарт NVIDIA снизилась на $600 миллиардов, а состояние 500 богатейших людей мира уменьшилось на $108 миллиардов.

Американские пользователи и эксперты в области искусственного интеллекта остались в восторге от возможностей DeepSeek-R1. Этот чат-бот, сопоставимый по функционалу с ChatGPT, был создан с невероятной эффективностью: расходы с точки зрения потраченных вычислений на один прогон обучения в 10 раз меньше, чем было для Llama-3.1-405B. Научный сотрудник НИВЦ МГУ Михаил Тихомиров рассказал о главных причинах того, что DeepSeek вышел в лидеры GPT-инструментов.

Главная причина успеха

В 2023 году бизнесмен Лян Вэньфэн основал китайскую компанию DeepSeek. Разработка их основной нейросети заняла два года. Для ее обучения были использованы 2048 ИИ-ускорителей Nvidia H800. Их оказалось достаточно для создания быстрой, мощной и функциональной нейросети, которая уже смогла обогнать ChatGPT в App Store в 52 странах.

Одним из ключевых достижений DeepSeek стала значительная оптимизация ресурсов при обучении модели. Например, для обучения DeepSeek V3 было затрачено всего 2,8 миллиона GPU-часов, тогда как для Llama 3.1-405B — около 30 миллионов GPU-часов. Это почти в десять раз меньше, при схожем уровне качества итоговой модели.

Одной из причин такой экономичности стала архитектура модели — Mixture of Experts (MoE). В отличие от традиционного подхода, во время инференса MoE-моделей задействуется лишь часть параметров, а сама модель решает, какие параметры (какие «эксперты») будут задействованы в каждый момент времени. Это приводит к тому, что, несмотря на размер в 671 миллиардов параметров, на каждый токен «активированы» только 37 миллиардов, а значит и скорость генерации будет выше, чем у традиционной архитектуры такого же размера. Такой подход позволяет существенно сократить затраты на вычисления, не жертвуя качеством.

Кроме того, китайские разработчики использовали формат чисел с плавающей запятой FP8, который позволяет снизить требования к памяти и ускорить операции. Они одни из первых применили подобный подход для обучения моделей подобного масштаба.

Почему DeepSeek стал мировым трендом?

Доступность

DeepSeek выложили свои модели в OpenSource, так что любой, кто имеет достаточное количество GPU, может поднять у себя модель уровня GPT4o/o1 (Deepseek V3/Deepseek R1).

«Хайп»

Он наступил после выпуска модели DeepSeek R1 — это специальным образом дообученная на глубоких рассуждениях модель DeepSeek V3. До этого не было сопоставимых по мощности с o1 моделей с глубокими рассуждениями в открытом доступе, кроме того, само направление является новым для многих пользователей.

Низкая цена API

Стоимость API DeepSeek на порядок ниже, чем у ChatGPT.

Экономия

Относительно низкая стоимость (с точки зрения затраченных GPU часов) по сравнению с другими известными моделями подобного уровня.

Влияние на мировой рынок

Выход DeepSeek на мировой уровень создал серьезную конкуренцию западным разработчикам. Китайская модель показывает, что эффективность может быть ключевым фактором, который определяет успех в области генеративного ИИ.

Эта технология открывает путь для создания более доступных инструментов, которые могут быть внедрены в бизнес-среду с минимальными затратами. Например, сокращение затрат на обучение делает возможным разработку локальных решений даже для малого и среднего бизнеса.

Успех DeepSeek подчеркивает тенденцию к удешевлению и ускорению разработки языковых моделей. С каждой новой итерацией технологий использование искусственного интеллекта становится более доступным.

Это значит, что в ближайшие годы мы увидим еще больше LLM-приложений в повседневной жизни: от бизнес-процессов до персональных помощников. Успех DeepSeek задает стандарт, к которому будут стремиться все разработчики: сочетание высокой эффективности, низкой стоимости и высокого качества.

К тому же в последние годы наблюдается отчетливая тенденция к снижению зависимости от крупных облачных провайдеров, которые традиционно предлагали мощные, но дорогостоящие вычислительные ресурсы для работы с искусственным интеллектом. Вместо этого разработчики все чаще ориентируются на более компактные и доступные решения, способные работать без постоянного подключения к облаку. С развитием технологий стало возможным запускать большие языковые модели (LLM) прямо на пользовательских устройствах: смартфонах, ноутбуках и персональных компьютерах, встраиваемых системах для роботов.

Будущее в развитии LLM

DeepSeek — это не просто еще одна языковая модель, а настоящий символ технологического прорыва. Китайские инженеры продемонстрировали, что инновации и правильный подход к оптимизации ресурсов могут позволить обойти даже самых мощных конкурентов.

Путь, который показал DeepSeek, меняет правила игры на рынке ИИ, делая технологии доступнее, а будущее генеративных моделей — еще более перспективным.

{{llm-razrabotka}}

Опыт Napoleon IT в LLM

Компания Napoleon IT в своей работе ориентируется на передовые технологии и активно внедряет большие языковые модели (LLM) в разработку веб- и мобильных приложений, а также решений для ритейла. Использование LLM позволяет эффективно обрабатывать большие массивы текстовых данных, анализировать тональность отзывов, автоматизировать документооборот и поддерживать мультиязычность интерфейсов. Активная R&D-деятельность и постоянное развитие компетенций в области Data Science и NLP помогают Napoleon IT быстро создавать MVP-решений и адаптировать инновации к потребностям клиентов, сохраняя при этом гибкий подход и фокус на реальных бизнес-задачах.

[
предыдущая
]
ИИ-агент по контролю качества речи специалистов: основные преимущества и опыт использования
[
следующая
]
Приглашаем на обсуждение темы: «Как научить LLM мыслить абстрактно»
Мы используем cookies. Продолжая просматривать сайт, вы соглашаетесь с этим. Узнать больше
OK
обсудить проект
обсудить проект