DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司 ,于 2023 年 7 月 17 日正式成立,是一家专注于开发先进大语言模型(LLM)及相关技术的创新型科技公司,由知名量化资管巨头幻方量化创立。
自成立以来,DeepSeek 发展迅猛,在大模型领域成果斐然。2024 年 1 月 5 日,DeepSeek 发布首个包含 670 亿参数的大模型 DeepSeek LLM,该模型从零开始在一个包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。此后,DeepSeek 持续发力,不断推出新模型。2024 年 5 月,第二代 MoE 大模型 DeepSeek-V2 开源,该模型性能比肩 GPT-4Turbo,价格却只有 GPT-4 的百分之一 ,因此被称为 “AI 届拼多多”。2024 年 12 月 26 日,模型 DeepSeek-V3 首个版本上线 年,DeepSeek 的发展势头更加迅猛,1 月 20 日,DeepSeek-R1 模型正式发布,该模型在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,引发了全球人工智能领域的广泛关注 。
在发展过程中,DeepSeek 也获得了诸多荣誉和成果。其应用程序迅速在全球范围内获得大量用户,2 月 1 日,DeepSeek 日活跃用户数突破 3000 万大关,成为史上最快达成这一里程碑的应用。截至 2 月 2 日,DeepSeek 攀升至 140 个国家的苹果 App Store 下载排行榜首位,并在美国的 Android Play Store 中同样占据榜首位置 。这些成绩充分展示了 DeepSeek 在大模型领域的强大实力和影响力。
DeepSeek 的发展历程堪称一部充满传奇色彩的创业史,从成立之初的默默无闻到如今的声名远扬,它凭借着对技术的执着追求和不断创新,在竞争激烈的 AI 领域中闯出了一片属于自己的天地。
2023 年 4 月,幻方量化发布公告,宣布全力投身人工智能技术领域,并成立新的独立研究公司深度求索,这便是 DeepSeek 的前身。同年 7 月 17 日,DeepSeek 在杭州市拱墅区市场监督管理局登记成立,正式开启了它的 AI 征程。创业初期,DeepSeek 面临着诸多挑战,资金相对匮乏,办公场地也较为简陋,但团队成员们凭借着对 AI 技术的热爱和坚定信念,在有限的资源下,专注于算法优化和技术创新。他们日夜钻研,试图在被头部企业垄断的 AI 市场中寻找突破口。
2023 年 11 月 2 日,DeepSeek 发布首个开源代码大模型 DeepSeek Coder,该模型支持多种编程语言的代码生成、调试和数据分析任务,展现了 DeepSeek 在代码领域的技术实力,为后续的发展奠定了基础。仅仅 27 天后,DeepSeek 又推出了参数规模达 670 亿的通用大模型 DeepSeek LLM,包括 7B 和 67B 的 base 及 chat 版本,这一模型从零开始在一个包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文,标志着 DeepSeek 在大模型领域迈出了重要一步。
进入 2024 年,DeepSeek 的发展步伐进一步加快。5 月 7 日,第二代开源混合专家(MoE)模型 DeepSeek-V2 发布,总参数达 2360 亿,推理成本降至每百万 token 仅 1 元人民币。该模型在性能上比肩 GPT-4Turbo,价格却只有 GPT-4 的百分之一,这一巨大的性价比优势让 DeepSeek 收获了 “AI 届拼多多” 的名号,也使其在 AI 市场中迅速崭露头角,吸引了大量用户和开发者的关注。9 月 5 日,DeepSeek 官方更新 API 支持文档,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 两个模型,升级推出全新的 DeepSeek V2.5 新模型,在写作任务、指令跟随等多方面进行了优化,进一步提升了模型的性能和实用性。
2024 年 12 月 26 日,DeepSeek 发布了总参数达 6710 亿的 DeepSeek-V3,采用创新的 MoE 架构和 FP8 混合精度训练,训练成本仅为 557.6 万美元。这一模型的发布再次证明了 DeepSeek 在技术创新方面的实力,其创新的技术架构和训练方法,为大模型的发展提供了新的思路和方向。
此后,DeepSeek 的发展势头愈发强劲。1 月 31 日,DeepSeek R1 671b 已作为英伟达 NIM 微服务预览版在发布,DeepSeek R1 NIM 微服务在单个英伟达 HGX H200 系统上每秒最多可处理 3872 个 token,开发人员可以对 API 进行测试和实验,预计该 API 不久作为英伟达 AI Enterprise 软件平台的一部分,以可下载的 NIM 微服务形式推出。2 月,DeepSeek-R1、V3、Coder 等系列模型,已陆续上线国家超算互联网平台,为用户提供更强大的计算支持。2 月 1 日,DeepSeek 日活跃用户数突破 3000 万大关,成为史上最快达成这一里程碑的应用。截至 2 月 2 日,DeepSeek 攀升至 140 个国家的苹果 App Store 下载排行榜首位,并在美国的 Android Play Store 中同样占据榜首位置,其影响力迅速蔓延至全球。2 月 4 日,DeepSeek V3 和 R1 模型完成海光 DCU 国产化适配,并正式上线,用户在 “光合开发者社区” 中的 “光源” 板块访问并下载相关模型,或登录光源官网搜索 “DeepSeek”,即可基于 DCU 平台部署和使用相关模型,进一步推动了国产化进程。2 月 6 日,吉利汽车宣布,其自主研发的星睿大模型已成功与 DeepSeek-R1 完成技术融合,通过 DeepSeek 的认知大模型与车载 AI 系统的深度整合,旨在解决智能汽车长期存在的两大难题:模糊意图理解与主动服务能力,为用户带来更加智能、便捷的出行体验。2 月 7 日,岚图汽车公布已完成与 DeepSeek 模型的深度融合,岚图知音成为汽车行业首个融合 DeepSeek 的量产车型,此前,岚图逍遥座舱已完成 DeepSeek 全系列模型接入和部署,展示了 DeepSeek 在汽车领域的应用潜力。
回顾 DeepSeek 的发展历程,从最初的艰难起步到如今的辉煌成就,每一步都凝聚着团队的智慧和汗水。它凭借着持续的技术创新、卓越的模型性能PG电子官方网站和高性价比的优势,在 AI 领域中迅速崛起,成为了全球 AI 领域的一颗耀眼明星。
DeepSeek 能取得如此优异的成绩,离不开其独特的技术架构和创新的训练方法。以 DeepSeek-V3 为例,它采用了创新的 MoE 架构,这种架构犹如一个精心组织的专家团队,每个专家都在特定领域拥有专长。在处理任务时,MoE 架构通过动态路由机制,能够智能地将输入数据分配给最相关的专家处理,从而实现计算资源的高效利用 。
除了 MoE 架构,DeepSeek 还引入了多头潜在注意力机制(MLA)。在传统的注意力机制中,键值缓存(KV cache)的需求较大,这在一定程度上限制了模型的推理效率。而 MLA 机制则通过引入潜在向量,将注意力机制中的键和值压缩为低秩潜在向量,从而显著减少了 KV 缓存的需求,在保持模型性能的同时降低了内存占用,大大提升了推理效率。
在训练效率和成本控制方面,DeepSeek 同样取得了令人瞩目的突破。传统的 AI 模型训练过程往往需要经历大量的预训练和后训练阶段,不仅涉及巨额的计算资源投入,还需要耗费大量的人力成本。特别是后训练阶段,通常要求模型通过人类反馈来不断迭代和优化,这一过程被称为人类反馈强化学习(RLHF),模拟人类的评估方式无疑增加了时间和成本的双重负担。
DeepSeek 则另辟蹊径,采用了完全自动化的强化学习替代人类反馈,并通过一种名为 “组相对策略优化”(GRPO)的新算法进行模型训练。此方法通过模拟计算机生成的反馈分数,来减少对人类干预的依赖,从而明显提升了训练效率并降低了成本。在这一方法的推动下,DeepSeek 的 R1 模型在各项基准测试中表现出色,尤其是在数学和编程方面的应用,而其训练成本仅为美国不少顶级 AI 模型的一小部分 。
此外,DeepSeek 在训练过程中还通过创新的数据集创建方法来节省资源。它利用名为 CommonCrawl 的免费数据集,从互联网中自动抓取并提取所需文本,相较传统的手工制作数据集,这种方式更加高效且涵盖的信息更广泛。这一策略不仅缩减了数据准备时间,更重要的是,它提升了数据集的多样性和普适性 。在硬件方面,DeepSeek 也展现了其独特的工程设计能力。与其他公司依赖最新款的昂贵 AI 芯片不同,DeepSeek 通过精细的代码优化和对旧款芯片的高效利用,实现了硬件性能最大化的目标,工程师们利用汇编语言直接与硬件对接,不仅提高了性能,还降低了对高端硬件的实际需求。这一技术创新使得 DeepSeek 的 AI 模型在计算性能上达到与大模型相当的效果,而所需的能耗则大幅减少,预计仅为 Meta 的 Llama3.1 模型的十分之一。
在 DeepSeek 崭露头角之前,全球 AI 领域的竞争格局主要由美国的科技巨头主导,如 OpenAI、谷歌、Meta 等。这些企业凭借着雄厚的资金实力、丰富的技术积累和大量的人才资源,在大模型研发、应用拓展等方面占据着领先地位。OpenAI 的 GPT 系列模型凭借其强大的语言理解和生成能力,成为了全球 AI 领域的标杆,吸引了大量的用户和开发者。谷歌的 BERT、Transformer 等技术也在自然语言处理、计算机视觉等领域取得了广泛的应用。
DeepSeek 的出现,打破了这种原有的竞争格局。它以创新的技术和高性价比的优势,迅速在全球 AI 市场中占据了一席之地,成为了全球 AI 领域的重要参与者。其发布的一系列大模型,如 DeepSeek LLM、DeepSeek-V2、DeepSeek-V3 和 DeepSeek-R1 等,在性能上比肩甚至超越了部分国际顶尖模型,而训练成本却大幅降低。DeepSeek-R1 模型在数学、代码、自然语言推理等任务上的性能与 OpenAI o1 正式版持平,而训练成本仅为 560 万美元,远低于 OpenAI 在人工智能技术上数亿甚至数十亿美元的投入 。
这种技术突破和成本优势,使得 DeepSeek 在全球范围内吸引了大量的用户和开发者。其应用程序在全球 140 个国家的苹果 App Store 下载排行榜中登顶,日活跃用户数突破 3000 万大关,成为史上最快达成这一里程碑的应用。众多企业和机构纷纷接入 DeepSeek 模型,将其应用于智能驾驶、软件开发、数字营销等多个领域。东风、吉利、智己、长安、零跑等车企已官宣接入 DeepSeek,将其融合到智能座舱中,提升人机交互体验;阿里云、百度智能云、华为云、腾讯云等云平台也均已接入 DeepSeek 模型,为用户提供更强大的计算支持 。
DeepSeek 的成功,促使各国和企业重新审视自身在 AI 领域的发展策略。一方面,它激发了其他国家和企业加大在 AI 领域的投入和研发力度,推动全球 AI 技术的快速发展。许多国家纷纷出台政策,鼓励本国企业和科研机构在 AI 领域进行创新,以提升国家的 AI 竞争力。一些企业也开始加大对 AI 研发的投入,组建专业的团队,探索新的技术和应用场景。另一方面,DeepSeek 的开源策略也促进了全球 AI 社区的协作和创新,推动了 AI 技术的普及和应用。其开源的模型和技术,为全球的开发者提供了一个良好的平台,使得他们可以基于 DeepSeek 的技术进行二次开发和创新,进一步推动了 AI 技术的发展和应用。
DeepSeek 的发展,也为云计算和服务器行业带来了新的机遇。随着 DeepSeek 模型的广泛应用,对云计算和服务器的算力需求也在不断增加。为了满足这一需求,云计算厂商纷纷接入 DeepSeek 模型,提升自身的算力服务能力。阿里云、百度智能云、华为云、腾讯云等云平台均已接入 DeepSeek 模型,为用户提供更强大的计算支持。阿里云百炼平台上线多款 DeepSeek 模型,用户可便捷使用并享受免费 tokens;腾讯云上线 DeepSeek-R1 及 V3 原版模型 API 接口,旗下知识引擎接入模型并支持联网搜索;百度智能云四款大模型应用产品接入 DeepSeek,满足企业多元业务需求 。
除了云平台,服务器厂商也迎来了发展机遇。DeepSeek 的高性能模型对服务器算力提出了更高要求,推动了服务器硬件的升级和迭代。为了满足 DeepSeek 模型的运行需求,服务器厂商不断推出高性能、高算力的服务器产品。浪潮信息作为 AI 服务器领域的龙头企业,不断加大研发投入,推出了一系列高性能的 AI 服务器产品,以满足市场对算力的需求。世纪互联、数据港等数据中心企业也在不断扩大机柜数量,提升数据中心的算力承载能力 。
DeepSeek 的出现,还打破了原有的云计算市场格局,为中腰部云计算企业提供了弯道超车的机会。以往,大型云计算厂商凭借强大的算力和技术优势占据主导地位,而现在,中腰部云计算企业通过与 DeepSeek 合作,快速提升自身的服务能力,吸引了更多客户。青云科技、优刻得等小型云计算厂商通过接入 DeepSeek 模型,提升了自身的竞争力,今年以来涨幅分别高达 178.1% 和 183.1% 。
DeepSeek 的强大技术实力,加速了各行业 AI 应用的落地。在智能驾驶领域,DeepSeek 的深度学习模型可高效处理摄像头、激光雷达、毫米波雷达等多模态传感器数据,实现高精度的目标检测、语义分割和场景理解,提升自动驾驶系统的感知、决策、规划和控制能力。东风猛士 917 汽车智能座舱已完成 DeepSePG电子官方网站ek-R1 模型的接入,计划于 2025 年 4 月上海车展前,率先在猛士 917、蛟龙战甲等车型上通过 OTA 推送更新;吉利汽车宣布,其自主研发的星睿大模型已成功与 DeepSeek-R1 完成技术融合,通过 DeepSeek 的认知大模型与车载 AI 系统的深度整合,旨在解决智能汽车长期存在的两大难题:模糊意图理解与主动服务能力,为用户带来更加智能、便捷的出行体验 。
在软件开发领域,DeepSeek 可以作为智能编程助手,实时提供代码补全、文档生成以及开发建议,帮助开发人员更高效地工作。它还能够根据需求自动生成高效代码,支持多种编程语言,包括 Python、Java、C++ 等,提高开发效率。在某大型软件开发项目中,DeepSeek-V2.5 帮助开发团队减少了 30% 的调试时间,显著提高了开发效率 。
在数字营销领域,DeepSeek 可以通过分析用户的行为数据和偏好,实现精准营销。它能够理解用户的自然语言表达,提供个性化的推荐和服务,提升用户体验。某电商平台利用 DeepSeek 开发了智能客服系统,能够自动处理常见的客户咨询,并通过对话形式提供详细的解答和建议,使得客户满意度提升了 20%,且客服团队的工作负担也得到了有效减轻 。
此外,DeepSeek 在医疗、教育、金融等领域也有着广泛的应用前景。在医疗领域,它可以辅助医生进行疾病诊断、药物研发等;在教育领域,它可以作为智能助教,提供个性化的学习辅导;在金融领域,它可以用于风险评估、投资决策等。上海市浦东新区公利医院成功部署 DeepSeek 模型,实现国产软硬件与 AI 应用完美配合,辅助疾病诊断、治疗方案研判、药物信息检索等,有效提高诊断效率和准确率,降低误诊漏诊风险 ;多所高校将 DeepSeek 融入教学课程平台,如中国人民大学的 e 问 e 答服务平台接入 DeepSeek-R1,不仅能解答校内服务问题,还支持多领域应用,极大提升师生工作学习效率;DeepSeek 能处理海量金融数据,挖掘市场趋势和投资机会,助力金融机构做出更明智投资决策,在信贷审批中,快速分析申请人信用数据和财务状况,评估信用风险,提高审批效率和准确性 。
在全球化的大背景下,技术差距犹如一道鸿沟,横亘在发达国家与发展中国家之间,而 DeepSeek 的出现,为缩小这一 “智能鸿沟” 带来了希望的曙光 。与其他全球顶级人工智能公司不同,DeepSeek 采取了开源方式,这意味着它开发的算法可以免费供任何人访问和使用,这为许多资源有限的发展中国家提供了 “破局” 的可能 。印度近日宣布,计划在国内服务器上托管 DeepSeek 的大语言模型,期望借此加快其本国的人工智能模型的开发;俄罗斯联邦储蓄银行更是早在去年 11 月,就推出了一款借鉴 DeepSeek 公开代码信息的多模态神经网络模型 。
北京大学国际法学院的教授米纳斯指出,贫穷国家可以利用 DeepSeek 的成功带来的机遇,包括 “能够让其他人更容易学习和迭代” 的开源性质。“DeepSeek 的发展…… 表明,全球南方国家开发和部署人工智能的机会会比过去所以为的要大得多,而且受到的限制也更少。” 美国加州大学洛杉矶分校安德森管理学院教授邓兆生也在一篇评论文中表示,DeepSeek 高性价比的模式 “让更多国家和公司有可能参与人工智能进步并从中受益”。他认为,“DeepSeek 的成功表明,资源有限的发展中国家可以借鉴其方法,开发自己的创新人工智能模型。这有助于缩小发达国家与发展中国家在技术能力方面的差距” 。
DeepSeek 的全面开源,被誉为 “送给发展中国家的一份礼物”,极大地提升了中国的软实力,尤其在全球南方国家中的影响不容小觑。有分析人士认为,与美国的 “烧钱” 战术相比,如果 DeepSeek 是一个更具性价比的替代方案,那么 “全球南方国家的人工智能发展和采用就有可能出现一种中国式转变” 。
中国人民大学国际关系学院的教授刁大明认为,DeepSeek 在全球的受欢迎程度是 “中国软实力不断增强的表现”,这家公司的快速崛起提升了中国在世界
尽管 DeepSeek 在技术上取得了显著的突破,但它仍然面临着一些技术挑战。奖励滥用问题是 DeepSeek 需要解决的一个重要问题。为了确保模型学习到正确的策略,DeepSeek 使用了规则奖励而非神经奖励模型,从而避免了奖励滥用和模型偏差 。在某些情况下,模型可能会为了追求奖励而生成一些看似合理但实际上与真实情况不符的回答。
DeepSeek 在生成内容的可读性方面也有待提高。虽然通过在训练数据中使用结构化格式(如和标签),DeepSeek 提高了生成内容的可读性和逻辑性,但在一些复杂的任务中,生成的内容仍然可能存在逻辑不清晰、语言表达不流畅等问题。在处理长篇幅的文本生成任务时,模型可能会出现前后内容不一致、主题偏离等情况 。
训练效率也是 DeepSeek 需要关注的问题。尽管采用了 Group Relative Policy Optimization(GRPO)算法,省去了传统训练中的复杂价值模型(Critic),从而提高了训练效率,但随着模型规模的不断扩大和任务复杂度的增加,如何进一步提高训练效率,降低训练成本,仍然是 DeepSeek 需要解决的挑战之一 。
针对这些问题,DeepSeek 也在不断探索解决方案。在奖励机制方面,DeepSeek 可以进一步优化奖励函数,使其更加符合人类的价值观和真实情况。可以引入更多的人工标注数据,对模型的输出进行评估和反馈,从而引导模型生成更加准确、合理的回答。在可读性方面,DeepSeek 可以加强对训练数据的预处理和清洗,提高数据的质量和一致性。可以使用更多的语言生成技术,如文本摘要、语义理解等,来提高生成内容的可读性和逻辑性 。在训练效率方面,DeepSeek 可以进一步优化算法,采用更加高效的计算资源管理策略,如分布式计算、并行计算等,来提高训练效率,降低训练成本 。
在数据安全和隐私保护方面,DeepSeek 采取了一系列措施,如加密技术的应用、数据匿名化和严格的访问控制等。在数据传输过程中,DeepSeek 采用了先进的加密算法,如端到端加密,确保数据在源头被加密后传输,只有特定的接收端,凭借正确的密钥才能解密查看数据 。在数据存储和处理过程中,DeepSeek 采用了同态加密技术,允许在密文上进行特定类型的计算,而不需要先解密数据,从而保护了用户隐私 。DeepSeek 还采用了数据匿名化和差分隐私技术,去除能够直接识别用户身份的信息,并通过向数据中添加少量的噪声来保护个体数据的隐私 。
尽管采取了这些措施,DeepSeek 在数据安全和隐私保护方面仍然面临一些潜在风险。算法漏洞可能会导致数据泄露。随着计算机技术的不断发展,尤其是量子计算技术的进步,一些传统的加密算法可能会变得不再安全。如果 DeepSeek 所依赖的加密算法被破解,那么用户的隐私数据就会面临暴露的风险 。数据共享与第三方合作也可能带来隐私风险。如果 DeepSeek 与第三方进行数据共享或者合作,第三方可能存在安全漏洞或者不良意图,导致用户数据泄露 。不同国家和地区对于隐私保护有着不同的法律法规,DeepSeek 可能面临监管与合规方面的风险。如果它不能很好地适应各个地区的隐私法规,就可能会面临法律诉讼 。
为了应对这些风险,DeepSeek 需要不断加强数据安全和隐私保护措施。要持续关注加密技术的发展,及时更新和优化加密算法,以应对可能出现的安全威胁。在与第三方合作时,要签订严格的保密协议,加强对第三方的安全审查和监督,确保用户数据的安全 。DeepSeek 还需要加强对不同国家和地区隐私法规的研究和理解,建立健全的合规管理体系,确保自身的业务活动符合相关法律法规的要求 。
DeepSeek 的出现,无疑为全球 AI 领域带来了新的活力和机遇。它的技术突破和广泛应用,不仅重塑了 AI 竞争格局,推动了行业的发展,也为社会和个人带来了诸多便利和变革。我们也应清醒地认识到,DeepSeek 在技术和数据安全等方面仍面临挑战。未来,随着技术的不断进步和完善,相信 DeepSeek 能够在解决这些问题的同时,继续引领 AI 技术的发展潮流,为人类创造更多的价值。
DeepSeek 的故事,是一部充满创新与突破的传奇。它从成立之初的默默耕耘,到如今在全球 AI 领域的大放异彩,每一步都凝聚着团队的智慧与汗水。它的技术突破,不仅为自身赢得了市场的认可,也为全球 AI 技术的发展开辟了新的道路。
展望未来,AI 技术的发展前景依然广阔。随着技术的不断进步,我们有理由相信,AI 将在更多领域发挥重要作用,为人类社会带来更多的变革和惊喜。在医疗领域,AI 有望辅助医生进行更精准的诊断和治疗,提高医疗效率和质量;在教育领域,AI 可以为学生提供个性化的学习方案,满足不同学生的学习需求;在交通领域,AI 将推动自动驾驶技术的发展,使出行更加安全、便捷。
在 AI 技术飞速发展的今天,我们每个人都不应置身事外。作为普通用户,我们可以积极拥抱 AI 技术,利用它来提升我们的生活质量和工作效率。可以使用 AI 写作工具来辅助创作,使用 AI 翻译工具来打破语言障碍,使用 AI 智能助手来管理我们的日常生活。作为开发者,我们可以参与到 AI 技术的创新和应用中,为 AI 的发展贡献自己的力量。可以基于开源的 AI 模型进行二次开发,探索新的应用场景,开发出更具创新性的 AI 产品。
DeepSeek 的成功,是 AI 领域的一个重要里程碑,它为我们展示了 AI 技术的无限潜力。让我们共同期待,在 AI 技术的推动下,未来的世界将变得更加美好。