DeepSeek洞察与大模型应用-人工智能技术发展与应用实践

语言	格式	评分
中文（简体）	.pdf	3
概览
DeepSeek洞察与大模型应用人工智能技术发展与应用实践联通数据智能有限公司史树明 2025年 -1- 目录 Contents 02 03 01 04 05 -2- • DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业，成立于2023 年5月份。 • 幻方量化营收：作为中国头部量化对冲基金，曾管理资金规模超160亿美元（2019年），年管理费收入超过3亿美元。 DeepSeek公司概况 -3- DeepSeek-V3（对标GPT-4o）于2024年12月 26日推出，因其显著的性能，用户迅速开始增长 �� • Deepseek-V3仍是基于Transformer架构的模型，是一个强大的混合专家（MoE）模型，总共有 671B 个参数，生成每个token时激活 37B 参数 • 训练成本比 Llama 405B 低一个量级 • DeepSeek-V3所采用的技术： • MLA多头潜在注意力机制（降低显存占用） • MTP多token预测（提升效果、提升推理速度） • FP8混合精度训练、DualPipe流水线、MoE负载均衡（提升训练效率，降低训练成本） DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 DeepSeek-V3 -4- • R1推出后，追平GPT-o1，迅速出圈海外。从 DeepSeek在美国下载排名从1月22日的201名，迅速在1月27日登顶第一名；截止1月30日，DeepSeek在 168个国家位居下载榜第一名 • DeepSeek-R1-Zero：一种通过大规模强化学习（RL ）训练的模型，没有监督微调（SFT）作为初步步骤，展示了卓越的推理能力。通过强化学习，R1-Zero自然而然地出现了许多强大而有趣的推理行为；但是，遇到了可读性差和语言混合等挑战 • DeepSeek-R1：为了解决这些问题并进一步提高推理性能，DeepSeek团队引入了 R1，它在RL之前结合了多阶段训练和少量冷启动数据。R1在推理任务上实现了与OpenAI-o1-1217相当的性能 DeepSeek-R1（对标GPT-o1）于2025年1月 20日推出，随后DeepSeek进一步出圈 DeepSeek-R1 -5- DeepSeek模型效果 (1/2)：世界最顶尖模型的对比大模型竞技场 (Chatbot Arena LLM Leaderboard, https://lmarena.ai/?leaderboard) 更新日期：2025-2-11 n DeepSeek-V3和R1进入到国际顶尖模型行列 n DeepSeek-R1是综合效果最好的开源模型，排在众多优秀的开源和闭源模型前面 n Qwen2.5-Max、GLM-4-Plus、Step-2- 16K-Exp等国产模型也有不俗的表现 -6- DeepSeek模型效果 (2/2) n DeepSeek-V3和R1相对于700亿以下开源模型（以千问720亿为代表），，扩充了其能力边界 n DeepSeek-R1引入能力，在代码、数学、复杂规划等方面的能力显著增强，使得对于新场景的支持成为可能 -7- DeepSeek不同版本对比 n V3 vs. R1：R1在普通的中文和英文任务上性能小幅领先，在数学和代码等需要深度推理的场景下明显胜出 n R1蒸馏版 vs. R1满血版：在数学、代码等场景下的性能有明显差距，蒸馏版参数量越小，与满血版差距越大 n R1蒸馏版 vs. V3满血版：140亿以上参数的R1蒸馏版的深度推理效果显著强于V3满血版；低参数量R1蒸馏版能力落后于V3 模型 AIME 2024 MATH- 500 GPQA Diamond LiveCode Bench CodeForces pass@1 pass@1 pass@1 pass@1 rating R1的15亿蒸馏版 (基于千问) 28.9 83.9 33.8 16.9 954 R1的70亿蒸馏版 (基于千问) 55.5 92.8 49.1 37.6 1189 R1的140亿蒸馏版 (基于千问) 69.7 93.9 59.1 53.1 1481 R1的320亿蒸馏版 (基于千问) 72.6 94.3 62.1 57.2 1691 R1的80亿蒸馏版 (基于Llama) 50.4 89.1 49.0 39.6 1205 R1的700亿的蒸馏版 (基于Llama) 70.0 94.5 65.2 57.5 1633 DeepSeek-R1 79.8 97.3 71.5 65.9 2029 DeepSeek-V3 39.2 90.2 59.1 36.2 1134 模型架构参数量激活参数 R1的15亿蒸馏版稠密 1.5B 1.5B R1的70亿蒸馏版稠密 7B 7B R1的140亿蒸馏版稠密 14B 14B R1的320亿蒸馏版稠密 32B 32B R1的80亿蒸馏版稠密 8B 8B R1的700亿的蒸馏版稠密 70B 70B DeepSeek-R1 MoE 671B 37B DeepSeek-V3 MoE 671B 37B 模型参数量：显存占用激活参数：推理速度 -8- DeepSeek出圈原因分析 1. DeepSeek-R1的卓越性能表现 2. DeepSeek-V3的超低训练开销 OpenAI奥特曼：“DeepSeek是一个令人印象深刻的模型，但我们相信我们会继续开拓前沿并推出出色的产品，所以很高兴能有另一个竞争对手。” Meta扎克伯格：“DeepSeek技术非常先进。这是一场差距很小的竞争。” 虽然 DeepSeek已证明研发AI所需的资金和算力比之前预想的要少，但Meta不会因此减少AI支出：“我仍然认为，从长远来看，大力投入资本支出和基础设施建设将成为一种战略优势。” 卷积神经网络之父Yann LeCun: “与其说中国AI正在追赶美国，不如说开源模型正在超越闭源”。 Anthropic CEO达里奥·阿莫迪：我认为一个公平的说法是“ DeepSeek 生产的模型接近 7-10 个月前美国模型的性能，成本要低得多（但远不及人们建议的比例） ” Scale AI创始人亚历山大·王：“DeepSeek可能改变中美在人工智能竞赛中的格局” 游戏科学创始人冯骥：”DeepSeek，可能是个国运级别的科技成果。”“如果有一个AI大模型做到以下任何一条，都是超级了不起的成就，但DeepSeek全部同时做到了：强大、便宜、开源、免费、联网、本土” 面壁智能首席科学家刘知远：“DeepSeek的意义更像Llama。DeepSeek R1相当于是像 2023年初的OpenAI ChatGPT一样，让所有人真正地感受到了震撼” V3训练开销&R1效果引发全球热议 ChatGPT Llama o1/o3 DeepSeek-R1 首次提出开源复现 ★ DeepSeek V3效果对标顶级闭源模型，训练成本比LLaMA低一个量级 30.8 2.8 0 20 40 Llama 3.1 405B DeepSeekV3 671B 下降一个量级训练耗时单元：万GPU小时 DeepSeek-V3 MMLU 得分 API价格￥/M tokens 90 82 86 ★ l Llama3.1-405B l GPT-4o l Qwen2.5-72B l Qwen2.5-72B l Claude 3.5 Sonnet l DeepSeek-2.5 l GPT-4o mini 模型性能/价格比最优区间 (对数坐标)100 10 -9- DeepSeek影响：门槛全面降低，千行百业加速融AI DS作为一款现象级应用，对全社会开展了一次人工智能科普再教育，DS C端应用人人装，人人感受人工智能，政府、企业管理者认识到人工智能战略意义，由探索尝试，升级为战略布局，市场进入爆发期 DS上线20日，日活超4000万，已达到ChatGPT 74%，成为 C端现象级应用。微信、钉钉等头部应用纷纷接入截至2月15日，全国10省省委书记将人工智能作为新春第一会重点部署，B端大模型应用进一步加速省份要求广东集中发力人工智能和机器人领域浙江加快建设创新浙江、因地制宜发展新质生产力广西不能妄自菲薄、行动迟缓江西强化企业科技创新主体地位，推动科研成果向现实生产力转化安徽在抢占科技制高点上奋勇争先江苏找准“一中心一基地一枢纽” 甘肃着力提升科技创新效能，深入实施研产融合科技攻关赋能计划重庆部署实施“人工智能+”行动山东建立科技创新和产业创新融合机制湖北到2030年，具有全国影响力的科技创新高地加快形成 -10- DeepSeek影响：格局被打乱，AI竞争进入第二阶段 C端AI应用市场格局重构，新入局者迎来机遇 B端客户全面评估DS影响，重新论证基础模型选型 DS国内登顶、全球仅次于GPT，月均活跃用户数跃居第一，全球全端DAU近1.2亿；纳米AI搜索（原360）将其核心模型换为DS 1月web端访问量登顶、APP端增速位列第2 • 某机构接国家FGW通知，全面评估DS影响，组织专题论证会，重新评估基础模型选型，由原某公司大模型为主，转为吸纳多家模型，重点引入DS • 山东省委书记于开年第一天工作会上，明确部署省数据局研究DS，研究人工智能 • 某央企董事长在开年第一天即召集全管理层会议，开展 AI 全面赋能生产运营工作部署 • 中石油、中石化、南网、星网、中广核、中铝等央国企均在拥抱对接或重新研判 DS开源策略全面冲击基础模型商业模式，将大厂在C端、B端过去一年构建的技术优势拉回同一起跑线，市场竞争从一阶段比拼模型能力，进入比拼应用、数据、工程化交付能力的第二阶段 -11- 目录 Contents 02 03 01 04 05 -12- 中美在AI领域的对比：人才与技术 n 我国高端人才的数量和密度跟美国有明显差距 n 我国AI领域重大原创性成果的数量落后于美国人工智能领域被引用最多的100篇论文（2020~2022） -13- 中美在AI领域的对比：企业 n 中美头部高科技企业的市值差距非常显著 n 我国AI独角兽的数量和估值落后于美国 n 头部高科技企业 n 美国7大科技公司市值：均在万亿美元以上，合计约18 万亿美元 n 中国7大科技公司市值：第一名5600亿美元，合计约1.4 万亿美元 n AI独角兽 -14- 中美在AI领域的对比：GPU芯片中美 l 英伟达：拥有A100、H100、B200等GPU芯片，性能和稳定性遥遥领先，又有CUDA生态加持，在AI芯片市场牢牢占据主导地位 l AMD：MI300系列 l Google: TPU l Groq：高性能AI推理芯片 l 博通：在ASIC（专用集成电路）定制芯片领域表现突出，2024年市值突破万亿美元 l 华为：昇腾系列芯片，产品性能和销量国内领先， 910B性能对标A100 l 其它国产芯片厂商：海光、寒武纪、燧原科技、沐曦、天数智芯、摩尔线程、壁仞科技、昆仑芯科技、阿里平头哥等 n 美国企业在GPU芯片领域占据绝对优势，尤其英伟达芯片性能高、生态成熟 n 国产芯片近几年进步很快，但在性能、产能、软件适配和生态方面还有显著差距 vs. -15- 中美在AI领域的对比：头部大模型 n 在模型效果上，中国大大缩小了与美国的差距，呈现与美国平分秋色的格局 n 模型开源领域：DeepSeek超越Meta，成为效果最好的开源模型，阿里巴巴千问系列模型下载量超过Meta的Llama系列模型厂商国家代表性模型及竞技场排名是否开放模型权重谷歌（Google）美国 Gemini-2.0-Flash-Thinking-Exp-01-21, #1 Gemini-2.0-Pro-Exp-02-05, #1 不开放 OpenAI 美国 ChatGPT-4o-latest (2025-01-29), #1 o1-2024-12-17, #4 不开放 DeepSeek 中国 DeepSeek-R1, #4 DeepSeek-V3, #9 Deepseek-v2.5-1210, #17 开放阿里巴巴中国 Qwen2.5-Max, #7 Qwen2.5-plus-1127, #16 Qwen2.5-72B-Instruct, #33 不开放不开放开放智谱中国 GLM-4-Plus-0111, #9 不开放阶跃星辰中国 Step-2-16K-Exp, #9 不开放 xAI 美国 Grok-2-08-13, #16 不开放零一万物中国 Yi-Lightning, #16 不开放 Anthropic 美国 Claude 3.5 Sonnet (20241022), #16 Claude 3.5 Sonnet (20240620), #23 不开放 Meta 美国 Meta-Llama-3.1-405B-Instruct-bf16, #21 Llama-3.3-70B-Instruct, #33 开放 Mistral AI 法国 Mistral-Large-2407, #37 Mistral-Small-24B-Instruct-2501, #50 开放 -16- DeepSeek对中美科技竞争产生深刻影响美参议员提出《2025年美国与中国人工智能能力脱钩法案》，有脱钩风险 • 特朗普：“DeepSeek的技术进步为美国敲响了警钟” • 美国新任白宫新闻秘书卡罗琳·莱维特：“白宫正在努力确保美国人工智能的主导地位，美国国家安全委员会正对DeepSeek开展国家安全调查” • 美国商务部长提名人霍华德·卢特尼克：指责 DeepSeek 抄袭美国科技公司并违反美国芯片出口禁令来建立其模型。“我们需要停止帮助他们。Meta 的开放平台（开源模型Llama）让 DeepSeek 依赖它。他们购买了大量英伟达的芯片，并找到了自己的方法，推动了他们的 DeepSeek 模型。这种情况必须结束。” • 美国商务部工业与安全局BIS启动对新加坡芯片转口贸易调查，核查 HS8542类目芯片是否违规流向DeepSeek，拟议对华禁售H20芯片 • 美国国会、得州、NASA、美国海军、美国国防部已禁止使用 deepseek。 • Anthropic CEO达里奥·阿莫迪：对于 DeepSeek 的崛起，美国应该加强管制美国上升到影响国家安全，拟进一步收紧对华芯片政策 2025 年 1 月 29 日，美国参议员 Josh Hawley 提出《2025年美国与中国人工智能能力脱钩法案》,旨在全面切断中美在人工智能（AI）领域的技术合作、资本流动，以遏制中国在AI领域的竞争力，保护美国技术优势 ① AI技术与知识产权流动禁令：法案禁止从中国进口或向中国出口任何与AI相关的技术或知识产权，包括芯片（GPU、CPU等）、存储设备、操作系统、云计算服务等核心硬件和软件，以及版权、专利、商业秘密等知识产权。 ② AI研发合作全面禁止：美国公民、绿卡持有者及机构不得在中国境内从事AI研发，也不得与中国的“受关注实体”（包括高校、企业、政府机构等）及其海外子公司合作。 ③ 对华AI投资彻底切断：禁止美国个人或机构投资中国AI企业的公开股票和证券，防止资金间接支持中国AI发展。 ④ 处罚措施：刑事处罚：个人最高罚款100万美元、监禁20年；企业罚款1亿美元，并取消联邦合同及许可证。民事赔偿：违规者需支付三倍损失赔偿及诉讼费用，并可能被禁止获得联邦资助5年。驱逐出境：违者可能被驱逐出境（非美国公民）或面临高额罚款 ⑤ 针对DeepSeek的特别禁令，使用或下载中国AI公司DeepSeek的产品将被视为犯罪，最高判20年监禁。中：突破技术封锁，在大模型这个关键赛道上与美国的差距无限缩小，信心增强，科技股崛起美：发现在模型的技术创新上已经被中国追赶并部分超越，危机感和压力陡然增加，预计会加大对华技术封锁（更严格的芯片禁令等） -17- 目录 Contents 02 03 01 04 05 -18- 国内主流大模型公司模型阿里巴巴千问 (Qwen) 系列字节跳动豆包大模型百度文心大模型腾讯混元大模型华为盘古大模型国内互联网公司：公司模型联通元景大模型电信星辰大模型移动九天大模型国内运营商：公司模型深度求索 DeepSeek-V3/R1等智谱 GLM系列 MiniMax MiniMax-Text-01等月之暗面 Kimi大模型阶跃星辰 Step系列百川智能 Baichuan系列零一万物 Yi系列国内大模型七小虎：公司模型 OpenAI ChatGPT系列 GPT-4o系列 o1系列 o3系列 Google Gemini系列 Gemma系列 xAI Grok系列 Anthropic Claude系列 Meta Llama系列 Mistral AI Mistral系列 Mixtral系列国外大模型： -19- 国内外主流大模型工具/应用工具名称所属公司备注 DeepSeek 深度求索 https://chat.deepseek.com/ 豆包字节跳动 https://www.doubao.com/chat/ Kimi智能助手月之暗面 https://kimi.moonshot.cn/ 文小言百度 https://wenxiaoyan.com/ 通义阿里巴巴 https://tongyi.aliyun.com/ 智谱清言智谱 https://chatglm.cn/ 讯飞星火科大讯飞 https://chatglm.cn/ 元宝腾讯 https://yuanbao.tencent.com/ ChatGPT OpenAI https://chatgpt.com/ Gemini Google https://gemini.google.com/ Claude Anthropic https://claude.ai/ 工具名称类型所属公司备注夸克 AI搜索阿里巴巴 https://www.quark.cn/ 秘塔AI搜索 AI搜索秘塔科技 https://metaso.cn/ 纳米AI搜索 AI搜索 360 https://www.n.cn/ 星野情感陪伴 MiniMax https://www.xingyeai.com/ 猫箱情感陪伴字节跳动 https://maoxiangai.com/ 可灵AI AI图片/视频生成快手 https://kling