DeepSeek大模型及其企业应用实践先显式地写出推理的中间步骤。这就像人 类解决复杂问题时会先把思考过程写下来 一样。 OpenAI定义推理模型 也就是说,如果模型在回复你之前有一长 串的思考过程(这个过程必须可以显示输 出),探索了很多不同的路径之后给出答 案,那么有这个能力的大模型就是推理大 模型。推理模型的核心在于处理那些需要 多步骤逻辑推导才能解决的复杂问题。 推理模型的核心 1.4 大模型的分类 n 推理大模型DeepSeek R1的对话效果 推理问题: ”一列火车以每小时60英里的速度行驶3小时,行驶距离是多少?” (需先理解”距离=速度×时间”的关系,再分步计算) 通用的大语言模型(LLM)可能直接输出简短答案(如”180英里”) 推理模型的特点在于显式展示中间推导过程 1.4 大模型的分类 在应用方面二者各有擅长的领域,而不是简单的谁强谁弱问题 n 如果你需要完成数据分析、逻辑推理、代码生成等逻辑性较强且较为复杂的任务,请选择推理大模型 灯红酒绿的霓虹灯,热闹非凡的唐人街正在进行舞龙 表演,熙熙攘攘的人群目光都聚焦在跃动的彩龙身上, 整个环境的喜庆氛围仿佛令人身临其境 2.1 国外的大模型产品 n OpenAI o3 2024年12月20日,OpenAI发布推理模型o3,无论在软件工程、编写代码,还是竞赛数学、掌握人类博士级别的自然科学 知识能力方面,o3都达到了很高的水平 2.2 国内的大模型产品 大模型 图标 指标排名 DeepSeek 能力测评第一10 积分 | 147 页 | 16.82 MB | 5 月前3
电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域Gemini 2.0 家族,包括 Gemini 2.0 Pro 实验版本、Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking,在数据、代码等领域上较前代版本进一步提升。价格方面,o3 mini API 定 价为每百万 tokens 输入 0.55 美元(缓存命中)/1 家族大模型,包括 Grok 3、Grok 3 mini 以及推理模型 Grok 3 reasoning、Grok 3 mini reasoning。其中 Grok 3 在数学、科学、 编程等领域的性能进一步提升,表现好于 Gemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet 及 GPT-4o 等模型;而推理模型 Grok 3 reasoning Beta 在数学、科学、编程等表现上10 积分 | 23 页 | 2.65 MB | 5 月前3
DeepSeek如何加速金融业数字化转型?SAC 编 ÷:S1440524080005 本报告的核心逻辑 如何理解 DeepSeek 的出现对于国内金融业数字化转型的价值与意义 ? 一、低成本、高性能。 DeepSeek 通用及推理模型在性能不输头部同类大模型的基础上,成本相较于头部大模型下降至数十 分之一以 下,同时开源、本地化部署特性和蒸馏技术使金融机构无需重资本投入底层模型研发,降低试错成本和二次开发难度,对创新 更加友好。 数字化价值进行深入探讨,以期对金融行业的智能化和数字化转型提供参考。 内容摘要 如何理解 DeepSeek 的出现对于国内金融业数字化转型的价值与意义 ? 一、低成本、高性能。 DeepSeek 通用及推理模型在性能不输头部同类大模型的基础上,成本相较于头部大模型下降至数十 分之一以 下,同时开源、本地化部署特性和蒸馏技术使金融机构无需重资本投入底层模型研发,降低试错成本和二次开发难度,对创新 更加友好。 / 百万 tokens ,昂贵云服务 & 大规模 GPU 集 群 ) 模型类别 模型名称 输入价格 ( 元 / 百万 tokens) 输出价格 ( 元 / 百万 tokens ) 推理模型 deepseek- r1 4 16 deepseek- r1-32B 1.5 6 gpt-o1 109.5 438 gpt-o3-mini 8.1 32.1 生成模型10 积分 | 77 页 | 16.76 MB | 5 月前3
Deepseek在药企研发领域的本地化部署和应用场景代 码 和 Agent 能力上掀起效率革命。 · ChatGPT 上 线 实 时 视 频 能 力 ,深 入 语 音 视 觉 实 时 多 模 态 应 用 场 景 。 · 国内推理模型迅速跟进。 DeepSeek-R1 、 QwQ-32B-Preview 、 Kimi-k1.5 、 GLM-Zero 、 Skywork-o1 、 Step R- mini 、 ChatGLM 等首批模型相继发布。 大模型的发展阶段 智慧芽 @LS- GTM 智 慧 芽 关 键 进 展 3 o Deepseek 出圈引爆全行业的原因 ? · 基础能力:进入推理模型阶段,跻身全球第一梯队 · 推理能力跃升: DeepSeek 大模型核心技术突破,实现复杂推理任务的精准处理与高效执行,覆盖 多模态场景应用。 · 国际竞争力对标:模型综合性能跃居全球第一梯队,技术指标与国际顶尖水平10 积分 | 33 页 | 2.29 MB | 5 月前3
2025年智启未来·险见新机-人保寿险大模型探索及实践(33页 PPT)万亿参数 典型的新技能学习曲线 摘自北京大学 AI 肖睿团队团队作品 大模型参数变化三个阶段 摘自复旦大学大数据教学团队作品 智慧涌现的关键 6 通用模型( System 1 快思考模型) 推理模型( System 2 慢思考模型) 模型代表 Qwen2.5-Max 、 DeepSeek-V3 、 GPT-4o QwQ-Max-Preview 、 DeepSeek-R1 、 OpenAI-o310 积分 | 33 页 | 2.82 MB | 1 天前3
2025面向工程审计行业的DeepSeek大模型应用指南-南京审计大学工程审计学院(45页 WORD)DeepSeek 的技术开发自己的模型、 应用与 产品。 图 2-1 DeepSeek 系列模型 最近引起全世界广泛关注的模型,主要是自研通用大模型 DeepSeek-V3 和 推理模型 DeepSeek-R1。 DeepSeek-V3 是一款先进的通用大语言模型,具备多模态理解能力,旨在为 广泛的应用场景提供智能化支持。 DeepSeek-R1 是一个推理大语言模型,旨在提供高效的自然语言理解、任务10 积分 | 59 页 | 1.06 MB | 1 天前3
2025年超节点发展报告-华为&中国信通院幅提升,原本 MoE 模型训练需要 3 周时间,借助昇腾 384 超节点,时间将压缩至 1 周;基于昇思 MindSpore 进行了高性能的监督微调和 GRPO 强化学习训练框架的构建,发布开源数学推理模型 PCL-Reasoner-V1,率先突破大模型强化学习技术全栈壁垒,相关研究成果在国际顶级学术会议 中发表,展现我国人工智能算法创新能力。同时,昇腾 384 超节点采用液冷技术,数据中心 PUE20 积分 | 31 页 | 4.79 MB | 1 天前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提 升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI-o1 正式版。同时 DeepSeek 开源 R1 推理模型,允许所有人在遵循 MIT License 的情况 下,蒸馏 R1 训练其他模型。 2023/05 2023/11 2024/02 2024/03 2024/0510 积分 | 38 页 | 1.95 MB | 5 月前3
全球数智化指数(GDII)2025家的数字化进程进行了评估。GDI 的结果表明,数 字化与人均 GDP 之间存在显著的正相关关系,数 字技术成为推动国家经济增长不可或缺的驱动力。 人工智能时代(2025 年及以后) 计算能力持续提升,以及深度推理模型和多模态融 合的突破正加速推动数智化发展由量变提升迈向以 人工智能驱动的质变飞跃。人工智能推理能力的 快速普及正在推动核心工业生产流程变革,提升效 率、创新水平以及能源可持续性。这意味着,在数10 积分 | 142 页 | 10.11 MB | 1 天前3
共 9 条
- 1
