2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告具备强大推理能力与长文本思考能力,继开源来备受关注。 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; ➢ 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 Effective than Scaling Model Parameters 8 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 DeepSeek-v3-Base (671B) DeepSeek-R1-Zero 基于规则的奖励 Rule-Based Reward 推理为中心的大规模强化学习 大规模推理为中心的强化学习,提升模型数学代码能力 RL驱动下自然涌现长文本推理能力 9 DeepSeek-R1 技术剖析:DeepSeek-R1 Zero DeepSeek-R1 Zero: 无需监督微调SFT,纯强化学习驱动的强推理模型 ➢ 奖励建模:基于规则的奖励 (Rule-Based Reward) : 准确率奖励 + 格式奖励 ➢ 准确率奖励 Accuracy Rewards: 判断答案是否是正确的10 积分 | 76 页 | 8.39 MB | 5 月前3
工业大模型应用报告................................................................................... 11 3.2. 模式二:微调 .................................................................................................. 大模型的构建可以分为两个关键阶段,一个是预训练阶段,一个是微调阶段。预 训练主要基于大量无标注的数据进行训练,微调是指已经预训练好的模型基础上,使 用特定的数据集进行进一步的训练,以使模型适应特定任务或领域。针对工业大模型, 一是可以基于大量工业数据和通用数据打造预训练工业大模型,支持各类应用的开发。 二是可以在基础大模型上通过工业数据进行微调,适配特定工业任务。三是可以在不 改变模型参数的情 式的缺点是需要大量的 高质量工业数据集,以及庞大的算力资源,对成本和能力的要求较高,面临技术和资 源的巨大挑战。在最终应用前,无监督预训练工业大模型与 GPT3 类似,同样需要通过 适当的指令微调、奖励学习、强化学习等阶段,形成面向最终场景的应用能力。 SymphonyAI 3推出了基于无监督预训练的工业大语言模型,该模型的训练数据包 含 3 万亿个数据点,12 亿 token,能够支0 积分 | 34 页 | 4.98 MB | 5 月前3
DeepSeek大模型及其企业应用实践大泛化能力,可在不进行微调或少 量微调的情况下完成多场景任务, 相当于AI完成了“通识教育” 通用大模型L0 是指那些针对特定行业或领域的大 模型。它们通常使用行业相关的数 据进行预训练或微调,以提高在该 领域的性能和准确度,相当于AI成 为“行业专家” 行业大模型L1 是指那些针对特定任务或场景的大 模型。它们通常使用任务相关的数 据进行预训练或微调,以提高在该 任务上的性能和效果 总 结,大大降低了知识管理的落地门槛 知识管理 数据分析是企业决策的重要依据。大模型技术通过引入编 程能力,可以大大降低数据分析成本。然而,目前大模型 在特定业务场景下的效果仍需优化,模型微调是一种解决 办法 数据分析 在软件开发领域,大模型技术可以作为编码助手,提升工 程师的工作效率。通过AI编程助手,减少了重复劳动,提 升了代码质量 编码助手 4.3 企业大模型的部署方式 DeepSeek 大模型 —— 让企业拥有 “数字大脑” 厦大团队两本数据治理书籍 4.5 企业部署大模型规划路线 构建企业内部知识库 (RAG系统) 短期(0-6月) 开发行业专属大模型 (模型微调) 中期(6-18月) 搭建AI Agent工作流 (企业智能体) 长期(18月+) 4.6 企业级应用集成AI大模型的关键步骤 企业首先需要明确AI应用的具体场景,如文 本生成、情感分析、图片理解和生成等。这10 积分 | 147 页 | 16.82 MB | 5 月前3
政务大模型通用技术与应用支撑能力要求........ 1 3.4 大模型服务 large-scale model service ........................................... 2 3.5 微调 fine-tuning ............................................................... 2 3.6 提示词 prompt .... 1—2025,3.2] 3.5 微调 fine-tuning 为提升机器学习模型预测准确性,使用专门领域数据在大模型上继续训练的过程。 注1:专门领域数据一般是特定场景的生产数据或合成数据。 注2:常用的微调方法包括提示词微调、全参微调、参数高效微调等。 [来源:GB/T41867—2022,3.2. 31,有修改] 3.6 提示词 prompt 提示语 使用大模型进行微调或下游任务处理时,插入到输入样本中的指令或信息对象。 b) 应支持多种数据类型,支持excel、txt、json等多种格式数据导入,以及支持结构化数据、非 结构化文本、音视频等多模态数据接入,提供数据去重工具。 6.2.1.2 数据标注 a) 应支持微调语料标注能力,即对已有大规模通用语料库进行精细化标注,以满足特定任务或领 域的需求。标注结果应具备一致性和可靠性,遵循相应的标注规范; b) 应支持对齐语料标注能力,具备将不同来源、不同结构的文本进行整合和对齐的能力,形成一5 积分 | 23 页 | 500.64 KB | 1 天前3
大模型技术深度赋能保险行业白皮书151页(2024)· · 107 企微运维机器人· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 108 华农保险大模型微调效果· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 111 众安AIGC中台-众有灵犀· · · · · · · · · · /开源数据集、企业自有数据以及AI 合成数据。大模型训练和微调所需数据量快速增长,真实世界数据将在数年内被用尽。研 究机构Epoch估计,机器学习可能会在2026年前耗尽所有“高质量语言数据”。据Gartner 预测,2024年用于训练AI的数据中有60%将是合成数据。以Meta今年7月发布的 LLaMA3.1模型为例,监督微调环节的数据里有相当比例是合成数据,使用合成数据确实 带来了模型效果的提升。 带来了模型效果的提升。 (1)合成数据成有力补充 高质量的真实数据已逐渐无法满足大模型训练与精细微调的需要,这促使合成数据 作为真实数据的重要补充,在人工智能领域扮演着日益关键的角色。合成数据作为算法、 生成模型及模拟技术的产物,能够模仿现实世界数据的特征与模式,为大模型的训练与优 化提供丰富的数据资源。 以AlphaGeometry项目为例,该项目通过生成高达一亿个精准合成的数据点,为解决20 积分 | 151 页 | 15.03 MB | 1 天前3
2025年智能之光:⼈机协作的经济管理研究新时代报告-北京大学中国经济研究中心均指代大语言模型。 2 人工智能时代的社会科学家 5 对于需要大规模文本分析的应用,则需要通过 API 访问;如果有进一步的保密需求,则需要考虑本地部署。 随着相关计算框架的成熟,本地部署大模型、微调大模型已经不是高科技公司的专利,而是每一个社会科学研 究者都能运用的工具。 在介绍完这些技术基础之后,我们分别介绍大模型在研究全过程中的应用。我们认为,人工智能大模型在 研究过程中将会扮演四种 Transformer 模型建构,并发展了 “预训练-微调”范式。所谓“预训练——微调”范式,就是指先在大量一般的文本上对语言模型进行训练,然 后在进行具体任务时,再利用少量数据进行微调。例如,在金融文本情绪分析当中,可以首先利用大量网络文 本数据,训练模型对于语言的一般理解;再利用少量领域数据(如 1000 条标注后的金融新闻标题)对模型参 数进行微调(Fine-tune)。在经济金融研究中,可以利用事先训练好的 利用事先训练好的 BERT 模型,在具体应用中进行微调, 实现对特定任务预测性能的改进。例如Siano (2025) 利用新闻公告文本作为自变量、公告后收益数据作为因变 量,微调了 BERT 模型。Huang et al. (2023) 则进一步针对金融和会计领域训练了 FinBERT 模型。 2020 年,Google 进一步推出了 T5 模型。这一模型的关键意义,在于通过“指令 + 数据”的形式实现了0 积分 | 62 页 | 2.45 MB | 1 天前3
2024年中国人工智能产业研究报告模型层开源创新推动上层商业化实践 降本增效推动大模型落地,选择微调、蒸馏或RAG等路径达到ROI最大化 来源:艾瑞咨询研究院自主研究绘制。 2024年,“后训练”和“强化学习”成为大模型技术创新的热点。后训练通常由大模型厂商在预训练模型基础上完成,其流程一般包括: 监督微调(SFT),即利用特定任务的标注数据对模型进行微调,使其学习任务模式;奖励模型(RM)训练,通过收集人类反馈数据训练 成本、高性能的开源模型(如DeepSeek、阿里QwQ系列)极大推动了大模型的商业化实践,吸引更多需求方拥抱大模型能力底座,并进 一步采用微调、蒸馏、RAG工程等方式完成定向优化和应用部署。 预训练大模型能力落地实践路径 数据处理 后训练/ 增量预训练 微调 模型部署 蒸馏 RAG 在预训练大模型基 础上有后训练或者 微调/精调的进一步 需求,则需要更多 数据(公开数据集、 企业内部数据等) 来进行模型调整。 数据集的结构、质 等都是以基模为基 础进行后训练得到。 数据预处理 增量预训练 后训练 监督微调SFT、强化 学习RL、RLHF、偏 好优化对齐等 注入领域知识,优 化特定任务或领域 基于预训练模型,通 过少量特定数据集对 模型进行进一步训练。 参数全 面微调 参数高 效微调 针对所有层 的所有参数 进行微调 针对部分 层的参数 进行微调 Adapter Tuning LoRA、QLoRA Prompt0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告模型层开源创新推动上层商业化实践 降本增效推动大模型落地,选择微调、蒸馏或RAG等路径达到ROI最大化 来源:艾瑞咨询研究院自主研究绘制。 2024年,“后训练”和“强化学习”成为大模型技术创新的热点。后训练通常由大模型厂商在预训练模型基础上完成,其流程一般包括: 监督微调(SFT),即利用特定任务的标注数据对模型进行微调,使其学习任务模式;奖励模型(RM)训练,通过收集人类反馈数据训练 成本、高性能的开源模型(如DeepSeek、阿里QwQ系列)极大推动了大模型的商业化实践,吸引更多需求方拥抱大模型能力底座,并进 一步采用微调、蒸馏、RAG工程等方式完成定向优化和应用部署。 预训练大模型能力落地实践路径 数据处理 后训练/ 增量预训练 微调 模型部署 蒸馏 RAG 在预训练大模型基 础上有后训练或者 微调/精调的进一步 需求,则需要更多 数据(公开数据集、 企业内部数据等) 来进行模型调整。 数据集的结构、质 等都是以基模为基 础进行后训练得到。 数据预处理 增量预训练 后训练 监督微调SFT、强化 学习RL、RLHF、偏 好优化对齐等 注入领域知识,优 化特定任务或领域 基于预训练模型,通 过少量特定数据集对 模型进行进一步训练。 参数全 面微调 参数高 效微调 针对所有层 的所有参数 进行微调 针对部分 层的参数 进行微调 Adapter Tuning LoRA、QLoRA Prompt10 积分 | 51 页 | 3.35 MB | 6 月前3
阿里云:2025年阿里云百炼安全白皮书核心:贯穿生命周期的数据安全与隐私保护 73 2.3 扩展:支持客户弹性、灵活地应对外部攻击 78 3 阿里云百炼关键场景安全实践 82 3.1 场景一:发布并调用一个线上模型推理服务 82 3.2 场景二:使用私有数据微调一个专属模型 85 3.3 场景三:构建并运行一个 AI Agent/MCP 应用 88 4 构建可验证的信任:阿里云百炼的 90 安全承诺与未来愿景 4.1 当下的承诺:安全可信的五大基石 策略限定允许使用的加密协议版本和加密套件,防止低安全性协议被误用, 从而进一步提升整体链路的安全等级。 ● 存储加密:阿里云为各类云上产品提供落盘数据加密能力,确保静态数据(如 RAG 知识库文档、模型微调数据集等)在存储层面的安全性。核心存储类产品(如云 盘 EBS、关系型数据库 RDS、对象存储 OSS)均支持一键开启加密功能,无需额外配 置即可满足大规模数据的加密存储需求。此外,部分产品也支持 算力指数级扩展需求。 ● 平台层优化实现算力资源的极致利用。阿里云大模型平台能够实现万卡级弹性调 度,AI 算力有效利用率超 96%,可稳定运行千卡任务 5 周以上。DeepGPU 增强工具 包在 LLM 微调场景实现 80% 性能跃升,视觉生成任务推理效率提高 60%。通过全栈 优化,阿里云 AI 基础设施的模型算力利用率提升 20% 以上,在 MLPerf 基准测试中 取得显存优化领先成绩。 220 积分 | 59 页 | 45.36 MB | 1 天前3
浙江大学:DeepSeek的本地化部署与AI通识教育之未来• 实时响应:本地处理消除网络延迟,提升高频 交互场景(如客服、实时翻译)的体验。 • 资源独占:硬件资源专用于模型推理,避免云 服务多租户环境下的资源争抢。 v 4. 高度定制化 • 模型微调:可根据企业垂直领域(如法律、医 疗)调整模型参数,提升专业场景的准确性。 • 系统集成:灵活对接内部数据库、ERP等系统, 实现个性化功能。 • 版本控制:自由选择或回滚模型版本,避免云 用Gensim库分析小说中的人物关系 4 12 大语言模型与生成式人工智能 有关概念:AIGC与LLM、GAI与AGI、GPT与ChatGPT、预训练与微调以及AI造假 公开数据集:中英文及工具、 LLM平台 2 13 预训练微调和多模态模型 私人助手定制:聊天大语言模型、微调大语言模型、本地部署DeepSeek-R1; 多模态大语言模型:AI绘画、扩散模型和 MLLM研究前沿 2 总计 32 49 总结如何教、如何学 DeepSeek 浙大通识课程内容 v 实验作业: – DeepSeek本地化部署实验 – DeepSeek微调+业务数据实验 – DeepSeek综合应用大作业 v 教材内容: – 增加DeepSeek介绍、 DeepSeek部署和微调 v 教材案例: – 增加DeepSeek部署 和微调案例 赋能浙大人工智能通识教育(以课程建设为例) 56 浙大通识课程支撑浙江省本科高校人工智能通识课程“名师名课”建设10 积分 | 57 页 | 38.75 MB | 5 月前3
共 140 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14
