北大:DeepSeek-R1及类强推理模型开发解读具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Compute Optimallycan be More Effective than Scaling Model Parameters Laws [1] 。 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero model 需要大量的计算资源,可能会复杂化整个流程 训练模板: 选择最简单的 Thinking Process , 直接观察到最直接的 RL 过程下的表现 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero10 积分 | 76 页 | 6.72 MB | 5 月前3
工业大模型应用报告................................................................................... 11 3.2. 模式二:微调 .................................................................................................. 大模型的构建可以分为两个关键阶段,一个是预训练阶段,一个是微调阶段。预 训练主要基于大量无标注的数据进行训练,微调是指已经预训练好的模型基础上,使 用特定的数据集进行进一步的训练,以使模型适应特定任务或领域。针对工业大模型, 一是可以基于大量工业数据和通用数据打造预训练工业大模型,支持各类应用的开发。 二是可以在基础大模型上通过工业数据进行微调,适配特定工业任务。三是可以在不 改变模型参数的情 式的缺点是需要大量的 高质量工业数据集,以及庞大的算力资源,对成本和能力的要求较高,面临技术和资 源的巨大挑战。在最终应用前,无监督预训练工业大模型与 GPT3 类似,同样需要通过 适当的指令微调、奖励学习、强化学习等阶段,形成面向最终场景的应用能力。 SymphonyAI 3推出了基于无监督预训练的工业大语言模型,该模型的训练数据包 含 3 万亿个数据点,12 亿 token,能够支0 积分 | 34 页 | 4.98 MB | 5 月前3
智能金融:AI驱动的金融变革(45页 PPT)意距离的依赖关系。 并行计算能力强: Transformer 架构支持并行计 算, 训练速度更快。 • 缺点:资源消耗大 上下文学习、指令微调、 扩展规律 (GPT3 、 GPT4…) 自然语言处理模型的演进 预训练语言模 型( PLM ) “ 预训练 - 微调” 学习范式 ( BERT、 GPT) 大语言模型 ( LLM ) 注意力 Attention 自注意力机制:使序列中的每个单词都能 Richard Sutton (强化学习之父 ,阿尔 伯塔大学 教授, DeepMind 科学家) 折扣因子 监督微调 强化学习 图源自《 ReFT: Reasoning with Reinforced Fine-Tuning 》 DeepSeek-R1 :监督微调 + 强化学习训练 高探索自由度 = 推理能力自我觉醒 (规则奖励 + 奖励模型) 纯强化学习训练 多阶段增强训练 R1-Zero 生成的 长思维链数据 综合性能 更强 R1 蒸馏 版 1.5B~32B 对 V3 模 型 监督 微调 混合数据 监督微调 60 万条 推理数据 模型蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的模型压缩技术 ,其 核心目标是在保持模型性能的同时 ,显著降低模型的计算复杂度和存储需求20 积分 | 45 页 | 4.10 MB | 1 天前3
2024年中国人工智能产业研究报告模型层开源创新推动上层商业化实践 降本增效推动大模型落地,选择微调、蒸馏或RAG等路径达到ROI最大化 来源:艾瑞咨询研究院自主研究绘制。 2024年,“后训练”和“强化学习”成为大模型技术创新的热点。后训练通常由大模型厂商在预训练模型基础上完成,其流程一般包括: 监督微调(SFT),即利用特定任务的标注数据对模型进行微调,使其学习任务模式;奖励模型(RM)训练,通过收集人类反馈数据训练 成本、高性能的开源模型(如DeepSeek、阿里QwQ系列)极大推动了大模型的商业化实践,吸引更多需求方拥抱大模型能力底座,并进 一步采用微调、蒸馏、RAG工程等方式完成定向优化和应用部署。 预训练大模型能力落地实践路径 数据处理 后训练/ 增量预训练 微调 模型部署 蒸馏 RAG 在预训练大模型基 础上有后训练或者 微调/精调的进一步 需求,则需要更多 数据(公开数据集、 企业内部数据等) 来进行模型调整。 数据集的结构、质 等都是以基模为基 础进行后训练得到。 数据预处理 增量预训练 后训练 监督微调SFT、强化 学习RL、RLHF、偏 好优化对齐等 注入领域知识,优 化特定任务或领域 基于预训练模型,通 过少量特定数据集对 模型进行进一步训练。 参数全 面微调 参数高 效微调 针对所有层 的所有参数 进行微调 针对部分 层的参数 进行微调 Adapter Tuning LoRA、QLoRA Prompt0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告模型层开源创新推动上层商业化实践 降本增效推动大模型落地,选择微调、蒸馏或RAG等路径达到ROI最大化 来源:艾瑞咨询研究院自主研究绘制。 2024年,“后训练”和“强化学习”成为大模型技术创新的热点。后训练通常由大模型厂商在预训练模型基础上完成,其流程一般包括: 监督微调(SFT),即利用特定任务的标注数据对模型进行微调,使其学习任务模式;奖励模型(RM)训练,通过收集人类反馈数据训练 成本、高性能的开源模型(如DeepSeek、阿里QwQ系列)极大推动了大模型的商业化实践,吸引更多需求方拥抱大模型能力底座,并进 一步采用微调、蒸馏、RAG工程等方式完成定向优化和应用部署。 预训练大模型能力落地实践路径 数据处理 后训练/ 增量预训练 微调 模型部署 蒸馏 RAG 在预训练大模型基 础上有后训练或者 微调/精调的进一步 需求,则需要更多 数据(公开数据集、 企业内部数据等) 来进行模型调整。 数据集的结构、质 等都是以基模为基 础进行后训练得到。 数据预处理 增量预训练 后训练 监督微调SFT、强化 学习RL、RLHF、偏 好优化对齐等 注入领域知识,优 化特定任务或领域 基于预训练模型,通 过少量特定数据集对 模型进行进一步训练。 参数全 面微调 参数高 效微调 针对所有层 的所有参数 进行微调 针对部分 层的参数 进行微调 Adapter Tuning LoRA、QLoRA Prompt10 积分 | 51 页 | 3.35 MB | 6 月前3
2025年工业大模型白皮书2 大规模预训练技术.......................................................................... 34 2.2.3 模型微调与优化.............................................................................. 35 2.2.4 模型部署与运维 需求进行调整和优化的过程。由于不同工业行业和任务具有独特的特点和要求, 如机械制造行业对产品精度和工艺要求严格,电力行业对设备运行稳定性高度 关注等,需要通过添加特定行业数据、引入领域知识以及采用合适的微调算法, 使模型更好地适应这些独特需求,提升在特定工业任务和行业中的性能表现。 1.1.3 工业数据制备 这是工业大模型构建的第一阶段。工业数据具有异质数据模态的特点,包 括 CAX 模型 守恒定律:能量、质量等物理量的守恒关系 ➢ 因果时序:设备退化过程的不可逆特性 ➢ 边界条件:工艺参数的安全阈值限制 ➢ 不确定性传播:测量误差的链式传导效应 1.2.2 模型架构 ◼ 混合架构 主流架构呈现"预训练+微调+物理嵌入"的混合模式: ➢ 基础层:基于 Transformer 的通用特征提取 ➢ 领域适配层:融入设备动力学方程、材料本构模型等机理知识 ➢ 任务特定层:面向检测、预测、优化等场景的轻量化模块10 积分 | 142 页 | 10.54 MB | 5 月前3
2024年汽车AI大模型TOP10分析报告行自监督训练得到预训练模型 将模型在下游各种自然语言处理任 务上的小规模有标注数据进行微调 得到适配模型 AI大模型就是预训练语言模型 通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型 预训练语⾔模型“预训练 + 微调”技术范式 ⼤规模⽆标注 ⽂本数据 模型预训练 不同特定任务 有标注训练数据 模型微调 测试数据 最终模型 从海量数据中自动学习知识 Ø Big-data 在产业应⽤层⾯,结合底层基础大模型和针对特定⾏业的精简数据微调,将训练出更为实 用、更易于产业落地的小型化大模型。 ��� 国产AI芯片自主研发 为确保中国大模型的长远发展和避免外部制裁风险,国内AI计算芯片的自主研发将成为关 键战略方向。 数据产权标准深化 优化和完善现有数据标准和规范,是 推动大模型“燃料”质量提升和数量增长的重要驱动 力,在2024年将作为产业发展的首要任务。 “套壳”微调策略 为满足产业实际需 为满足产业实际需求并适应中小企业的发展特点,“套壳”微调(即在现有大模型基础上 进⾏针对性调整)将成为除行业巨头外企业的主要发展策略。 人工智能伦理责任 随着大模型性能的飞速提升和实⽤性的增强,确保AI技术与社会伦理道德标准相⼀致将成 为⼤模型持续发展的关键考量因素。 来源:沙利文中国大模型测评报告 产业研究 战略规划 技术咨询 12 来源:面壁智能公众号 ���������� MMLU �������������10 积分 | 59 页 | 28.41 MB | 5 月前3
AIGC引领保险数智化变革(17页 PPT )保险行业智能化应用 代码生成 智能客服 内容生成 智能知识库 智能核保 智能理赔 智能风控 智能投研 大模型服务 提示词工程 预训练服务 微调服务 大模型评估 推理服务 大模型使能平台 零碳数据中心 云平台 傲飞算力平台 绿洲数据平台 n 大模型全栈能力, 开放化 工程化 • 分布式训练 • 大模型微调 • 大模型训练调优 • 可视化监控评估 • 基于质量管理 • 基于精度、类型 管理 • 全维度数据管理 • 多样化数据处理 • 云边端推理 • 云边端部署 • 数据安全审计 一站式工程化套件实现 AIGC 落地应 用 向导式 + 图形化降低 AIGC 门槛,开放性 + 工程化加速 AIGC 落地 大模型使能 部署推理 模型管理 模型训练 / 微调 算法开发 数据处理 13 旷视天元 Mega Engine … 海光 DTK 软件栈 … DCU 阿里龙蜥 CPU (海光、鲲鹏、飞腾) 国产化算力技术栈 场景 算法10 积分 | 18 页 | 1.03 MB | 1 天前3
北京大学-DeepSeek原理和落地应用2025国产自主研发三大优势,不仅实现技术代际 跨越,更推动AI技术普惠化与国产化生态繁 荣,成为全球大模型赛道的重要领跑者。 核心加分项:开源、低成本、国产化 • 开源:技术共享,生态共建 全量开源训练代码、数据清洗工具及微调框架,开发者可快速构建教育、金融、医 疗等垂直领域应用,推动社区协同创新。 • 低成本:普惠企业级AI应用 做了大量的模型架构优化和系统工程优化。 训练成本仅$557w :显著低于行业同类模型,打破高价壁垒。 DeepSeek-R1促使行业开始从 “唯规模论”转向更加注重 “性价比”和“高效能”方向 01 02 03 打破垄断 价格下调 推动创新 21 21 模型有三种使用方式:在软件系统中调用官方API、模型微调、直接使用。 前 两种涉及到IT技术比较多。这里讲的是直接使用的三种方法,适合普通用户。 DeepSeek直接使用��� 22 DeepSeek官方-开袋即食��� 23 官网: https://chat Generative (生成式) Pre-trained (预训练) Transformer (变换器) LLM:Large Language Model GPT工作原理-2 预训练 (自监督) 监督微调 人类反馈 强化学习 接收输入 处理输入 进行推理 生成输出 上下文 + 训练知识 阶段1:模型训练 阶段2:推理 大模型工作过程 GPT工作原理-3 数据来源 说明 维基百科 在线百科10 积分 | 57 页 | 9.65 MB | 5 月前3
企业数字化转型AI大模型数字底座项目设计方案技术,企业可以在不同类型的硬件资源上进行快速部署和扩展。预 计部署时间将从传统的数周缩短至数小时,极大提升了企业业务的 上线速度。同时,项目将提供持续的学习和优化机制,通过在线学 习和模型微调,确保模型能够随着业务需求的变化而不断进化。 在成本控制方面,项目将采用高效的计算资源调度和优化策 略,显著降低模型的训练和推理成本。通过引入分布式训练技术和 模型压缩算法,预计训练成本将降低 50%。 此外,项目将提供详细的成本分析和优化建议,帮助企业实现资源 的最优配置。 提高模型在多模态数据处理中的准确性和效率 实现跨云平台和边缘设备的自动化部署 通过在线学习和微调机制,持续优化模型性能 显著降低模型训练和推理的资源消耗 提供全面的成本分析和优化策略 最后,项目将提供一套完整的技术文档和培训材料,帮助企业 内部的开发人员和业务人员快速上手并充分利用该 如 HDFS) 和分布式计算框架(如 Spark)进行高效处理,确保数据的完整性 和可用性。模型层是底座的核心,采用大规模预训练模型(如 GPT、BERT)作为基础,结合企业特定的业务场景进行微调,同 时支持多模态数据处理(文本、图像、音频等),以增强模型的适 应性和泛化能力。模型训练过程中,采用分布式训练框架(如 Horovod)加速训练速度,并通过自动化超参数优化工具(如 Optuna)提升模型性能。0 积分 | 127 页 | 343.50 KB | 5 月前3
共 72 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8
