北大:DeepSeek-R1及类强推理模型开发解读DeepSeek-R1 \ Kimi 1.5 及 类强推理模型开发解读 陈博远 北京大学 2022 级“通班” 主要研究方向:大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 北大对齐小组 DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 DeepSeek-R1 Zero 及 R1 技术剖析 具备强大推理能力与长文本思考能力,继开源来备受关注。 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Compute Optimallycan be More Effective than Scaling Model Parameters Laws [1] 。 DeepSeek-R1 Zero: 无需监督微调 SFT ,纯强化学习驱动的强推理模型 DeepSeek-R1 技术剖析: DeepSeek-R1 Zero10 积分 | 76 页 | 6.72 MB | 5 月前3
2025具身机器人行业未来展望报告今年两会上,小鹏汽车董事长、CEO何小鹏认为机器人可分为五个智能等级:L1级(完全由人控制)、L2级(基础辅助智能)、L3级(具身 智能和训练监督)、L4级(自成长智能)和L5级(完全自主智能)。当前,人形机器人产业正朝着L3级迈进,这一阶段的机器人能够在大量 场景中独立运行,但在复杂情况下仍需人工监督。何小鹏预计,到2026年,具备L3初阶能力的人形机器人将进入适度规模的商业化量产阶段。 结合何小鹏对于机器人分级以 具身智能和训练监督 自成长智能 完全自主智能 代表产品 传统机械产品 工业机器人、AGV、扫地机 器人 现有人形机器人 尚未出现 尚未出现 拥有的能力 被人类完全操控的能力 基于人类制定规则进行执行 的能力,需要人类监督 基于人类指定的规则及训 练的成果进行一定的自主 运行的能力,复杂情况下 仍需人工监督 基于人类指定的规则及训练 的成果进行一定的自主运行 的能力,少量人工监督,具 有自成长能力 有自成长能力 无需人类监督,能够在人类 规则下自主智能化运行,并 且具有自成长能力,具有情 感化交流能力 对于大脑能力的需求 解析指令,执行指令 感知环境,解析规则,自动 化执行 多模态感知理解,解析规 则,自动化解析执行复杂 的运动 多模态感知理解,解析规则, 自动化解析执行复杂的运动, 自主迭代优化能力 多模态感知理解及执行,自 主迭代,情感化交流能力, 成为机器与AI Agent的结合0 积分 | 31 页 | 3.33 MB | 5 月前3
国元证券-汽车智能驾驶行业深度报告:端到端与AI共振,智驾平权开启新时代关键特征,例如TransFuser及其变体。这些设计结合对仿真环境的深入理解, 使模型在CARLA基准测试中显著提升性能。 为提高自主系统的可解释性和安全性,一种解决方案是引入各种辅助模块以更好地监督学习过程,另一种则采取注意力可视化。 2023-2024年,研究重点聚焦生成安全关键数据、预训练策略学习的基础模型或骨干网络,推动感知与规划模块的端到端整合。 同时,更具挑战性的CARLAv2和nuPlan基准测试也被引入。 的方法。模仿学习中,一种 广泛使用的方法是行为克隆(BC),将问题转化为监督学习问题。另一种方法是逆最优控制(IOC,也称为 逆强化学习),利用专家示范来学习奖励函数。 表1:模仿学习的两大算法类别 类别 简述 优势 挑战 行为克隆(BC) 在行为克隆中,通过最小化规划损失 来实现智能体策略与专家策略的匹配, 其中监督学习中的损失函数用于度量 智能体动作与专家动作之间的距离。 早期应用于自动驾驶的BC,利用端到 强化学习在应用中面临的主要挑战是需要大量的数据进行训练,而现实中很难保证所有可能的情况都能被模拟出 来,并且训练过程需要大量的“试错”。为了弥补强化学习的不足,许多研究选择将强化学习与监督学习(SL) 结合,例如隐式效用,通过使用监督学习对CNN编码器进行预训练。监督学习通过“标注数据”助力系统更好地理 解环境,强化学习则帮助系统在复杂环境中逐步优化自身策略。二者结合,让系统既能从已有的知识中学习,又 能在实践中持续改进。10 积分 | 95 页 | 6.54 MB | 5 月前3
北京金融科技产业联盟:2025年数字孪生技术金融应用研究报告、跨市场、跨 领域综合应用夯实多维度数据基础,建立面向用户、面向场 景的大数据知识图谱和综合分析能力的业务要求。 2024 年,中共北京市委金融委员会办公室联合人民银行 北京市分行、国家金融监督管理总局北京监管局、北京证监 局、市科委中关村管委会、市经济和信息化局印发实施了《北 京市推动数字金融高质量发展的意见》 2,提出搭建数据开放 共享机制,通过数字孪生、联合建模、图计算等技术手段, 科技跨越式发展,实现数字化转型和核心竞争力提升。 4 数据源自毕马威《2024 中国金融科技企业首席洞察报告》。 5 指金融信息投资咨询,主要业务包括市场调研、商业报告和技术咨询等。 10 国家金融监督管理总局数据,中国银行业金融机构法人数和 证券公司数近五年分别增加了30家和9家 6。金融业竞争存活 同业数的增加,导致了客户获得成本和企业营销成本的上 升。 同时,随着客户对金融产品个性化需求上升,传统市场 将导致客户投资损失,甚至客户流失。 6 国家金融监督管理总局官方公告,截至 2023 年底,中国银行业金融机构法人共 4608 家,中国 证券公司共 140 家;2019 年中国银行业金融机构法人共 4588 家,中国证券公司共 131 家。 11 合规压力来源于监管环境的变化,新的监管法规和标准 要求金融机构不断更新和完善自身风险管理框架,甚至构建 新的合规体系,例如衍生自金融监管的监督审计和衍生自金 融风险10 积分 | 53 页 | 2.07 MB | 5 月前3
北京大学-DeepSeek原理和落地应用2025Generative (生成式) Pre-trained (预训练) Transformer (变换器) LLM:Large Language Model GPT工作原理-2 预训练 (自监督) 监督微调 人类反馈 强化学习 接收输入 处理输入 进行推理 生成输出 上下文 + 训练知识 阶段1:模型训练 阶段2:推理 大模型工作过程 GPT工作原理-3 数据来源 说明 维基百科10 积分 | 57 页 | 9.65 MB | 5 月前3
2025智慧银行报告:以人工智能驱动转型并创造价值-毕马威-45页准确性不足是人工智能在银行业规模应用的一大阻碍, 因为金融行业必须严格遵守风险和监管要求,几乎没有 犯错 的余地。如果缺乏能够确保人工智能输出结果始终准确、 可复现和可解释的机制,银行将难以在无人类监督的情况 下使用创新解决方案,这可能会减缓人工智能的应用速度 并导致其无法大规模推广。 发展进步 很明显,银行在应用人工智能的过程中面临着复杂的挑 战。尽管他们已经作出重大努力,但存在战略分散和准备 融合阶段主要是将人工智能融入到端到端的工作流程、产品、服务和价 值流中,从而改变整个银行的工作方式并实现更多价值。 在这一阶段,人工智能能够帮助大型团队处理复杂任务并提高效率。应委任一名高 层领导,在转型办公室的有效支持下监督银行的整体变革,制定战略目标,并将人 工智能融入到运营模型、机器人和可穿戴设备中。 这一阶段主要关注道德、共融、安全、保障和信任。应将人工智能代理以及各种模 型(包括大型复杂模型、小型低成本模型、开放式模型、封闭式模型和特定领域模 这有助于促成银行员工队伍塑造方式的范式转变,使员工摆脱传统角色,转变成为人工智 能代理的管理者,并利用其复杂认知能力处理事务。在这个模式中,员工不再仅仅是任务 的执行者,还是人工智能驱动的工作流程的协调者,负责监督和优化能够根据上下文处理 复杂任务的先进人工智能代理的性能。 我们使用人工智能来帮助缩短开发和上市时间以及生产和项目周 期……我认为这将有助于提高我们的收入。 某日本银行的首席执行官 贷款10 积分 | 45 页 | 1.77 MB | 5 月前3
2025年五大趋势报告:人智共创未来 点燃创新纪元将让联网资产自主做出决策。 8 受访高管们还表示,由于生成式 AI 的发展,数字助手的决策量将在未来两年内增加 21%。 9 这将对运营模式产生巨大影响,因为 组织必须搭建新的架构,让员工能够监督自主决策流程,并管理由此产生的新风险。 要解决的问题有很多,但 67% 的受访 CEO 认为自动化带来的生产力提升极具吸引力,他们必 须承担高风险来保持竞争力。 10 而且,82% 的受访高管认为从生成式 的受访高管认为从生成式 AI 中获得的效益会超过 潜在风险 11,但需要对员工进行针对性的培训和技能提升,才能实现这一目标,让受访高管们 所期望的竞争优势成为现实。 企业必须搭建新的架构,让员工能够监督自主 决策流程,并管理由此产生的新风险。 2025 年五大趋势:人智共创未来 点燃创新纪元 8 让 AI 素养成为必备技能,强化培养智能体 AI 技能。 推出与实践项目相结合的综合培训计划,快 负责任地整合智能体 AI。 让员工为未来做好准备。 设立流程协调者和数字资源管理员等新角色 来管理组织内 AI 助手、模型和治理准则的使 用和共享。引入制衡机制,对智能体 AI 做 出的自主决策进行监督。定期举办黑客马拉 松,汇集不同观点,构想 AI 助手和智能体的 创造性应用方式。根据业务目标和生成式 AI 采用方面的优先要务,建立基于绩效和准备 度的薪酬和激励机制。 1 2 3 202510 积分 | 28 页 | 2.66 MB | 5 月前3
2024年中国人工智能产业研究报告Law原理给大模型能力演进限制了阈值空间,但仍有头部厂商在加大模型参数、数据规模和算力资源的投入,延续大力出奇迹的大 模型训练之路。2025年2月,OpenAI推出GPT 4.5系列模型,进一步加大模型参数,主要通过无监督训练提升了模型通用能力,在模型准确 率及幻觉率方面达成显著优化。但Altman同样表示这将是最后一代“非思维链”模型,后面GPT 5将采取融合技术路径,纳入推理侧思考。 • 以OpenAI为例,在GPT 降本增效推动大模型落地,选择微调、蒸馏或RAG等路径达到ROI最大化 来源:艾瑞咨询研究院自主研究绘制。 2024年,“后训练”和“强化学习”成为大模型技术创新的热点。后训练通常由大模型厂商在预训练模型基础上完成,其流程一般包括: 监督微调(SFT),即利用特定任务的标注数据对模型进行微调,使其学习任务模式;奖励模型(RM)训练,通过收集人类反馈数据训练 奖励模型,评估输出质量;以及强化学习(RL),利用奖励模型反馈优化模型,最终 在预训练大模型基 础上可进行后训练 或增量预训练,针 对性提升模型基础 能力。如GPT o系 列、DeepSeek R1 等都是以基模为基 础进行后训练得到。 数据预处理 增量预训练 后训练 监督微调SFT、强化 学习RL、RLHF、偏 好优化对齐等 注入领域知识,优 化特定任务或领域 基于预训练模型,通 过少量特定数据集对 模型进行进一步训练。 参数全 面微调 参数高 效微调0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告Law原理给大模型能力演进限制了阈值空间,但仍有头部厂商在加大模型参数、数据规模和算力资源的投入,延续大力出奇迹的大 模型训练之路。2025年2月,OpenAI推出GPT 4.5系列模型,进一步加大模型参数,主要通过无监督训练提升了模型通用能力,在模型准确 率及幻觉率方面达成显著优化。但Altman同样表示这将是最后一代“非思维链”模型,后面GPT 5将采取融合技术路径,纳入推理侧思考。 • 以OpenAI为例,在GPT 降本增效推动大模型落地,选择微调、蒸馏或RAG等路径达到ROI最大化 来源:艾瑞咨询研究院自主研究绘制。 2024年,“后训练”和“强化学习”成为大模型技术创新的热点。后训练通常由大模型厂商在预训练模型基础上完成,其流程一般包括: 监督微调(SFT),即利用特定任务的标注数据对模型进行微调,使其学习任务模式;奖励模型(RM)训练,通过收集人类反馈数据训练 奖励模型,评估输出质量;以及强化学习(RL),利用奖励模型反馈优化模型,最终 在预训练大模型基 础上可进行后训练 或增量预训练,针 对性提升模型基础 能力。如GPT o系 列、DeepSeek R1 等都是以基模为基 础进行后训练得到。 数据预处理 增量预训练 后训练 监督微调SFT、强化 学习RL、RLHF、偏 好优化对齐等 注入领域知识,优 化特定任务或领域 基于预训练模型,通 过少量特定数据集对 模型进行进一步训练。 参数全 面微调 参数高 效微调10 积分 | 51 页 | 3.35 MB | 6 月前3
清华:AI驱动政务热线发展研究报告(2025)力大的 客观现实,进而也容易滋生懒政怠政、推诿扯皮的工作作风。政务热线在实现各 7 类政府部门专线整合的基础上,进一步重塑政府服务流程,大模型可以对业务办 理流程进行优化和监督,实现对热线承办单位的统一管理、监督和考核,发挥政 务热线在业务办理全流程的“指挥棒”作用,引导承办单位落实好主体责任。一 方面,在厘清承办单位职责,精准分类来电诉求的基础上,数智化进一步规范了 政务热线统一受 数据价值的充分发挥。 第一,数据归口不统一。《意见》要求各地加快推进政务热线归并,但是调 研显示,不少地方在归并过程中仍存在数据汇集方面的困难,并主要表现为数据 归口不统一。一是市域热线将市场监督、卫生健康、生态环境保护等行业热线并 入热线标准统一提供服务,但是行业热线的分类标准与统一热线的分类标准存在 差异,导致行业主管部门需要在两套分类标准之间进行“转译”,不利于基于统 一热线分类 热线在全国首创“互联网+监察”模式,将诉求办理全过程 纳入监管,实现问题“线上督办”、“线上反馈”。通过构建与纪委、信访、司 法等部门的协同联动机制,对不合理诉求处理进行“全流程”、“穿透式”闭环 监督。解决在全国政务热线领域群众、企业合理诉求久拖不决、部门推诿等问题, 实现大量信访隐患得以提前化解,提升社会治理效能。 辽宁“12345 热线+网格”六级联动体系 2.大模型赋能,构建业务数智流转“总枢纽”。辽宁0 积分 | 58 页 | 1.68 MB | 5 月前3
共 23 条
- 1
- 2
- 3
