2025年智能金融:AI+驱动的金融变革报告-浙江大学(郑小林)QWQ-32B 两阶段强化学习 Gemma-3 多模态推理融合 思维链推理 2018年图灵奖、深度机器学习 2024年图灵奖、强化学习 浙江大学人工智能教育教学研究中心 中心 智能教育教学研究中心 大学人工智能教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学人工智能教育教学研 浙江大学人工智能教 浙 强化学习奠基人获得2024图灵奖 强化学习奠基人获得2024图灵奖 3月5日公布了ACM图灵奖获得者 Andrew Barto(MIT教授) 和 Richard Sutton(强化学习之父,阿尔伯塔大学 教授,DeepMind科学家) ◼ 强化学习的目标是得到一个策略,用于判断在 什么状态下选取什么动作才能得到最终奖赏。 折扣因子 (Discount Factor) 浙江大学人工智能教育教学研究中心 中心 智能教育教学研究中心 大学人工智能教育教学研究中心 浙 DeepSeek-R1:监督微调+强化学习训练 DeepSeek-R1-Zero (强推理模型) 推理导向强化学习 (准确率奖励+格式奖励) 纯强化学习训练 低可控:生成文本可 读性差、语言混乱 高探索自由度 => 推理能力自我觉醒 (更长的思维链、更深层次的 推理路径) DeepSeek-V3 (基础模型) 监督微调 强化学习 图源自《ReFT: Reasoning10 积分 | 45 页 | 7.21 MB | 1 月前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求DeepSeekR1/V3 推理服务。 l DeepSeek 通过 MLA 和 DeepSeekMoE 实现高效的推理和低成本训练,构建 DualPipe 算法和混合精度训练优化计算与通信负载;通过 ( 分阶段 ) 强化学习实现 性能突破。 多头潜在注意力 (MLA) 通过低秩联合压缩技术,大幅削减了注意力键 (keys) 和值 (values) 的存储空间,显著降低了内存需求。 DeepSeekMoE 架构采 用了更为精细粒度 了训练速度,还大幅降低了 GPU 内存的消耗。 DeepSeek-R1-Zero 通过强化学习架构创新实现突破性性能,核心技术创新体现在训 练效能优化策略、双维度评价体系、 结构化训练范式三个维度。 DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样 与监督式微调、全场景强化学习等。 l AI 应用爆发在即,算力需求持续攀升,关注 ASIC 及服务器产业链。 GPT-4o 等模型的训练成本 约为 1 亿美元。 l 2025 年 1 月, DeepSeek-R1 发布,性能对标 OpenAI-o1 正式版。 DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提 升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI-o1 正式版。同时 DeepSeek 开源 R1 推理模型,允许所有人在遵循0 积分 | 38 页 | 1.95 MB | 7 月前3
电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域源 模 型 , 并 在 性 能 上 和 GPT-4o 以 及 Claude-3.5-Sonnet不分伯仲,训练成本约为558万美元。1月20日, DeepSeek开源R1模型,后训练阶段大规模使用了强化学习技术,在仅有 极少标注数据的情况下,性能比肩OpenAI o1正式版,不仅极大提升了 模型推理能力,也大幅降低了训练成本。同时,DeepSeek-R1蒸馏了6个 小模型,其中32B和70B模型在多项能力上实现对标OpenAI 等开源模型,并在性能上和 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲,训练成本仅约为 558 万美元。1 月 20 日,DeepSeek 开源 R1 模型,后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下, 极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。 图 1:DeepSeek R1 性能比肩 OpenAI0 积分 | 23 页 | 2.65 MB | 7 月前3
金融行业银行客户经理基于DeepSeek构建AI Agent智能体应用方案(237页 WORD)40%的人力成本节约,同时将客户满意度 (NPS)提升 15 个百分点。项目将分三阶段推进:三个月内完成基础 问答能力部署,六个月内实现复杂业务处理,十二个月内达成全业 务场景覆盖。通过持续迭代的强化学习机制,确保智能体每月更新 业务知识库,保持对监管政策变化的即时响应能力。 2. 智能体功能设计 智能体功能设计围绕银行客户经理的核心工作场景展开,通过 DeepSeek 大模型的多模态交互、知识库整合及实时决策能力,构 300+规则模型)、事 后审计分析(保留完整操作日志)。对疑似欺诈行为自动触发二级 验证流程,误报率需控制在 3%以下。 培训模拟模块包含虚拟沙箱环境,可模拟 200+种客户沟通场 景,智能体通过强化学习持续优化话术策略。每月更新培训案例 库,确保应对市场变化的时效性。测试数据显示,经过 6 个月迭代 的智能体在客户满意度评分上比初期版本提升 41%。 2.1 客户咨询与应答 客户咨询与应 核心推荐逻辑采用三级筛选机制: 1. 合规性过滤:通过内置的金融产品合规知识库(含监管政策、 适当性管理办法等)排除不匹配产品,确保推荐符合《商业银 行代理销售管理办法》要求 2. 需求匹配:运用深度强化学习算法计算产品特征与客户画像的 匹配度,关键指标包括: o 风险等级匹配度(R 值)≥0.85 o 收益预期偏差率 ≤15% o 流动性需求吻合度 >90% 3. 个性化排序:结合客户历史选择偏好(如产品类型点击率、购10 积分 | 247 页 | 2.05 MB | 1 月前3
电子行业深度报告:AI系列深度,AI+降本增效拓宽应用,硬件端落地场景丰富-20230712-东吴证券-28页升级至四代,模型能力高速提升。ChatGPT 是由 OpenAI 开发的自然语言生成 模型,采用 Transformer 神经网络架构(又称 GPT-3.5 架构),基于大量的语料库使用指 示学习和人工反馈的强化学习(RLHF)来指导模型训练。模型可理解并生成对各种主 题的类似人类的响应,是 AIGC 技术进展的成果。2023 年 3 月 15 日,OpenAI 正式官宣 了多模态大模型 GPT-4,ChatGPT4 请务必阅读正文之后的免责声明部分 东吴证券研究所 行业深度报告 16 / 28 程序,将在未来几周扩展至其他国家。该 APP 可向用户提供定制化建议、激发创作灵 感,或者让用户实现个性化学习。此外,Open AI 还表示将很快推出 Android 版 ChatGPT 应用。 2023 年 5 月 11 日,谷歌在 I/O 大会上发布 Android14,首次引入魔法撰写(Magic0 积分 | 28 页 | 2.68 MB | 7 月前3
金融与AI融合持续深化【AI金融新纪元】系列报告(四)-东吴证券会。东方财富可通过妙想大模型支持多语种投研服务, 同花顺则布局港股、美股智能交易助手。 AI 投教与认证体系。开发互动式投教课程(如模拟交易实训、 AI 陪练) ,并结合大模型生成个性化学习路径。例如 ,九方智投的智能投教课 程已形成差异化竞争力, 同花顺可进一步整合问答社区与 AI 导师功能。 数据资产化与 API 经济。将 AI 处理后的结构化数据(如行业产业链图谱、舆情风险评分)封装为标准化10 积分 | 38 页 | 1.08 MB | 1 月前3
工业园区国际指南本地化指标体系对比研究报告产业共生、清洁生产、基础设施共享、环境管理等 多方面形成了工业园区绿色可持续发展的中国方案, 并取得了较为显著的成效。以国家级经济技术开发 区为例,在土地占地面积、水资源消耗量、综合能 源消耗量、化学需氧量和二氧化硫排放量分别仅占 全国 0.15%、1.9%、2.2%、0.8%和 0.6%的情况下, 创造了全国 8.7%的地区生产总值和 15.6%的工业增 加值。 2 赵若楠,马中中国工业园区绿色发展政策对比分析及对策研究 能够扫描监测多条光路中上百种有毒害、易燃易爆物质; ▪ 红外监测光程最低检测限可达到 PPb(十亿分之一)级; ▪ 24 小时全自动、多方位、多光径自动扫描; ▪ 可灵活设定污染物浓度警告限值,及时反映化学因子的超标现象并预警,避免发生灾难性事故; ▪ 配套溯源预警软件、移动监测和测量设备,可及时溯源并分析废气的成分和扩散规律,以及 对周边地区的大气环境的影响。 应用领域: 这项固定和移动相结合的空气质量 分类 指标名称 单位 资源综合利用指标 一般工业固体废物综合利用量 万吨 * 一般工业固体废物综合利用率 % * 规模以上工业企业重复用水率 % 废物排放指标 * 二氧化硫排放量 万吨 * 化学需氧量排放量 万吨 * 氨氮排放量 万吨 * 氨氮化物排放量 万吨 * 单位地区生产总值 CO2 排放量 吨 / 万元 工业固体废物处置量 万吨 工业废水排放量 万吨 其他指标 * 非化石能源占一次能源消费比重10 积分 | 195 页 | 9.44 MB | 1 月前3
服饰时尚行业数字化转型白皮书-百胜软件&Thoughtworks(资料来源:智研咨询发布《中国纺织服装行业市场发展环境及前景研究报告》) 1)服饰时尚行业产业链构成 整体来看,服饰时尚产业链可以分为上游、中游和下游三个主要环节: 上游主要包括天然纤维(棉花、麻、蚕茧丝等)、化学纤维(人造纤维、合成纤维等)、辅料(拉链、纽扣、缝纫线、弹力绳等)以及 生产设备等行业;中游主要包括纺织服装生产与品牌厂商;下游主要包括专卖店、商场、超市、电商等线上线下销售渠道。 上游主要是原10 积分 | 39 页 | 14.97 MB | 7 月前3
智慧的城市在中国2008年我们都经历了不平凡的一年,回想起来,很多事情都对城市的应急系统提出了重大 考验。一个“智慧的城市”,市民和企业的安全是永恒重要的重要话题。安全的概念包括:突发 自然灾害,比如地震洪水、飓风,还有其他公共安全事件,比如化学用品大面积泄露、火灾、 塌方、传染病等等。当这些威胁性事件发生时,政府应该有能力迅速了解应急事件,有效展开 救援,合理安排生产恢复;在事件发生之前,政府还应该有能力提供不同级别的预警,并且 控制事发后损失到最小。0 积分 | 89 页 | 5.09 MB | 7 月前3
电子行业:AI大模型需要什么样的硬件?-20240621-华泰证券-40页训练平台:用于训练机器人的基础模型。包含英伟达推出的“Project GR00T”人形机 器人通用模型、以及其他主流的 VLM/LLM 等生成式 AI 通用基础模型,可以在此基础 上进行感知、决策、规控等方面训练和强化学习。 2) 仿真平台:在 Omniverse 基础上打造了机器人仿真平台 Isaac SIM。在数字孪生环境中, 实现和真实环境一样的开发和测试效果,如获取真实环境中难以得到的数据,可以加快 开发流程和减少开发成本。0 积分 | 40 页 | 2.60 MB | 7 月前3
共 13 条
- 1
- 2
