预训练大模型与医疗:从算法研究到应用预训练大模型与医疗:从算法研究到应用 1. 预训练大模型概述 2. 理解大模型的内在机理 3. 赋予模型精准性与可解释性 4. 医疗领域应用 5. 清华探索:数基生命 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn CONTENTS 预训练:从大数据到小数据 ③ 精 准 可 解 释 ④ 医 疗 应 用 用 ② 剖 析 大 模 型 ① 关 于 预 训 练 预训练大模型 (学习共性) 大数据(低成本无标注) 少量特定领域标注数据 (成本高) 微调小模型 (学习特性) ⑤ 数 基 生 命 1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练; 2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。 CHIMA 20Pag2 Tsinghua Confidential lvhairong@tsinghua.edu.cn 英文 英文电子病历后结构化 电子病历后结构化 电子病历 后结构化 A 不懂英文 B 懂英文 C 懂英文的医生 Transformer 架构:预训练的基 石 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 从 word2vec 到 Transformer 从 context-free10 积分 | 52 页 | 28.32 MB | 6 月前3
AI大模型人工智能数据训练考评系统建设方案(151页 WORD)项目编号: AI 大模型人工智能数据训练考评系统 建 设 方 案 目 录 1. 项目背景与目标............................................................................................6 1.1 项目背景....................................... 1.1 数据管理需求.............................................................................16 2.1.2 模型训练需求.............................................................................17 2.1.3 考评需求...... 3.2.2 数据预处理模块.........................................................................38 3.2.3 模型训练模块.............................................................................41 3.2.4 考评模块......60 积分 | 158 页 | 395.23 KB | 4 月前3
新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)网络成大模型训练瓶颈 ,节点内外多方案并存 证券研究报告 | 2024 年 5 月 5 日 行业研究 · 行业专题 计算机 · 人工智能 投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提升依赖于 更 大的训练数据量和模 在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议: A I 大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势; A I 大 模型需要部署在高速互联的多个 A I 芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型 梯度 的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升,模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models30 积分 | 24 页 | 947.01 KB | 4 月前3
AI知识库数据处理及AI大模型训练设计方案(204页 WORD)项目编号: AI 知识库数据处理及 AI 大模型训练 设 计 方 案 目 录 1. 项目概述.......................................................................................................7 1.1 项目背景............................. .46 2.4.3 数据安全与权限管理..................................................................48 3. AI 大模型训练设计方案..............................................................................51 3.1 模型选择与架构设计 ........................................58 3.2 训练数据处理......................................................................................60 3.2.1 训练集、验证集、测试集划分.....................................60 积分 | 220 页 | 760.93 KB | 4 月前3
金融业AI大模型智算网络研究报告力+金融”加快算力在金融领域的创新应用,为金融业务发展提 供更为精准、高效的算力支持。 AI大模型智算网络技术是算力集群的重要基础底座,是新型 算力中的网络运载力,是助力大模型实现跨节点分布式训练,提 升大规模训练效率的重要支撑。 本文深入分析 AI 大模型技术在模型能力、结构、算力、效 率等方面的技术发展趋势,提出作为底座的智算网络所面临的新 问题和新挑战。围绕 AI 大模型智算网络“高性能连接、高效率 术方案。结合行业业务及技术发展方向,将金融业 AI 智算网建 设演进划分为打造底座、构建系统、完善生态 3 个阶段,并给出 了新技术发展及创新方向,为金融机构开展 AI 大模型智算网络 规划及建设提供参考。 关键词:大模型训练、智算网络、负载均衡、流控技术、拥 塞管理 IV 目 录 一、研究背景 ................................................. 1 (一)AI 大模型发展趋势及挑战 AI大模型算力变化趋势 四是模型效率持续优化。随着AI大模型的规模和复杂性增加, 训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法 优化、混合精度训练优化等技术在训练框架层、通信算法层持续 提升AI模型训练的效率。随着技术的不断进步,未来必定会有更 多高效训练AI模型的方法出现。 AI大模型持续加速演进,其庞大的训练任务需要大量服务器 节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群10 积分 | 33 页 | 1.70 MB | 20 小时前3
DeepSeek智慧政务数字政府AI大模型微调设计方案....58 3.3.2 批量大小与训练步数优化..........................................................60 3.3.3 正则化与 dropout 策略.............................................................62 4. 模型训练与验证................. .........................................................................64 4.1 训练环境配置......................................................................................66 4.1.1 硬件资源配置方案......... 69 4.2 训练过程监控......................................................................................71 4.2.1 训练损失与评价指标跟踪..........................................................73 4.2.2 训练过程中的异常检测.0 积分 | 167 页 | 464.82 KB | 5 月前3
财务数字化转型基于AI大模型的流水分类系统设计方案【175页WORD】2.2 数据处理模块.............................................................................29 3.2.3 模型训练模块.............................................................................32 3.2.4 分类模块...... .....................................83 5.3 训练策略.............................................................................................85 5.3.1 训练数据划分.......................................... 分类模型训练....................................................................................101 6.2.1 模型评估指标...........................................................................103 6.2.2 训练过程监控.10 积分 | 185 页 | 411.15 KB | 20 小时前3
未来网络发展大会:2025东数西算算网协同调度业务场景白皮书3 东数西存场景................................................................................ 35 4.4 协同训练场景................................................................................ 44 4.5 协同推理场景.. 本文的编制,是基于国家东数西算“安全新总线”项目所开展的 算网协同工程实践。深入分析“东数西算” 工程中的总分调度、分 总调度、混合调度的总体调度架构,东数西算、数据快递、东数西存、 协同推理、协同训练和西训东推等核心应用场景,以及边云一体、云 3 算分离和边缘共享等新型生态模式。同时,通过对典型应用场景的详 细的业务流程分析,力求为产业参与者提供可操作、可复制的交付参 考与决策依据,加速 复用,则可保留。这种灵活的处理方式旨在平衡资源利用与数据留存 的多元需求。 29 图 ● 4-10 东数西算-应用删除与数据清理 4.2 数据快递场景 4.2.1 场景描述 在智算大模型训练、超算科学计算与工程仿真等前沿领域,海量 数据集是驱动创新的关键要素。传统的数据传输方式,如机械化运载 海量硬盘甚至整个存储机柜,在效率、安全性和成本方面面临诸多挑 战。例如,运输过程易受物理环境影响,数据丢失或损坏风险高;运20 积分 | 118 页 | 8.35 MB | 20 小时前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告Deliberative Alignment ➢ 补充拓展:DeepSeek-V3 解读 3 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在: ➢ R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调(SFT); ➢ 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; ➢ 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强 回顾:Pre-Training Scaling Law ➢ Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量C、模 型参数量N和数据大小D之间的关系 6 回顾:Post-Training Scaling Law ➢ Post-Training 阶段,随着训练时计算量(来自RL的Training阶段)和 Test-Time 计算量 (例如Test-Time10 积分 | 76 页 | 8.39 MB | 5 月前3
北大:DeepSeek-R1及类强推理模型开发解读2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law 5 Post-Training 阶段,随着训练时计算量(来自 RL 的 Training10 积分 | 76 页 | 6.72 MB | 5 月前3
共 753 条
- 1
- 2
- 3
- 4
- 5
- 6
- 76
