训练 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

预训练大模型与医疗：从算法研究到应用

预训练大模型与医疗：从算法研究到应用 1. 预训练大模型概述 2. 理解大模型的内在机理 3. 赋予模型精准性与可解释性 4. 医疗领域应用 5. 清华探索：数基生命 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn CONTENTS 预训练：从大数据到小数据 ③ 精准可解释 ④ 医疗应用用 ② 剖析大模型 ① 关于预训练预训练大模型（学习共性）大数据（低成本无标注）少量特定领域标注数据（成本高）微调小模型（学习特性） ⑤ 数基生命 1.模型角度：模型参数不再是随机初始化，而是通过一些任务（如语言模型）进行预训练； 2.数据角度：将训练任务拆解成共性学习和特性学习两个步骤。 CHIMA 20Pag2 Tsinghua Confidential lvhairong@tsinghua.edu.cn 英文英文电子病历后结构化电子病历后结构化电子病历后结构化 A 不懂英文 B 懂英文 C 懂英文的医生 Transformer 架构：预训练的基石 ③ 精准可解释 ④ 医疗应用 ⑤ 数基生命 ② 剖析大模型 ① 关于预训练从 word2vec 到 Transformer 从 context-free

10 积分 | 52 页 | 28.32 MB | 9 月前
3
AI大模型人工智能数据训练考评系统建设方案（151页 WORD）

项目编号： AI 大模型人工智能数据训练考评系统建设方案目录 1. 项目背景与目标............................................................................................6 1.1 项目背景....................................... 1.1 数据管理需求.............................................................................16 2.1.2 模型训练需求.............................................................................17 2.1.3 考评需求...... 3.2.2 数据预处理模块.........................................................................38 3.2.3 模型训练模块.............................................................................41 3.2.4 考评模块......

60 积分 | 158 页 | 395.23 KB | 7 月前
3
新型智算中心：网络成大模型训练瓶颈，节点内外多方案并存（24页 PPT）

网络成大模型训练瓶颈，节点内外多方案并存证券研究报告 | 2024 年 5 月 5 日行业研究 · 行业专题计算机 · 人工智能投资评级：超配（维持评级）请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a ）模型迭代和数量增长拉动 A I 算力需求增长：从单个模型来看，模型能力持续提升依赖于更大的训练数据量和模在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议： A I 大模型的参数量和训练数据量的快速增长，对数据中心的计算、存储、网络等提出新的要求，新型智算中心是产业发展趋势； A I 大模型需要部署在高速互联的多个 A I 芯片上，数据样本和模型结构被切分到多张卡或者节点上，卡间或节点间不仅有训练数据通信，还有模型梯度的频繁传递，对智算中心的网络互联提出新的要求，建议关注宝信软件。智算中心：从集群走向超级池化 02 网络互联：节点内外多方案并存 03 投资建议及风险提示请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升，模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models

30 积分 | 24 页 | 947.01 KB | 8 月前
3
AI知识库数据处理及AI大模型训练设计方案(204页 WORD)

项目编号： AI 知识库数据处理及 AI 大模型训练设计方案目录 1. 项目概述.......................................................................................................7 1.1 项目背景............................. .46 2.4.3 数据安全与权限管理..................................................................48 3. AI 大模型训练设计方案..............................................................................51 3.1 模型选择与架构设计 ........................................58 3.2 训练数据处理......................................................................................60 3.2.1 训练集、验证集、测试集划分.....................................

60 积分 | 220 页 | 760.93 KB | 7 月前
3
金融业AI大模型智算网络研究报告

力+金融”加快算力在金融领域的创新应用，为金融业务发展提供更为精准、高效的算力支持。 AI大模型智算网络技术是算力集群的重要基础底座，是新型算力中的网络运载力，是助力大模型实现跨节点分布式训练，提升大规模训练效率的重要支撑。本文深入分析 AI 大模型技术在模型能力、结构、算力、效率等方面的技术发展趋势，提出作为底座的智算网络所面临的新问题和新挑战。围绕 AI 大模型智算网络“高性能连接、高效率术方案。结合行业业务及技术发展方向，将金融业 AI 智算网建设演进划分为打造底座、构建系统、完善生态 3 个阶段，并给出了新技术发展及创新方向，为金融机构开展 AI 大模型智算网络规划及建设提供参考。关键词：大模型训练、智算网络、负载均衡、流控技术、拥塞管理 IV 目录一、研究背景 ................................................. 1 （一）AI 大模型发展趋势及挑战 AI大模型算力变化趋势四是模型效率持续优化。随着AI大模型的规模和复杂性增加，训练效率面临严峻挑战。业界通过并行通信算法优化、模型算法优化、混合精度训练优化等技术在训练框架层、通信算法层持续提升AI模型训练的效率。随着技术的不断进步，未来必定会有更多高效训练AI模型的方法出现。 AI大模型持续加速演进，其庞大的训练任务需要大量服务器节点通过高速网络互联组成AI算力集群协同完成。但AI算力集群

10 积分 | 33 页 | 1.70 MB | 3 月前
3
智算中心暨电力大模型创新平台解决方案（51页PPT)

典型案例 CONTENTS 加入星球获取更多更全的数智化解决方案智算中心是以 GPU 、 AI 加速卡 [1] 等智能算力为核心、集约化建设的新型算力基础设施，提供软硬件全栈环境，主要承载模型训练以及适合中心推理、多媒体渲染等业务，支撑各行业数智化转型升级具有较强的普适性，可服务于 toB/toC 适合有智能化转型需求行业，如自动驾驶、智慧城市， toB 为主专用性强，主要面向地球物理、分子力专用性强，主要面向地球物理、分子力学等基础学科以及军工研究注 [1] ：行业中 GPU 是一个较为泛化的概念，从功能角度划分， GPU 特指具备图形渲染能力的硬件， AI 加速卡特指用于 AI 推理或训练的硬件。本材料主要针对 AI 加速卡进行分析 TaaS 是指 TensorFlow asa Service ，深度学习平台及行业大数据解决方案智算中心定义建设目的应用领域主要特征智算中心典型需求场景智慧电网智慧油田遥感测绘新闻、视频、购物 App 内容推荐金融、通信、物流客服风险分析精准营销 AI 主要应用场景多媒体渲染模型训练智慧医疗自动驾驶智慧运营科研应用 AI+ 视频元宇宙智能客服推荐智慧金融智慧能源第 5 页 l 场景：利用无人机搭载高清摄像头采集输电线路影像，

10 积分 | 51 页 | 4.74 MB | 3 月前
3
DeepSeek智慧政务数字政府AI大模型微调设计方案

....58 3.3.2 批量大小与训练步数优化..........................................................60 3.3.3 正则化与 dropout 策略.............................................................62 4. 模型训练与验证................. .........................................................................64 4.1 训练环境配置......................................................................................66 4.1.1 硬件资源配置方案......... 69 4.2 训练过程监控......................................................................................71 4.2.1 训练损失与评价指标跟踪..........................................................73 4.2.2 训练过程中的异常检测.

0 积分 | 167 页 | 464.82 KB | 8 月前
3
财务数字化转型基于AI大模型的流水分类系统设计方案【175页WORD】

2.2 数据处理模块.............................................................................29 3.2.3 模型训练模块.............................................................................32 3.2.4 分类模块...... .....................................83 5.3 训练策略.............................................................................................85 5.3.1 训练数据划分.......................................... 分类模型训练....................................................................................101 6.2.1 模型评估指标...........................................................................103 6.2.2 训练过程监控.

10 积分 | 185 页 | 411.15 KB | 3 月前
3
未来网络发展大会：2025东数西算算网协同调度业务场景白皮书

3 东数西存场景................................................................................ 35 4.4 协同训练场景................................................................................ 44 4.5 协同推理场景.. 本文的编制，是基于国家东数西算“安全新总线”项目所开展的算网协同工程实践。深入分析“东数西算” 工程中的总分调度、分总调度、混合调度的总体调度架构，东数西算、数据快递、东数西存、协同推理、协同训练和西训东推等核心应用场景，以及边云一体、云 3 算分离和边缘共享等新型生态模式。同时，通过对典型应用场景的详细的业务流程分析，力求为产业参与者提供可操作、可复制的交付参考与决策依据，加速复用，则可保留。这种灵活的处理方式旨在平衡资源利用与数据留存的多元需求。 29 图 ● 4-10 东数西算-应用删除与数据清理 4.2 数据快递场景 4.2.1 场景描述在智算大模型训练、超算科学计算与工程仿真等前沿领域，海量数据集是驱动创新的关键要素。传统的数据传输方式，如机械化运载海量硬盘甚至整个存储机柜，在效率、安全性和成本方面面临诸多挑战。例如，运输过程易受物理环境影响，数据丢失或损坏风险高；运

20 积分 | 118 页 | 8.35 MB | 3 月前
3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

Deliberative Alignment ➢ 补充拓展：DeepSeek-V3 解读 3 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ OpenAI o1 开启后训练 Post-Training 时代下的RL新范式：后训练扩展律 Post-Training Scaling Law ➢ DS-R1 独立发现了一些通往o1路上的核心理念，并且效果还好到受到了OpenAI 的认可 ➢ 如何通过有效的 ➢ DeepSeek R1-Zero 和 R1的出现再次证明了强化学习的潜力所在： ➢ R1-Zero 从基础模型开始构建，完全依赖强化学习，而不使用人类专家标注的监督微调（SFT）； ➢ 随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力； ➢ 随着推理路径增长，模型表现出自我修复和启发式搜索的能力； 4 DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ 得益于强回顾：Pre-Training Scaling Law ➢ Pre-Training Scaling Laws: 预训练模型上广泛观察到的现象，协调了计算量C、模型参数量N和数据大小D之间的关系 6 回顾：Post-Training Scaling Law ➢ Post-Training 阶段，随着训练时计算量（来自RL的Training阶段）和 Test-Time 计算量（例如Test-Time

10 积分 | 76 页 | 8.39 MB | 9 月前
3

共 979 条前往

页

分类

语言

格式