训练 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

预训练大模型与医疗：从算法研究到应用

预训练大模型与医疗：从算法研究到应用 1. 预训练大模型概述 2. 理解大模型的内在机理 3. 赋予模型精准性与可解释性 4. 医疗领域应用 5. 清华探索：数基生命 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn CONTENTS 预训练：从大数据到小数据 ③ 精准可解释 ④ 医疗应用用 ② 剖析大模型 ① 关于预训练预训练大模型（学习共性）大数据（低成本无标注）少量特定领域标注数据（成本高）微调小模型（学习特性） ⑤ 数基生命 1.模型角度：模型参数不再是随机初始化，而是通过一些任务（如语言模型）进行预训练； 2.数据角度：将训练任务拆解成共性学习和特性学习两个步骤。 CHIMA 20Pag2 Tsinghua Confidential lvhairong@tsinghua.edu.cn 英文英文电子病历后结构化电子病历后结构化电子病历后结构化 A 不懂英文 B 懂英文 C 懂英文的医生 Transformer 架构：预训练的基石 ③ 精准可解释 ④ 医疗应用 ⑤ 数基生命 ② 剖析大模型 ① 关于预训练从 word2vec 到 Transformer 从 context-free

10 积分 | 52 页 | 28.32 MB | 7 月前
3
新型智算中心：网络成大模型训练瓶颈，节点内外多方案并存（24页 PPT）

网络成大模型训练瓶颈，节点内外多方案并存证券研究报告 | 2024 年 5 月 5 日行业研究 · 行业专题计算机 · 人工智能投资评级：超配（维持评级）请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a ）模型迭代和数量增长拉动 A I 算力需求增长：从单个模型来看，模型能力持续提升依赖于更大的训练数据量和模在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议： A I 大模型的参数量和训练数据量的快速增长，对数据中心的计算、存储、网络等提出新的要求，新型智算中心是产业发展趋势； A I 大模型需要部署在高速互联的多个 A I 芯片上，数据样本和模型结构被切分到多张卡或者节点上，卡间或节点间不仅有训练数据通信，还有模型梯度的频繁传递，对智算中心的网络互联提出新的要求，建议关注宝信软件。智算中心：从集群走向超级池化 02 网络互联：节点内外多方案并存 03 投资建议及风险提示请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升，模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models

30 积分 | 24 页 | 947.01 KB | 6 月前
3
智算中心暨电力大模型创新平台解决方案（51页PPT)

典型案例 CONTENTS 加入星球获取更多更全的数智化解决方案智算中心是以 GPU 、 AI 加速卡 [1] 等智能算力为核心、集约化建设的新型算力基础设施，提供软硬件全栈环境，主要承载模型训练以及适合中心推理、多媒体渲染等业务，支撑各行业数智化转型升级具有较强的普适性，可服务于 toB/toC 适合有智能化转型需求行业，如自动驾驶、智慧城市， toB 为主专用性强，主要面向地球物理、分子力专用性强，主要面向地球物理、分子力学等基础学科以及军工研究注 [1] ：行业中 GPU 是一个较为泛化的概念，从功能角度划分， GPU 特指具备图形渲染能力的硬件， AI 加速卡特指用于 AI 推理或训练的硬件。本材料主要针对 AI 加速卡进行分析 TaaS 是指 TensorFlow asa Service ，深度学习平台及行业大数据解决方案智算中心定义建设目的应用领域主要特征智算中心典型需求场景智慧电网智慧油田遥感测绘新闻、视频、购物 App 内容推荐金融、通信、物流客服风险分析精准营销 AI 主要应用场景多媒体渲染模型训练智慧医疗自动驾驶智慧运营科研应用 AI+ 视频元宇宙智能客服推荐智慧金融智慧能源第 5 页 l 场景：利用无人机搭载高清摄像头采集输电线路影像，

10 积分 | 51 页 | 4.74 MB | 1 月前
3
北大：DeepSeek-R1及类强推理模型开发解读

2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式：后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念，并且效果还好到受到了 OpenAI 的认可 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在： R1-Zero 从基础模型开始构建，完全依赖强化学习，而不使用人类专家标注的监督微调（ SFT ）；随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力；随着推理路径增长，模型表现出自我修复和启发式搜索的能力； DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Scaling Laws: 预训练模型上广泛观察到的现象，协调了计算量 C 、模型参数量 N 和数据大小 D 之间的关系回顾： Pre-Training Scaling Law 5 Post-Training 阶段，随着训练时计算量（来自 RL 的 Training

10 积分 | 76 页 | 6.72 MB | 7 月前
3
2024年汽车AI大模型TOP10分析报告（59页 PPT）

Big-data Driven ，模型基于大规模语料训练而成； Multi-tasks Adaptive ，支持多种任务，包括自然语言生成 NLG 和自然语言理解 NLU 类的任务； AI 大模型就是预训练语言模型通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型产业研究战略规划技术咨询将模型在下游各种自然语言处理任务上的小规模有标注数据进行微调得到适配模型预训练语言模型从海量数据中自动学习知识将模型在大规模无标注数据上进行自监督训练得到预训练模型不同特定任务有标注训练数据模型预训练模型微调最终模型⼤规模⽆标注⽂本数据预训练语⾔模型“预训练 + 微调”技术范式预训练测试数据微调 2012 (Google. 引用 78550) Attention ( 图灵奖得主 Bengio) Model ERNIE( 百度 ) CPM( 智源 ) GLM( 洁华 ) 预训练模型大模型 Transformer( Google. 引用 91332) Foundation 计算机视觉 AlexNet ( 图灵奖得主 Hinton) CAN (Gioodfellow

10 积分 | 59 页 | 27.94 MB | 1 月前
3
华为昇腾DeepSeek解决方案

E NTS 目录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法，同等算力规模可以探索更强的模型能力 • 在竞争背景下，头部玩家仍将追逐 Scaling Law ，坚定 AI 算力的战略投资，加速探索下一代模型，总参数量 671B ，激活参数量 37B ，采用 2048 张 H800 （节点内 NVLink ，节点间 IB ，非超节点架构）在 14.8T token 数据集上基于自研 HAI-LLM 训练系统总计训练了 1394h （ 58.08 天）性能优数学、科学和代码等领域领先业界，成为业界公认的 LLM 的领先模型来源： DeepSeek 模型测试数据 & 互联网硬件级优化计算与通信优化，性能提升 30% GRPO ：群体进化的智慧筛选器自我验证机制： AI 的 " 错题本系统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA ：空间压缩术训练框架加速： 16 到 3 的量化压缩，通信降低 89% 推理加速：预加载，动态批处理等模型、数据、工具链、部署全开源蒸馏技术使能第三方模型性能 DeepSeek V3 ：实现极致性能，稀疏

0 积分 | 32 页 | 2.52 MB | 7 月前
3
AI在保险行业的发展和应用（32页 PPT）

Copilot ； 2023 年 Q1 ，微软系产品领航 ChatGPT 化…… sopen AI 2016 发布 Gym 强化学习平台 & Universe 训练工具包 2018.6 GPT-1 1.17 亿参数无监督预训练 + 有监督微调 2019 GPT-2 15 亿参数半监督语言模型效果验证 2020 GPT-3 1750 亿参数超大模型聊天机器人 2023 年 Q1 GPT-4 提升性能 & 多模态更贴近人类实际思维 Google 第一阶段：模型规模增大，融合的任务更多 2017-2022 年初演进动力 : 训练语料 & 模型容量更大 Switch Transformer 1.6 万亿参数（人类大脑皮层参数 10 万亿）大模型演进过程 1950 图灵《电脑会思考吗？》提出“机器思维“概念； 72 年后，成为离图灵测试最近的机器人。第二阶段：利用人工标注引导生成 2021 年底 - 至今演进动力 : 从人类反馈中学习 8 ChatGPT 的技术路线选择海量人类积累的文本数据，进行无监督训练。即可获得博学的文本生成模型自回归生成单字接龙 9 第一阶段：模型规模增大，融合的任务更多第二阶段：利用人工标注引导生成 ChatGPT

10 积分 | 32 页 | 941.17 KB | 1 月前
3
大模型时代的AI教育_思考与实践（36页 PPT）

强化学习，环境交互，自我进化 4 、集群智能：持续研究，给道路 3 以启发 • 生命智能，混沌理论：细胞、生态、鸟群 n 两个阶段：特定任务到泛化任务 • 弱人工智能：可以完成训练过的特定的智能任务，特定 • 强人工智能：可以完成没有训练过的新智能任务，通用 n 三个能力 • 感知智能：知识表达 • 认知智能：知识处理 • 行动智能：环境交互对 AI 技术的认知：通向 AGI 之数字员工和人类员工共同工作 3. 以 AI Agent 为主、人工为辅 02 对 AI 教育的思考： AI 重塑就业岗位和组织结构 n 人工智能专业 n 大专：编程基础 | 数据处理 | 模型训练 | 算法应用 | 工具使用本科：基础知识掌握 | 编程能力 | 算法理解 | 实践应用 | 跨学科意识硕士：专业深化 | 研究方法 | 创新能力 | 工程实践 | 领域专精博士：原创研究思维能力：批判思维、独立思维、逻辑思维 2. 学习能力：终身学习，善用 AI 3. 热爱人类 n 如何培养人 1. 赋能：个性化学习，学本教育，因人育材，未来学校学习的定位是一种思维训练，知识、写作、记忆力等只是训练工具终身学习的方式可能从知识搜索转向了古老的对话式学习 2. 让人学会与 AI 共舞，尤其是生成式 AI 将成为人的必备技能 02 对 AI 教育的思考：如何培养 AI

20 积分 | 36 页 | 2.17 MB | 1 月前
3
DeepSeek消费电子行业大模型新型应用最佳实践分享

研发模型结构 LEVEL 2 研发预训练模型 LEVEL 3 基于模型 SFT LEVEL 4 直接调用大模型产业生态图大模型产业链上的生态，根据大模型生态上不同企业的定位，分成了四个等级的企业： • 自研大模型结构的企业 • 不用训练，直接调用大模型 API 的企业 • 研发预训练模型的企业 • 基于自己数据基于自己数据 SFT 做自己模型的企业 • 基于开源或者基于国内预训练模型结合自己数据进行微调的企业 …… …… …… …… 国外头部国内大厂国内创业明星国内外大模型百花齐放全球开源社区 DeepSeek 是“深度求索 ” 开发的一系列人工智能模型。 DeepSeek-V3 是在 14.8 万亿高质量 token 上完成预训练的一个强大的混合专家 (MoE) 语言模型，拥有 6710 亿参数（激活参数 370 亿）。作为通用大语言模型，其在在知识类任务（知识问答、内容生成等）领域表现出色。 ● DeepSeek-R1 是基于 DeepSeek-V3-Base 训练生成的强化推理能力模型，在数学、代码生成和逻辑推断等复杂推理任务上表现优异。

10 积分 | 28 页 | 5.00 MB | 7 月前
3
某高校智算中心解决方案（41页 PPT）

研合作和创新的全面智算服务体系。统一运维集成统一的运维管理体系，实现对硬件资源、计算平台、软件应用及 AI 大模型服务的高效监控、自动化运维统一服务建立人工智能训练等科研及教学专用平台，为科研人员及学生、教师提供高效、便捷的科研工具和环境智算基础设施（计算、网络、存储、配套）优化校内资源配置，提升智算服务的内部效率与满意度，促进教学科研活动的顺基于“开放标准、集约高效、自主可控”的设计原则，对硬件、平台、应用多厂商兼容适配，支持国产化多场景适配训练 - 部署 - 推理一站式服务，可用于监视、侦察、威胁评估、网络安全、情报分析、教育和训练等场景高效可靠的 AI 算力资源按需分配，提升资源利用效率推理服务可下沉边端，适应军事场景需求教务、教务、教学、教研、教管、教服、校园、宿舍、食堂异构算力适配模型管理模型训练模型开发算法引擎服务管理服务发布预置能力固件管理智能开放 OP YTr orch 便捷公共算力架构分层解耦，硬件、平台、应用多品牌兼容扩

40 积分 | 41 页 | 9.91 MB | 6 月前
3

共 274 条前往

页

分类

语言

格式

预训练大模型与医疗：从算法研究到应用

新型智算中心：网络成大模型训练瓶颈，节点内外多方案并存（24页 PPT）

智算中心暨电力大模型创新平台解决方案（51页PPT)

北大：DeepSeek-R1及类强推理模型开发解读

2024年汽车AI大模型TOP10分析报告（59页 PPT）

华为昇腾DeepSeek解决方案

AI在保险行业的发展和应用（32页 PPT）

大模型时代的AI教育_思考与实践（36页 PPT）

DeepSeek消费电子行业大模型新型应用最佳实践分享

某高校智算中心解决方案（41页 PPT）