积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部解决方案(181)人工智能(47)城市民生(38)能源双碳(27)研究报告(25)行业赋能(25)教育科技(19)党建政务(18)智能制造(17)医疗健康(17)

语言

全部中文(简体)(243)英语(1)

格式

全部PPT文档 PPT(254)
 
本次搜索耗时 0.021 秒,为您找到相关结果约 254 个.
  • 全部
  • 解决方案
  • 人工智能
  • 城市民生
  • 能源双碳
  • 研究报告
  • 行业赋能
  • 教育科技
  • 党建政务
  • 智能制造
  • 医疗健康
  • 全部
  • 中文(简体)
  • 英语
  • 全部
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 预训练大模型与医疗:从算法研究到应用

    预训练大模型与医疗:从算法研究到应用 1. 预训练大模型概述 2. 理解大模型的内在机理 3. 赋予模型精准性与可解释性 4. 医疗领域应用 5. 清华探索:数基生命 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn CONTENTS 预训练:从大数据到小数据 ③ 精 准 可 解 释 ④ 医 疗 应 用 用 ② 剖 析 大 模 型 ① 关 于 预 训 练 预训练大模型 (学习共性) 大数据(低成本无标注) 少量特定领域标注数据 (成本高) 微调小模型 (学习特性) ⑤ 数 基 生 命 1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练; 2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。 CHIMA 20Pag2 Tsinghua Confidential lvhairong@tsinghua.edu.cn 英文 英文电子病历后结构化 电子病历后结构化 电子病历 后结构化 A 不懂英文 B 懂英文 C 懂英文的医生 Transformer 架构:预训练的基 石 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 从 word2vec 到 Transformer 从 context-free
    10 积分 | 52 页 | 28.32 MB | 6 月前
    3
  • ppt文档 新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)

    网络成大模型训练瓶颈 ,节点内外多方案并存 证券研究报告 | 2024 年 5 月 5 日 行业研究 · 行业专题 计算机 · 人工智能 投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提升依赖于 更 大的训练数据量和模 在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议: A I 大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势; A I 大 模型需要部署在高速互联的多个 A I 芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型 梯度 的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升,模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models
    30 积分 | 24 页 | 947.01 KB | 4 月前
    3
  • ppt文档 北大:DeepSeek-R1及类强推理模型开发解读

    2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law 5 Post-Training 阶段,随着训练时计算量(来自 RL 的 Training
    10 积分 | 76 页 | 6.72 MB | 5 月前
    3
  • ppt文档 2024年汽车AI大模型TOP10分析报告(59页 PPT)

    Big-data Driven ,模型基于大规模语料训练而成; Multi-tasks Adaptive ,支持多种任务 ,包括自然 语言生成 NLG 和自然语言理解 NLU 类的任务; AI 大模型就是预训练语言模型 通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模 型 产业研究 战略规划 技术咨询 将模型在下游各种自然语言处理任 务上的小规模有标注数据进行微调 得到适配模型 预训练语言模型 从海量数据中自动学习知识 将模型在大规模无标注数据上进 行自监督训练得到预训练模型 不同特定任务 有标注训练数 据 模型预训练 模型微调 最终模型 ⼤规模⽆标注 ⽂本数据 预训练语⾔模型“预训练 + 微调”技术范 式 预 训 练 测试数据 微 调 2012 (Google. 引用 78550) Attention ( 图灵奖得主 Bengio) Model ERNIE( 百度 ) CPM( 智源 ) GLM( 洁华 ) 预训练模型 大模型 Transformer( Google. 引用 91332) Foundation 计 算 机 视 觉 AlexNet ( 图灵奖得主 Hinton) CAN (Gioodfellow
    10 积分 | 59 页 | 27.94 MB | 2 天前
    3
  • ppt文档 华为昇腾DeepSeek解决方案

    E NTS 目 录 2 1 Huawei Proprietary - Restricted Distribution 2 训练资源 • 随着 DeepSeek 提供了一种高效率训练的方法,同等 算力规模可以探索更强的模型能力 • 在竞争背景下,头部玩家仍将追逐 Scaling Law ,坚定 AI 算力的战略投资,加速探索下一代 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T token 数据集上基 于自 研 HAI-LLM 训练系统总计训练了 1394h ( 58.08 天) 性能优 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 & 互联网 硬件级优化 计算与通信优化,性能提升 30% GRPO :群体进化的智慧筛选器 自我验证机制: AI 的 " 错题本系 统 " 混合专家模型的 " 智能路由器“ 多头潜在注意力 MLA :空间压缩术 训练框架加速: 16 到 3 的量化压 缩, 通信降低 89% 推理加速:预加载,动态批处理等 模型、数据、工具链、部署全开源 蒸馏技术使能第三方模型性能 DeepSeek V3 :实现极致性能,稀疏
    0 积分 | 32 页 | 2.52 MB | 5 月前
    3
  • ppt文档 AI在保险行业的发展和应用(32页 PPT)

    Copilot ; 2023 年 Q1 ,微软系产品领航 ChatGPT 化…… sopen AI 2016 发布 Gym 强化学习平台 & Universe 训练工具包 2018.6 GPT-1 1.17 亿参数 无监督预训练 + 有监督微调 2019 GPT-2 15 亿参数 半监督语言模 型效果验证 2020 GPT-3 1750 亿参数 超大模型 聊天机器人 2023 年 Q1 GPT-4 提升性能 & 多模态 更贴近人类实际思维 Google 第一阶段:模型规模增大,融合的任务更多 2017-2022 年初 演进动力 : 训练语料 & 模型容量更大 Switch Transformer 1.6 万亿参数(人类大脑皮层参数 10 万亿) 大模型演进过程 1950 图灵《电脑会思考吗?》提出“机器思维“概念; 72 年后, 成为离图灵测试最近的机器人。 第二阶段:利用人工标注引导生成 2021 年底 - 至今 演进动力 : 从人类反馈中学习 8 ChatGPT 的技术路线选 择 海量人类积累的文本数据,进行无监督训练。 即可获得博学的文本生成模型 自回归 生成 单字接龙 9 第一阶段:模型规模增大,融合的任务更多 第二阶段:利用人工标注引导生成 ChatGPT
    10 积分 | 32 页 | 941.17 KB | 1 天前
    3
  • ppt文档 大模型时代的AI教育_思考与实践(36页 PPT)

    强化学习,环境交互,自我进化 4 、集群智能:持续研究,给道路 3 以启发 • 生命智能,混沌理论:细胞、生态、鸟群 n 两个阶段:特定任务到泛化任务 • 弱人工智能:可以完成训练过的特定的智能任务,特定 • 强人工智能:可以完成没有训练过的新智能任务,通用 n 三个能力 • 感知智能:知识表达 • 认知智能:知识处理 • 行动智能:环境交互 对 AI 技术的认知:通向 AGI 之 数字员工和人类员工共同工作 3. 以 AI Agent 为主、人工为辅 02 对 AI 教育的思考: AI 重塑就业岗位和组织 结构 n 人工智能专业 n 大专:编程基础 | 数据处理 | 模型训练 | 算法应用 | 工具使用 本科:基础知识掌握 | 编程能力 | 算法理解 | 实践应用 | 跨学科意 识 硕士:专业深化 | 研究方法 | 创新能力 | 工程实践 | 领域专精 博士:原创研究 思维能力:批判思维、独立思维、逻辑思维 2. 学习能力:终身学习,善用 AI 3. 热爱人类 n 如何培养人 1. 赋能:个性化学习,学本教育,因人育材,未来学校 学习的定位是一种思维训练,知识、写作、记忆力等只 是训练工具 终身学习的方式可能从知识搜索转向了古老的对话式学 习 2. 让人学会与 AI 共舞,尤其是生成式 AI 将成为人的必备技能 02 对 AI 教育的思考:如何培养 AI
    20 积分 | 36 页 | 2.17 MB | 1 天前
    3
  • ppt文档 DeepSeek消费电子行业大模型新型应用最佳实践分享

    研发模型结构 LEVEL 2 研发预训练模型 LEVEL 3 基于模型 SFT LEVEL 4 直接调用 大模型产业生态图 大模型产业链上的生态,根据大模型生态上不同企业的定位,分成了四个等级的企业: • 自研大模型结构的企 业 • 不用训练,直接调 用大模型 API 的企业 • 研发预训练模型的企业 • 基于自己数据 基于自己数据 SFT 做自己模型的企业 • 基于开源或者基于国内预训练模型结 合自己数据进行微调的企业 …… …… …… …… 国外头部 国内大厂 国内创业明星 国内外大模型百花 齐放 全球开源社区 DeepSeek 是“深度求索 ” 开发的一系列人工智能模型。 DeepSeek-V3 是在 14.8 万亿高质量 token 上完成预训练的一个强大的混合专家 (MoE) 语言模型,拥有 6710 亿参数(激活参数 370 亿)。作为通用大语言模型,其在 在知识类任 务(知识问答、内容生成等)领域表现出色。 ● DeepSeek-R1 是基于 DeepSeek-V3-Base 训练生成的强化推理能力模型,在数学、 代 码生成和逻辑推断等复杂推理任务上表现优异。
    10 积分 | 28 页 | 5.00 MB | 6 月前
    3
  • ppt文档 某高校智算中心解决方案(41页 PPT)

    研合作和创新的全面智算服务体系。 统一 运维 集成统一的运维管理体系 ,实现对硬 件资源、 计算平台、 软件应用及 AI 大 模型服务的高效监控、 自动化运 维 统一 服务 建立人工智能训练等科研及教学专用 平台 , 为科研人员及学生、 教师提 供 高效、 便捷的科研工具和环境 智算基础设施(计算、 网络、存储、配套) 优化校内资源配置 ,提升智算服务的内 部 效率与满意度 ,促进教学科研活动的顺 基于“开放标准、集约高效、 自主可控”的设计 原则 ,对硬件、平台、应用多厂商兼容适配 ,支 持国产化 多场景适配 训练 - 部署 - 推理一站式服务 ,可用于监视、侦察、 威胁评估、网络安全、情报分析、教育和训练等 场景 高效可靠的 AI 算力 资源按需分配 ,提升资源利用效率 推理服务可下沉边端 ,适应军事场景需求 教务、 教务、 教 学 、 教 研 、 教 管 、 教服、 校 园 、 宿 舍 、 食 堂 异构算力适配 模型管理 模型训练 模型开发 算法引擎 服务管理 服务发布 预置能力 固件管理 智能 开放 OP YTr orch 便捷 公共 算力 架构分层解耦 ,硬件、平台、应用多品牌兼容扩
    40 积分 | 41 页 | 9.91 MB | 4 月前
    3
  • ppt文档 电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

    通用人工智能 (AGI) 的创新型科技公司。 2024 年 12 月, DeepSeek-V3 发布,性能对齐海外领军闭源模型。据官方技术论文披露, V3 模型的总训练成本 为 557.6 万美元, 对比 GPT-4o 等模型的训练成本约为 1 亿美元。 2025 年 1 月, DeepSeek-R1 发布,性能对标 OpenAI-o1 正式版。在数学、代码、 自然 语言推理等任务上,性能比肩 云团队联合首发并上线基于华为云昇腾云服务 的 DeepSeekR1/V3 推理服务。 l DeepSeek 通过 MLA 和 DeepSeekMoE 实现高效的推理和低成本训练,构建 DualPipe 算法和混合精度训练优化计算与通信负载;通过 ( 分阶段 ) 强化学习实现 性能突破。 多头潜在注意力 (MLA) 通过低秩联合压缩技术,大幅削减了注意力键 (keys) 和值 (values) DualPipe 算法,通过优化计算与通信的重叠,有效减少了流水线中的空闲时间。采用 FP8 混合精 度训练技术,不仅极大地加快 了训练速度,还大幅降低了 GPU 内存的消耗。 DeepSeek-R1-Zero 通过强化学习架构创新实现突破性性能,核心技术创新体现在训 练效能优化策略、双维度评价体系、 结构化训练范式三个维度。 DeepSeek-R1 采用分阶段强化学习架构演进,包括冷启动阶段、面向推理的强化学习、拒绝采样
    0 积分 | 38 页 | 1.95 MB | 6 月前
    3
共 254 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 26
前往
页
相关搜索词
训练模型医疗算法研究应用新型智算中心网络瓶颈节点内外方案并存24PPT北大DeepSeekR1及类推理推理模型开发解读2024汽车AITOP10分析报告59华为解决解决方案保险行业保险行业发展32时代教育思考实践36消费电子电子行业最佳分享高校41系列专题重塑开源生态爆发持续推升算力需求
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩