积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部研究报告(191)企业案例(64)技术趋势(37)人工智能(34)制造业(18)能源双碳(13)区域研究(12)教育医疗(8)低空经济(5)

语言

全部中文(简体)(181)

格式

全部PDF文档 PDF(156)PPT文档 PPT(25)DOC文档 DOC(10)
 
本次搜索耗时 0.036 秒,为您找到相关结果约 191 个.
  • 全部
  • 研究报告
  • 企业案例
  • 技术趋势
  • 人工智能
  • 制造业
  • 能源双碳
  • 区域研究
  • 教育医疗
  • 低空经济
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • DOC文档 DOC
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 新型智算中心:网络成大模型训练瓶颈 ,节点内外多方案并存(24页 PPT)

    网络成大模型训练瓶颈 ,节点内外多方案并存 证券研究报告 | 2024 年 5 月 5 日 行业研究 · 行业专题 计算机 · 人工智能 投资评级:超配(维持评级) 请务必阅读正文之后的免责声明及其项下所有内容 • A I 大模型训练和推理拉动智能算力需求快速增长。 a )模型迭代和数量增长拉动 A I 算力需求增长:从单个模型来看,模型能力持续提升依赖于 更 大的训练数据量和模 在网络性能、集群规模、运维等方面具备显著优势。 • 投资建议: A I 大模型的参数量和训练数据量的快速增长,对数据中心的计算、存储、网络等提出新的要求,新型智算中心是产业发展趋势; A I 大 模型需要部署在高速互联的多个 A I 芯片上,数据样本和模型结构被切分到多张卡或者节点上,卡间或节点间不仅有训练数据通信,还有模型 梯度 的频繁传递,对智算中心的网络互联提出新的要求,建议关注宝信软件。 智算 中心: 从集群走 向超级池 化 02 网络互联: 节点 内外多方案并 存 03 投资建议及风险提示 请务必阅读正文之后的免责声明及其项下所有内容 • 训练数据量 + 参数量大幅提升,模型能力“涌现” 。根据 2022 年谷歌、斯坦福大学和 Deepmind 联合发表的《 Emergent Abilities of Large Language Models
    30 积分 | 24 页 | 947.01 KB | 4 月前
    3
  • word文档 财务数字化转型基于AI大模型的流水分类系统设计方案【175页WORD】

    2.2 数据处理模块.............................................................................29 3.2.3 模型训练模块.............................................................................32 3.2.4 分类模块...... .....................................83 5.3 训练策略.............................................................................................85 5.3.1 训练数据划分.......................................... 分类模型训练....................................................................................101 6.2.1 模型评估指标...........................................................................103 6.2.2 训练过程监控.
    10 积分 | 185 页 | 411.15 KB | 1 天前
    3
  • ppt文档 北大:DeepSeek-R1及类强推理模型开发解读

    2 OpenAIo1 开启后训练 Post-Training 时代下的 RL 新范式:后训练扩展律 Post-Training Scaling Law DS-R1 独立发现了一些通往 o1 路上的核心理念,并且效果还好到受到了 OpenAI 的认可 DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在: R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标注的监督微调( SFT ); 随着训练步骤增加,模型逐渐展现出长文本推理及长链推理能力; 随着推理路径增长,模型表现出自我修复和启发式搜索的能力; DeepSeek-R1 开创 RL 加持下强推理慢思考范式新边界 Scaling Laws: 预训练模型上广泛观察到的现象,协调了计算量 C 、 模 型参数量 N 和数据大小 D 之间的关系 回顾: Pre-Training Scaling Law 5 Post-Training 阶段,随着训练时计算量(来自 RL 的 Training
    10 积分 | 76 页 | 6.72 MB | 5 月前
    3
  • pdf文档 2024年汽车AI大模型TOP10分析报告

    战略规划 技术咨询 2 预训练语言模型 预 训 练 微 调 将模型在大规模无标注数据上进 行自监督训练得到预训练模型 将模型在下游各种自然语言处理任 务上的小规模有标注数据进行微调 得到适配模型 AI大模型就是预训练语言模型 通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型 预训练语⾔模型“预训练 + 微调”技术范式 ⼤规模⽆标注 ⽂本数据 模型预训练 不同特定任务 有标注训练数据 有标注训练数据 模型微调 测试数据 最终模型 从海量数据中自动学习知识 Ø Big-data Driven,模型基于大规模语料训练而成; Ø Multi-tasks Adaptive,支持多种任务,包括自然 语言生成NLG和自然语言理解NLU类的任务; Ø Few-shot (Zero-shot),在少甚至无标注样本的 条件下支持推理(自监督学习)。 产业研究 战略规划 技术咨询 3 3 大模型发展历程 众多预训练模型相继涌现,OpenAI 以 GPT2、GPT-3、ChatGPT 等系列模型为代表,持续引领大模型时代的浪潮 Ø 2017 年,Google提出Transformer 框架在机器翻译中取得显著进步,其分布式学习和强大编码能力受到广泛关注。 Ø 2018 年 Google 和 OpenAI 基于Transformer 提出了预训练语言模型 BERT 和 GPT,显著提高了NLP
    10 积分 | 59 页 | 28.41 MB | 5 月前
    3
  • word文档 企业数字化转型AI大模型数字底座项目设计方案

    ...................................................................................39 3.4.1 大模型选择与训练................................................................................................... .......................................................................................59 5. 模型开发与训练................................................................................................... .....66 5.3 训练环境搭建............................................................................................................................................................68 5.4 模型训练与验证..........
    0 积分 | 127 页 | 343.50 KB | 5 月前
    3
  • pdf文档 电子行业AI+系列专题:边缘AI,大语言模型的终端部署,推动新一轮终端需求-20230531-国信证券-25页

    大模型参数量级飞涨,相应训练集需同比提升。李开复定义 AI 2.0 时代的 特征是通过海量数据,无需标注自监督学习,训练一个基础大模型,并在各 领域将其专业化。据相关论文,当模型的参数量大于某阈值,会展现出类似 推理、无监督学习等未曾出现的能力,这种现象被称为“涌现”,因此目前 大语言模型参数均在十亿量级以上。同时,Deepmind 研究表明,模型参数的 上涨需要配合等比例上升的优质数据集来达到最佳训练效果。因此,大模型 参数在十亿级以上发展并受限于优质数据集的增速是 AI 发展的必然趋势。 大模型增长挑战芯片算力和内存,无法实现完整端侧部署。大模型训练和推 理的三大瓶颈是算力、显存和通信,根据我们的测算,算力方面 GPT-3 训练 所需算力为 121528 TFLOPS,若 30 天内完成,需要 1558 颗 A100。内存角度, GPT-3 训练至少需要 3.2T 内存,至少 44 张 A100,推理任务则主要受显存限 制,需要 4 至 8 张 百亿参数大模型具备涌现能力,训练数据需等比例提升 .............................. 5 大模型的参数下限:AI2.0 时代,基础大模型参数指数级增长 ................................ 5 大模型的参数上限:参数的增加需要同等量级的训练集增加 .................................. 6 大模型训练对硬件的挑战:算力、内存和通信
    0 积分 | 25 页 | 2.20 MB | 6 月前
    3
  • pdf文档 中国移动:云智算技术白皮书(2025)

    .....................................13 2.5.2 训练框架 .....................................14 2.5.2.1 训练并行优化 .......................... 14 2.5.2.2 低精度训练 ............................ 14 2.5.2.3 故障容错 . 计算进入深水区:在算力方面,十万卡级超大规模 GPU 集群的异构算力需求已远 超现有资源池化的调度能力;在网络层面,AI 训练中 TB 级参数同步对时延极为 敏感,传统网络架构难以满足低时延、高吞吐的传输要求;在服务形态上,单一 的 IaaS/PaaS 服务无法全面覆盖数据处理、模型训练、推理部署等 AI 开发全链 路的需求,迫切需要构建适应智能时代的云计算新范式。 1.2 云智算的内涵 云智算 IaaS、PaaS、SaaS 三层拓展为 AI IaaS、AI PaaS、MaaS、AI SaaS 四层。一是 AI IaaS,即算网一 体化供给的基础设施服务,通过泛在网络推动东中西、云边端、通智超量、训练 推理等多类型算力“联算成网”,依托算网统一编排的算网大脑,实现算力的灵 活调度、即取即用。二是 AI PaaS,即面向各类 AI 开发者的工具平台服务,提 供覆盖 AI 研发、运营、测试等全环节的工具链和开发环境,显著提升全社会
    0 积分 | 30 页 | 716.31 KB | 5 月前
    3
  • pdf文档 从英伟达GTC看AI工厂的投资机会-华泰证券

    及(3)海康、 大华、商汤等相关公司在垂直行业布局。 芯片:新版 H100 提高训练速度 10 倍,国内在技术上仍有较大提升空间 目前,主流的 AI 训练一般采用英伟达的 A100 或 H100 芯片,这次大会上, 公司推出针对大模型优化过的新训练芯片 H100 NVL,和过去的 A100 相比, 训练速度提高 10 倍,成本降低一个数量级。目前,AI 推理上,一般采用 2018 年发布的 L40 推理性能是 T4 的 10 倍。受美国出口管制限制,中国 目前只能采购实测性能比 A100 低 1/3 的 A800,因此训练同一个体量的模 型,中国在成本及速度上存在 10 倍以上的差距。目前国内 AI 芯片厂商在推 理芯片已有一定市占率,但受 CUDA 等软件影响,训练芯片上差距仍较大。 从 GPU 到 AI 工厂,AI 计算会为整个服务器产业链带来增长 这次会上,英伟达重点展示了如何从单颗 语言模型)和生成式 AI,客户使用其专有数据进行训练,用于处理特定领域的任务,包括语 言、视觉和生物学模型制作服务。NVIDIA NeMo 用于构建定制的语言/文本转文本生成式模 型,Picasso 是一项视觉语言模型制作服务,BioNeMo 提供用于药物研发的生成式 AI 模型。 我们认为,ChatGPT 等应用引发对 AI 算力的需求,加速计算和生成式 AI 推理将带动训练 /推理芯片需求的爆发。
    0 积分 | 16 页 | 1.37 MB | 5 月前
    3
  • pdf文档 工业大模型应用报告

    .................................................................................. 11 3.1. 模式一:预训练工业大模型 ............................................................................................. Model)。我们认为,大模型主 要具备以下三大特征: 参数规模大:大模型的参数规模远大于传统深度学习模型。大模型发展呈现“规模 定律”(Scaling Law)特征,即:模型的性能与模型的规模、数据集大小和训练用的计 算量之间存在幂律关系,通俗而言就是“大力出奇迹”。不过“大”并没有一个绝对的标 准,而是一个相对概念。传统模型参数量通常在数万至数亿之间,大模型的参数量则 至少在亿级以上,并已发展到过万亿级的规模。如 1750 亿,GPT-4 非官方估计约达 1.8 万亿。 泛化能力强:大模型能够有效处理多种未见过的数据或新任务。基于注意力机制 (Attention),通过在大规模、多样化的无标注数据集上进行预训练,大模型能够学 习掌握丰富的通用知识和方法,从而在广泛的场景和任务中使用,例如文本生成、自 然语言理解、翻译、数学推导、逻辑推理和多轮对话等。大模型不需要、或者仅需少 量特定任务的数据样本,即可显著提高在新任务上的表现能力。如
    0 积分 | 34 页 | 4.98 MB | 5 月前
    3
  • pdf文档 2024年中国人工智能产业研究报告

    着DeepSeek等开源模型推动推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望 逐步提高。 3) 工具生态日益完善:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬 件优势,加速了大模型的训练与部署,有效支撑了产业侧大模型的应用建设。 4)商业化以项目制与订阅制为主流:政企侧客户以项目制为主,C端产品多采用“免费+订阅 制”的模式。新兴商业模式为按应用效果或功能点收费,创新的模式可在降低客户采购决策成 络结构,目前 CNN 、RNN 不断演进成熟, 以“小模型”架构被广泛应用。 • 2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构Transformer架 构,奠定大模型预训练算法架构的基础; • 2018年,OpenAI发布了GPT-1大模型;Google发布BERT大模型; • 之后GPT模型持续演进,2022年11月,GPT3.5的ChatGPT面世,引爆互联网,大 需求 各家积极发展结合强化学习、思维链的“后训练“,推出深度推理模型。在效率优 化方面,稀疏注意力、线性注意力等相关机制可大幅降低内存和计算成本。 正朝着处理更长序列、更大规模数据和实时应用场景的方向发展,新型高效注意力 算法和硬件协同优化可能成为重要突破口。 扩散模型在视觉效果和多样性上表现优异,但计算成本较 高;GAN可能存在训练不稳定和模式崩溃的问题,但在一 些任务中能实现较快的生成速度。已有研究在尝试融合两
    0 积分 | 51 页 | 3.35 MB | 5 月前
    3
共 191 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 20
前往
页
相关搜索词
新型智算中心网络模型训练瓶颈节点内外方案并存24PPT财务数字数字化转型基于AI流水分类系统设计设计方案175WORD北大DeepSeekR1及类推理推理模型开发解读2024汽车TOP10分析报告企业底座项目电子行业电子行业系列专题边缘语言终端部署推动一轮新一轮需求20230531国信证券25中国移动中国移动云智算技术白皮皮书白皮书2025从英伟达GTC工厂投资机会华泰工业应用人工智能人工智能产业研究
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩