电子行业AI+系列专题:边缘AI,大语言模型的终端部署,推动新一轮终端需求-20230531-国信证券-25页...........17 图31: PaLM2 的从小到大的四种版本 .........................................................18 图32: PaLM2 在部分测试中体现出了优异性 ...................................................18 图33: ChatGPT App 欢迎界面 资料来源:知乎,国信证券经济研究所整理 我们可以粗略的计算训练 1750 亿参数的 GPT3 所需内存,大约需要 3.2TB 以上。 静态内存方面,大多数 Transformer 都是以混合精度训练的,如 FP16+FP32,以 减少训练模型内存,则一个参数占 2 个字节,参数和优化器状态合计占用内存 1635G。而动态内存,根据不同的批量大小、并行技术等结果相差较大,通常是静 态内存的数倍。更简洁的估算方法,可以假设典型的 亿参数的 GPT3 大概需要 3.2TB 内存。 推理所需内存则较小,假设以 FP16 存储,175B 参数的 GPT3 推理大约需要内存 327G,则对应 4 张 80G A100,如果以 FP32 运算,则需要 10 张。 请务必阅读正文之后的免责声明及其项下所有内容 证券研究报告 9 表2:大语言模型的计算 公式 注释 模型参数 优化器内存 梯度内存 激活重计算 模型训练内存0 积分 | 25 页 | 2.20 MB | 7 月前3
电子AI+系列专题:复盘英伟达的AI发展之路2024 年的 785 亿元,对应 CAGR 达 45.11% 。 AI 芯片中 由于 GPU 通用型强,满足深度学习大量计算 的需求,因此 GPU 在训练负载中具有绝对优势。以 GPT-3 为例,在 32 位的单精度浮点数数据下,训练 阶段所需 GPU 数量为 1558 个,谷歌级应用推理阶段所 需 GPU 数量为 706315 个。 l 英伟达开辟 GPGPU 加速计算格局, GPU 架构演进及产品布局赋能 运算性能 ( TFLOPS ) 整型定点 运算性能 ( TOPS ) 显存 (GB) 显存带宽 (GB/s) 功耗 (W) Google TPU v4 2021 7nm - 275 275 32 1200 192 平头哥 含光 800 2021 12nm - - 825 - - 276 寒武纪 思元 370 MLU370-X8 2021 7nm 24 96 256 资料来源:英伟达 CUDA 文档,国信证券经济研究所整 理 资料来源: CSDN ,国信证券经济研究所整 理 l 《 AI 大语言模型的原理、演进及算力测算》 l 训练阶段:考虑采用精度为 32 位的单精度浮点数数据进行训练和推理。 以 A100 PC le 芯片为例( H100 PC le 芯片同理), GPT-3 训练所需 运算次 数为:样本 token 数 3000 亿个 *6*0 积分 | 30 页 | 1.27 MB | 7 月前3
电子行业深度报告:DeepSeek推动模型平权,关注AI终端及算力领域DeepSeek开源R1模型,后训练阶段大规模使用了强化学习技术,在仅有 极少标注数据的情况下,性能比肩OpenAI o1正式版,不仅极大提升了 模型推理能力,也大幅降低了训练成本。同时,DeepSeek-R1蒸馏了6个 小模型,其中32B和70B模型在多项能力上实现对标OpenAI o1 mini。通 过推出高性能、低成本且开源的模型,DeepSeek给全球AI发展带来了模 型平权,同时也将刺激其他头部模型厂商加快推出性能更强、成本更具 ............... 15 图 31 :闪极科技推出“录眸 OS” ...................................................... 16 图 32 :闪极科技 AI 拍拍镜售价 ........................................................ 16 图 33 :CES 2025 展出的 AI、AR OpenAI o1 正式版。 图 1:DeepSeek R1 性能比肩 OpenAI o1 数据来源:DeepSeek公众号,东莞证券研究所 同时,DeepSeek-R1 蒸馏了 6 个小模型,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1 mini 的效果。通过将 R1 模型知识蒸馏到轻量化模型中,不仅能够提升轻量 化模型的性能,同时也会降低成本,有助于进一步加快端侧0 积分 | 23 页 | 2.65 MB | 7 月前3
电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求OpenAIo1-mini 。在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模 型开源给社区, 其中 32B 和 70B 模型在多项能力上实现了对标 OpenAIo1-mini 的效果。 请务必阅读正文之后的免责声明及其项下所有内容 DeepSeek-R1 发布,性能对标 OpenAI-o1 正式版 同 。 请务必阅读正文之后的免责声明及其项下所有内容 采用硬盘缓存技术大幅降低延迟和成本 图:数据分析场景,后续具有相同前缀的请求会 命中上下文缓存 DeepSeek -R1 16 元 32K 64K 4 元 1 元 8K 图: DeepSeek-R1 等模型输入输出价格对比 百万 tokens 百万 tokens 输 入 价 格 输 入 价 格 ( 9.18 开源 Llama3.1-405B 4050 85.2 Meta 2024.7.23 开源 Gemini-Ultra 未公布 83.7 谷歌 2023.12.7 未开源 Qwen2.5-32B 320 83.3 阿里 2024.9.18 开源 Gemin i 1.5 Pro 未公布 81.9 谷歌 2024.2.15 未开源 GLM4 未公布 81.5 智谱 AI 2024.1.160 积分 | 38 页 | 1.95 MB | 7 月前3
电子行业:AI大模型需要什么样的硬件?-20240621-华泰证券-40页国内大模型:格局清晰,闭源追赶 GPT-4,开源具备全球竞争力 ...................................................................... 32 百度:文心大模型持续迭代,B/C 端商业化稳步推进 ...................................................................... 13,627 47% 6,452 金属结构件 2382 HK 舜宇光学科技 51,171 31,832 32% 10,207 摄像头镜头、模组 002138 CH 顺络电子 22,021 4,968 17% 864 射频电感、功率电感、车用磁性器件 Xlite Apple M3 Pro Max Intel Lunar Lake NPU 算力 14TOPS 45TOPS 18TOPS 45TOPS 内存 最高 32GB + 1TB 最高 32GB + 1TB 最高 128GB+TB 尚未发布 应用 PPT 智能创作、文生图、文档总结、 智能问答、AI 识图、会议纪要、智 会分身、设备调优 GPT-4o,Copilot+PC0 积分 | 40 页 | 2.60 MB | 7 月前3
2024中国主要城市交通分析报告-高德地图广州市 杭州市 成都市 上海市 北京市 超大城市换乘系数 54% 49% 45% 42% 41% 40% 39% 38% 36% 29% 33% 34% 34% 32% 35% 35% 35% 34% 东莞市 重庆市 深圳市 武汉市 广州市 杭州市 成都市 上海市 北京市 换乘次数占比 1.429 1.467 1.474 25% 24% 26% 28% 27% 30% 29% 25% 29% 26% 30% 26% 31% 31% 34% 33% 31% 33% 35% 31% 32% 海口市 哈尔滨市 惠州市 乌鲁木齐市 兰州市 贵阳市 厦门市 大连市 中山市 绍兴市 洛阳市 台州市 长春市 常州市 南宁市 石家庄市 南通市 无锡市 南昌市 超200万 61.7% -0.62% 1.691 0.00% 29.02 - 0.08% 31 昆明市 超200万 61.1% 3.77% 1.642 -2.22% 24.35 48.1% 0.23% 32 长春市 超200万 58.5% 9.72% 1.796 -7.07% 25.67 74.1% 0.04% 33 大连市 超200万 58.2% 2.76% 1.818 -2.54% 25.28 7610 积分 | 30 页 | 2.00 MB | 7 月前3
金融垂类大模型试用体验【AI金融新纪元】系列报告(一)HithinkGPT 大模型。此款大模型 采用 transformer 的 decoder-only 架构 ,提供 7B 、 13B 、 30B 、 70B 和 130B 五种版本选择 ,最大允许 32k 文本输入 ,支持 API 接口 调用、 网页嵌入、共建、私有化部署等能力 ,并为用户提供一站式标注和评测服务。 通用领域: HithinkGPT 大模型在 C-Eval 、 GSM8K 、 数据来源:同花顺,东吴证券研究所 图表:同花顺 AI 产品介 绍 9 妙想金融大模型是东方财富重磅打造的金融行业大语言模型 ,使用 Decoder-only 的 Transformer 网络结构 ,支持 32K 的上下文长度, 致力于满足各类金融场景下的需求。通过自建的数据治理和数据实验流程 ,结合效果预估算法、高效预训练框架、 SFT 、 RLHF 训练等技 术,妙想金融大模型建立起自主研发的技术壁垒。10 积分 | 25 页 | 1.60 MB | 1 月前3
中国制造2025:实现技术领先的代价研究报告(英文版)defensive action to protect the Single Market from perceived or potential market distortions. 29,30,31&32 Some of the spikes in exports from China to the EU seen in some MIC2025 sectors reflect increasing newsroom/press-releases/eu-starts-investigation-into-chinese-wind-turbines-under-new-foreign-subsidies-regulation/> 32 Commission moves to protect EU mobile access equipment industry from dumped imports, Directorate-General 7% 22% 14% 13% 13% 11% 4% 25% 11% 5% 33% 7% 13% 8% 7% 44% 20% 38% 25% 40% 25% 16% 32% 7% 7% 20% 13% 11% 16% 25% 26% 27% 36% 43% 13% 25% 25% 12% 25% 37% 18% 43% 36% 27% 25%10 积分 | 51 页 | 2.82 MB | 6 月前3
星图研究院:2025年视觉IoT消费市场分析报告君正 T41 双核 1.2G 4K/25FPS,H264/H265/MJPEG 12 工作:370mW(4MP+D1 15fps H.265) AOV:44mW(整板) 是 1.2Tops T32 单核 1.2G 4K/25FPS,H264/H265/MJPEG 22 工作:370mW(4MP+D1 15fps H.265) AOV:30mW(整板) 否 1Tops T31 单核 1.4G 数据来源:AIoT 星图研究院 53.4 66 78 112.5 140 189 250 8.9 11 13 22.5 28 37.8 50 16% 24% 18% 73% 24% 35% 32% 0% 10% 20% 30% 40% 50% 60% 70% 80% 0 50 100 150 200 250 300 2020 2021 2022 2023 2024 月 18-20 日 深圳站:8 月 27-29 日 海外展:IOTSWC 世界物联网解决方案展 5 月 13-15 日(西班牙·巴塞罗那) 参展联系:18676385933 32 IOTE 2025 上海站:6 月 18-20 日 深圳站:8 月 27-29 日 海外展:IOTSWC 世界物联网解决方案展 5 月 13-15 日(西班牙·巴塞罗那)10 积分 | 50 页 | 29.10 MB | 7 月前3
2025年智能金融:AI+驱动的金融变革报告-浙江大学(郑小林)ChatGPT 上下文对话 语料学习 DeepSeek-V3 DeepSeek-R1 DeepSeek-V3 跨节点专家并行 硬件协同优化 Grok-3 20万张卡 思维链推理 QWQ-32B 两阶段强化学习 Gemma-3 多模态推理融合 思维链推理 2018年图灵奖、深度机器学习 2024年图灵奖、强化学习 浙江大学人工智能教育教学研究中心 中心 智能教育教学研究中心 大学人工智能教育教学研究中心 推理导向强化学习 (准确率奖励+可读性奖励) R1-Zero生成的 长思维链数据 60万条 推理数据 20万条 通用数据 多阶段增强训练 拒绝采样:筛选高质量样本 R1蒸馏版 1.5B~32B 浙江大学人工智能教育教学研究中心 中心 智能教育教学研究中心 大学人工智能教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学人工智能教育教学研究中心 浙江大学人工智能教育教学研10 积分 | 45 页 | 7.21 MB | 1 月前3
共 29 条
- 1
- 2
- 3
