基于多模态大模型的电力现场安监管控研究及实践20 积分 | 22 页 | 5.05 MB | 12 天前3
盛视科技深耕智慧口岸,海外业务、多模态AI构筑第二增长曲线计算机 2024 年 01 月 08 日 盛视科技(002990.SZ) 深耕智慧口岸,海外业务、多模态AI构筑第二增长曲线 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。 公 司 报 告 公 司 首 次 覆 盖 报 告 强烈推荐(首次) 股价:31.99 元 主要数据 季度末,公司完成了对云南河口口岸(1.66 亿元)、瑞丽(含 畹町)口岸(1.06 亿元)两个亿级合同的签署。据我们不完全统计,公司 2023 年以来中标项目金额合计已达 9.78 亿元。 公司携手华为出海,推进多模态 AI 赋能业务场景。“一带一路”极大推动 了我国边境地区口岸数字化的需求,同时也带动了沿线国家的海外口岸数 字化需求,公司目前已联手华为大力布局海外市场。“一带一路”沿线国 家是公司海外市场重点布局的区域,截至 年公司与华为签署协议将在全球海 关领域开展全面合作,包括海关、口岸和综保区/自贸区等产品和解决方案 开发、市场推广、项目拓展、生态构建等。同时,公司也在积极推进多模 态 AI 研究赋能业务场景,已规划多模态 M2-GPT 大模型。 2021A 2022A 2023E 2024E 2025E 营业收入(百万元) 1,127 989 1,849 2,547 3,4000 积分 | 18 页 | 1.93 MB | 5 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告o-series) ➢ 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢ PRM & MCTS 的作用 ➢ 从文本模态到多模态 ➢ 其他讨论:Over-Thinking 过度思考等 ➢ 未来方向分析探讨 ➢ 模态穿透赋能推理边界拓展:Align-DS-V ➢ 合成数据及Test-Time Scaling: 突破数据再生产陷阱 ➢ 强推理下的安全:形式化验证 Formal 空间关系、几何模式和物体交互。这些合成数据集提供了可控环境,用于测试模型的视觉推理能力,并且可以 无限生成训练样本。 ➢ 文本渲染数据 是通过将文本内容转换为视觉格式创建的,使模型能够在不同模态下保持一致的文本处理能力。 通过将文本文档、代码片段和结构化数据转换为图像,确保模型无论接收的是纯文本输入还是截图或照片中的 文本,都能提供一致的响应。这也有助于增强模型在处理文本密集型图像(如截图、表格、公式等)时的能力。 Open Questions: ➢ Long-COT 指令数据扩展是否有助于慢思考推理能力? ➢ 哪种 Long-COT 数据构造方式具有最佳样本效率? ➢ Long-COT 及其扩展是否有助于多模态任务? ➢ Takeaways from RedStar [1]: ➢ Long-COT 在有限数据下增强推理能力:小规模数据集(如 1.3k 个问题)可以显著提升推理性能,尤其是在数学任务中,10 积分 | 76 页 | 8.39 MB | 5 月前3
北大:DeepSeek-R1及类强推理模型开发解读o- series) 蒸馏 vs. 强化学习驱动:国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用 从文本模态到多模态 其他讨论: Over-Thinking 过度思考等 未来方向分析探讨 模态穿透赋能推理边界拓展: Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱 强推理下的安全:形式化验证 Formal 空间关系、几何模式和物体交互。这些合成数据集提供了可控环境,用于测试模型的视觉推理能力,并且可 以 无限生成训练样本。 文本渲染数据 是通过将文本内容转换为视觉格式创建的,使模型能够在不同模态下保持一致的文本处理能力。 通过将文本文档、代码片段和结构化数据转换为图像,确保模型无论接收的是纯文本输入还是截图或照片中的 文本,都能提供一致的响应。这也有助于增强模型在处理文本 Open Questions: Long-COT 指令数据扩展是否有助于慢思考推理能力? 哪种 Long-COT 数据构造方式具有最佳样本效率? Long-COT 及其扩展是否有助于多模态任务? Takeaways from RedStar [1]: Long-COT 在有限数据下增强推理能力:小规模数据集(如 1.3k 个问题) 可以显著提升推理性能,尤其是在数学任务 中,10 积分 | 76 页 | 6.72 MB | 5 月前3
2024年中国人工智能产业研究报告于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推 目 录 CONTENTS 01 中国大模型产业宏观环境 政策、经济、社会、技术 02 中国大模型产业价值总览 基础层、模型层、应用层 03 中国大模型产业商业进程 语音、视觉、语言及多模态产品 04 中国大模型产业实践案例 典型产品、标杆厂商 05 中国大模型产业发展趋势 产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下,中国人工智能产业 在经济、政策、认知、技术维度的发展环境如何? www.iresearch.com.cn 中国人工智能产业资本环境 语言及多模态赛道目前最受瞩目,同时基础层厂商积极入局 来源:艾瑞咨询研究院自主研究绘制。 从投资轮次的分布情况着眼,战略及股权投资的数量及占比均呈现出显著的上升态势,其中股权投资事件占比高达77.9%。而在应用赛道 的投资分布方面,语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时,以AI芯片、AI算力解决方案、算法架构等为代表的基础0 积分 | 51 页 | 3.35 MB | 5 月前3
2024年中国人工智能产业研究报告于语言与多模态模型应用、芯片、算力服务等领域, 基础层与应用层协同发展,不断完善产业生态。社会层面,生成式AI的普及加速了市场教育, 公 众 接 受 度 显 著 提 升 , 但 就 业 替 代 、 隐 私 安 全 等 问 题 仍 引 发 一 定 焦 虑 。 技 术 方 面 , Transformer架构依然主导大模型发展,研发侧通过强化学习、思维链优化提升模型推理能力, 同时加速跨模态融合,并在推 目 录 CONTENTS 01 中国大模型产业宏观环境 政策、经济、社会、技术 02 中国大模型产业价值总览 基础层、模型层、应用层 03 中国大模型产业商业进程 语音、视觉、语言及多模态产品 04 中国大模型产业实践案例 典型产品、标杆厂商 05 中国大模型产业发展趋势 产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下,中国人工智能产业 在经济、政策、认知、技术维度的发展环境如何? www.iresearch.com.cn 中国人工智能产业资本环境 语言及多模态赛道目前最受瞩目,同时基础层厂商积极入局 来源:艾瑞咨询研究院自主研究绘制。 从投资轮次的分布情况着眼,战略及股权投资的数量及占比均呈现出显著的上升态势,其中股权投资事件占比高达77.9%。而在应用赛道 的投资分布方面,语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时,以AI芯片、AI算力解决方案、算法架构等为代表的基础10 积分 | 51 页 | 3.35 MB | 6 月前3
2025年应用全生命周期智能化白皮书API 则从传统的服务接口演进为“智 能连接器”,通过动态编排与语义理解,支撑 Agent 间的自主协商与任务分解。此外随着云原生 AI 技术(如多模态大模型、 智能 Agent 开发与运行、检索增强生成、智能应用管理引擎、智能组装与集成、统一可观测、多模态交互、AI 内生安全等) 的成熟,使得 Agent 的开发效率提升数倍以上,支撑智能化应用的多模交互、自主运行、智能进化、环境理解、智能协作、 智能应用平台的八大关键技术 4.3.1 多模态融合技术,实现多模态智能 4.3.2 智能 Agent 开发与运行,实现群体智能 4.3.3 检索增强生成,增强智能体个性化记忆 4.3.4 智能应用管理引擎,让应用自动运行与自主优化 4.3.5 智能组装与集成,扩展应用能力边界 4.3.6 统一的智能体可观测,支撑海量智能应用高效运维 4.3.7 多模态交互,建立双向人机协同体验 4.3.8 自主感知环境,分析数据,做出决策,甚至进行自我 优化和升级。物联网与 5G 技术催生智能系统的群体化演进,形成协同工作的群体,共同完成复杂的任务,实现资源的 优化配置和高效利用。自然语言处理与多模态交互技术的突破,则加速重塑人机协作的认知界面,使得人机协作更加 便捷和高效。复杂系统向“组装式”模块化架构演进则为人机协作提供了灵活可扩展的载体,不同的功能模块可以独 立开发、测试和部署,然后根20 积分 | 59 页 | 8.39 MB | 4 月前3
6G智简信息传输及使能技术白皮书(2025年)-中关村泛联院新阶段。在此背景下,针对未来机器人等智能化终端泛用所导致的海量多模态数 据(如图像、视频、点云等)传输需求,传统以精确到比特级信息传输为核心的 编码调制方法逐渐接近香农极限,信息传输速率和系统性能的提升遭遇瓶颈。语 义通信作为一种新兴范式,以人工智能技术为核心驱动,将通信范式从比特级跃 迁至语义级,聚焦于信息的语义内容而非原始比特流,以突破传统通信香农极限, 为未来 6G 网络多模态信息的智简传输提供了全新的技术路径。 。 因此,本白皮书聚焦 6G 智简信息传输及使能技术,旨在构建适用于语义通 信的新型传输理论框架,设计端到端的自适应多模态语义通信系统,并研发动态 匹配与更新的语义知识库技术,为语义通信网络的高效和可靠运行提供理论和模 型基础,进而构建多模态业务适配的智简信息传输保障使能技术体系,支撑智简 传输系统未来可能的工程落地。 目 录 1 .... 11 3.2.3 O-MDMA 系统性能仿真对比 .......................... 14 4. 多模态智简传输技术.......................................... 15 4.1 多模态自适应语义通信 ..................................... 15 4.1.1 基于层的图像语义通信系统0 积分 | 43 页 | 2.70 MB | 4 月前3
2025年全球感知技术十大趋势预测深度分析报告交互体验则追求更加自然、流畅的感受。 单一传感模式由于其自身的局限性,无法同时兼顾这些需求。 然而,2025 年的感知技术将迎来全新的发展格局。它将在多个前沿领域展现出令人瞩目的突 破。多模态融合技术,将多种传感器的数据进行深度整合,为环境认知提供更丰富、准确的信息; 超低延迟网络技术,能够实现数据的实时传输,为远程控制和实时反馈提供有力支持;3D 空间 计算技术,将构建出逼真的三维空间 ........................................................................................ 2 第一章 多模态感知融合 .............................................................................................. ..................... 36 研究报告 2025 年全球感知技术十大趋势预测 5 第一章 多模态感知融合 Multimodal Perception Fusion 一、 技术详解 多模态感知融合,是一种综合性的技术手段,它旨在利用多种类型的传感器,全面采 集来自环境的多源数据,并通过先进的数据融合算法进行深度整合,从而获得比单一传感10 积分 | 36 页 | 1.01 MB | 5 月前3
2024年汽车AI大模型TOP10分析报告(OpenAI) ERNIE(百度) CPM(智源) GLM(洁华) 2012 2013 2014 2015 2016 2017 2018 2019 2020 2022 2022 2023 跨模态模型 预训练模型 大模型 计 算 机 视 觉 自 然 语 言 处 理 认 知 感 知 来源:大模型驱动的群体智能行业白皮书 产业研究 战略规划 技术咨询 4 大模型参数规模不断增长,推动 �� Code �� Other �� 产业研究 战略规划 技术咨询 9 ���� 问答 理解类 推理类 数学类 创作 表达类 代码类 ���� 问答理解类 常识、专业知识、多语言、多模态、角 色扮演+多轮对话、安全陷阱 推理类 情感推理、演绎推理、逻辑推理、归纳 推理、类比推理 创作表达类 文字创作&创意、内容改写/续写、修改 /润色、文字处理、编辑/语义匹配、摘 要提取、关键、字提炼、标题生成、文 性和可维护性。 参数规模扩展 为确保模型质量和性能,未来的大模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预 训练,尤其在数据量和参数量上将迎来显著跃升。 多模态融合 大模型将逐渐融入图⽚、⾳频、视频等多种模态信息,实现跨模态的交互与理解,从⽽拓 宽其应⽤场景和实⽤价值。 大模型小模型化 在产业应⽤层⾯,结合底层基础大模型和针对特定⾏业的精简数据微调,将训练出更为实 用、更易于产业落地的小型化大模型。10 积分 | 59 页 | 28.41 MB | 5 月前3
共 385 条
- 1
- 2
- 3
- 4
- 5
- 6
- 39
