模态 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

北大：DeepSeek-R1及类强推理模型开发解读

o- series) 蒸馏 vs. 强化学习驱动：国内外现有各家技术路线对比分析及 Takeaways PRM & MCTS 的作用从文本模态到多模态其他讨论： Over-Thinking 过度思考等未来方向分析探讨模态穿透赋能推理边界拓展： Align-DS-V 合成数据及 Test-Time Scaling: 突破数据再生产陷阱强推理下的安全：形式化验证 Formal 空间关系、几何模式和物体交互。这些合成数据集提供了可控环境，用于测试模型的视觉推理能力，并且可以无限生成训练样本。文本渲染数据是通过将文本内容转换为视觉格式创建的，使模型能够在不同模态下保持一致的文本处理能力。通过将文本文档、代码片段和结构化数据转换为图像，确保模型无论接收的是纯文本输入还是截图或照片中的文本，都能提供一致的响应。这也有助于增强模型在处理文本 Open Questions: Long-COT 指令数据扩展是否有助于慢思考推理能力？哪种 Long-COT 数据构造方式具有最佳样本效率？ Long-COT 及其扩展是否有助于多模态任务？ Takeaways from RedStar [1]: Long-COT 在有限数据下增强推理能力：小规模数据集（如 1.3k 个问题）可以显著提升推理性能，尤其是在数学任务中，

10 积分 | 76 页 | 6.72 MB | 9 月前
3
2024年中国人工智能产业研究报告

于语言与多模态模型应用、芯片、算力服务等领域，基础层与应用层协同发展，不断完善产业生态。社会层面，生成式AI的普及加速了市场教育，公众接受度显著提升，但就业替代、隐私安全等问题仍引发一定焦虑。技术方面， Transformer架构依然主导大模型发展，研发侧通过强化学习、思维链优化提升模型推理能力，同时加速跨模态融合，并在推目录 CONTENTS 01 中国大模型产业宏观环境政策、经济、社会、技术 02 中国大模型产业价值总览基础层、模型层、应用层 03 中国大模型产业商业进程语音、视觉、语言及多模态产品 04 中国大模型产业实践案例典型产品、标杆厂商 05 中国大模型产业发展趋势产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下，中国人工智能产业在经济、政策、认知、技术维度的发展环境如何？ www.iresearch.com.cn 中国人工智能产业资本环境语言及多模态赛道目前最受瞩目，同时基础层厂商积极入局来源：艾瑞咨询研究院自主研究绘制。从投资轮次的分布情况着眼，战略及股权投资的数量及占比均呈现出显著的上升态势，其中股权投资事件占比高达77.9%。而在应用赛道的投资分布方面，语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时，以AI芯片、AI算力解决方案、算法架构等为代表的基础

0 积分 | 51 页 | 3.35 MB | 9 月前
3
2024年中国人工智能产业研究报告

于语言与多模态模型应用、芯片、算力服务等领域，基础层与应用层协同发展，不断完善产业生态。社会层面，生成式AI的普及加速了市场教育，公众接受度显著提升，但就业替代、隐私安全等问题仍引发一定焦虑。技术方面， Transformer架构依然主导大模型发展，研发侧通过强化学习、思维链优化提升模型推理能力，同时加速跨模态融合，并在推目录 CONTENTS 01 中国大模型产业宏观环境政策、经济、社会、技术 02 中国大模型产业价值总览基础层、模型层、应用层 03 中国大模型产业商业进程语音、视觉、语言及多模态产品 04 中国大模型产业实践案例典型产品、标杆厂商 05 中国大模型产业发展趋势产业机遇、关键挑战 5 中国人工智能产业宏观环境 —— 当下，中国人工智能产业在经济、政策、认知、技术维度的发展环境如何？ www.iresearch.com.cn 中国人工智能产业资本环境语言及多模态赛道目前最受瞩目，同时基础层厂商积极入局来源：艾瑞咨询研究院自主研究绘制。从投资轮次的分布情况着眼，战略及股权投资的数量及占比均呈现出显著的上升态势，其中股权投资事件占比高达77.9%。而在应用赛道的投资分布方面，语言及多模态赛道目前已成为最受瞩目的投资领域。与此同时，以AI芯片、AI算力解决方案、算法架构等为代表的基础

10 积分 | 51 页 | 3.35 MB | 9 月前
3
2025年全球感知技术十大趋势预测深度分析报告

交互体验则追求更加自然、流畅的感受。单一传感模式由于其自身的局限性，无法同时兼顾这些需求。然而，2025 年的感知技术将迎来全新的发展格局。它将在多个前沿领域展现出令人瞩目的突破。多模态融合技术，将多种传感器的数据进行深度整合，为环境认知提供更丰富、准确的信息；超低延迟网络技术，能够实现数据的实时传输，为远程控制和实时反馈提供有力支持；3D 空间计算技术，将构建出逼真的三维空间 ........................................................................................ 2 第一章多模态感知融合 .............................................................................................. ..................... 36 研究报告 2025 年全球感知技术十大趋势预测 5 第一章多模态感知融合 Multimodal Perception Fusion 一、技术详解多模态感知融合，是一种综合性的技术手段，它旨在利用多种类型的传感器，全面采集来自环境的多源数据，并通过先进的数据融合算法进行深度整合，从而获得比单一传感

10 积分 | 36 页 | 1.01 MB | 9 月前
3
2024年汽车AI大模型TOP10分析报告

(OpenAI) ERNIE(百度) CPM(智源) GLM(洁华) 2012 2013 2014 2015 2016 2017 2018 2019 2020 2022 2022 2023 跨模态模型预训练模型大模型计算机视觉自然语言处理认知感知来源：大模型驱动的群体智能行业白皮书产业研究战略规划技术咨询 4 大模型参数规模不断增长，推动 �� Code �� Other �� 产业研究战略规划技术咨询 9 �� 问答理解类推理类数学类创作表达类代码类 �� 问答理解类常识、专业知识、多语言、多模态、角色扮演+多轮对话、安全陷阱推理类情感推理、演绎推理、逻辑推理、归纳推理、类比推理创作表达类文字创作&创意、内容改写/续写、修改 /润色、文字处理、编辑/语义匹配、摘要提取、关键、字提炼、标题生成、文性和可维护性。参数规模扩展为确保模型质量和性能，未来的大模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预训练，尤其在数据量和参数量上将迎来显著跃升。多模态融合大模型将逐渐融入图⽚、⾳频、视频等多种模态信息，实现跨模态的交互与理解，从⽽拓宽其应⽤场景和实⽤价值。大模型小模型化在产业应⽤层⾯，结合底层基础大模型和针对特定⾏业的精简数据微调，将训练出更为实用、更易于产业落地的小型化大模型。

10 积分 | 59 页 | 28.41 MB | 9 月前
3
MoonFox月狐数据：2025年智能PPT行业市场研究报告

各批次AI办公深度合成算法备案占比其他 AI办公使用智能PPT的用户在总体办公人群中的比例涉及智能PPT的专业大模型数量场景深化与垂直能力升级无缝嵌入工作流与决策支撑基于大模型的多模态内容生成能力，Google、Microsoft、 WPS、百度如流、钉钉、飞书等推出多文档内容生成、会议转录与摘要、智能创作、流程安排等功能。向垂类场景进发落地应用，开拓财务、人力、政务等场景，完成基础PPT制作，并为专业化生产提升人效：生成式AI应用依靠AI大语言模型、跨模态理解能力，缩短内容生产时间，通过联网数据和素材库支撑加速PPT设计并提升可视化效果。传统PPT生产工作流：流程冗长、执行复杂现阶段智能PPT生成：简化操作过程、提升可视化质量联网搜索/素材库 AI大语言模型跨模态理解能力 6 智能PPT跨越可用阶段，以用户为中心助力向“直觉化”使用跃迁 1 智能PPT内嵌入办公平台、AI助手成为重要功能文本处理大纲生成简化搜索智能排版多种PPT生成模式思维导图等多形式与PPT的转化多种模板个性化定制智能图表分析、生成云存储模板素材库多轮对话交互多模态媒体融合交互协同端到端生成数据可靠数据精准智能处理技术带来的功能与办公流程的演进数据来源：2025年6月用户调研（N=1172），极光月狐数据研究院整理。

20 积分 | 23 页 | 4.73 MB | 7 月前
3
人形机器人生态报告2025-上海财经大学

始快速向⼯业、商业、家庭、应急、教育等潜⼒领域拓展。特征之四，AI ⼤模型对⼈形机器⼈的赋能⽅⾯进展明显。⼤脑、⼩脑和肢体分⼯协作体系明确的同时，基于感知-决策-⾏动-反馈的逐步深度融合，多模态⼤模型、强 2 化学习等技术正驱动⼈形机器⼈的智能化⽔平快速提升。特征之五，具⾝智能体之间的关系开始从单体智能向智能协作、群体智能演进。从单个机器⼈的遥控，向多台机器⼈乃⾄异构机器⼈之间的⽆⼲预协作⽅向突破，但感知模块作为具⾝智能的“信息采集和处理器”，通过建⽴对外部环境的感知和理解，为决策和⾏动提供⽀持。感知模块主要⽤于对象识别、位置定位、场景理解等⽅⾯，通过摄像头、激光雷达等多种传感设备的输⼊数据进⾏处理，进⽽从不同模态的数据中获得多维环境信息。humanoid robots 决策模块作为具⾝智能的“指挥中⼼”，接受环境感知信息后，完成⾼级任务规划和推理分析，并⽣成决策指令。决策模块主要任务包括任务规划和推理分析，决策模块成化设计⼤幅降低冗余结构，相同扭矩下重量较传统⽅案更轻，减轻机器⼈肢体负载。 2.3.4 灵巧⼿灵巧⼿是模仿⼈⼿结构与功能的⾼性能末端执⾏器，以⼈类⼿部⻣骼、关节与运动机理为设计原型，通过多⾃由度驱动、多模态传感与智能控制技术，实现对物体的抓取、捏取、拧动、装配等精细操作，具备⾼度灵活性和精确控制能⼒，已⼴泛应⽤于多领域精细操作场景，是机器⼈与物理环境直接交互的核⼼功能部件。宇树科技发布的

10 积分 | 20 页 | 2.65 MB | 1 月前
3
2025年工业大模型白皮书

合的结晶，正以前所未有的速度重构制造业的智能化体系。随着第四次工业革命的推进，工业大模型凭借其卓越的数据处理能力、出众的跨模态融合特性以及高效的智能决策效能，日益成为推动工业智改数转的核心驱动力。然而，尚处于初级发展阶段的工业大模型，仍面临工业数据多模态复杂性、模型可解释性不足以及应用成本较高等挑战。为此，行业迫切需要系统性的解决方案，以促进工业大模型技术的有效落地与广泛应用。 1.3.2 基于应用场景的分类体系.............................................................. 15 1.3.3 基于数据模态的分类体系.............................................................. 15 1.3.4 基于功能定位的分类体系........ 大模型与小模型协同...................................................................... 41 2.3.5 MOE 与多模态融合 ........................................................................ 42 2.3.6 AI Agent ..

10 积分 | 142 页 | 10.54 MB | 9 月前
3
电子行业：AI大模型需要什么样的硬件？-20240621-华泰证券-40页

85%。在语言能力之外，AI 大模型的多模态能力也快速提升。2023 年初，主流闭源大模型通常为纯文本的 LLM。2023 年至今，闭源模型的多模态能力具有大幅度提升，目前主流闭源大模型通常具备图像理解、图像生成能力。部分最前沿的闭源大模型，例如 GPT-4o、谷歌 Gemini，支持的模态更加多元，能够理解文本、图像、音频、视频（帧），并生成文本、图像、音频。2022 年 9 月，红杉资本预计还需要近十年的时系统，强化虚拟助手 Bixby，为用户提供丰富多样的应用服务。据 Techweb，Google 有望在 10 月推出 Pixel9 系列，预计将搭载基于最新 Gemini 模型的 AI 助手，执行复杂的多模态任务。芯片方面，下半年将发布的骁龙 8Gen4 较上一代产品有望进一步支持 AI 应用。图表7： AI 手机典型应用及趋势资料来源：OPPO《AI 手机白皮书》（2024.2），华泰研究风格扮演辅导作业通话摘要：一键从通话到纪要通话记录通话纪要待办生成便签同步拍照、擦除、背景还原等智能圈选消除背景生成趋势多模态自然对话可信、有用、个性化专属内容生产自然对话|OS融合的多模态| 语音、文字、图片、文档、视频全能聊| 语音、手势全能控内容合规|幻觉消除|复杂推理|任务调度| 服务生态支持|人设支持|个性化问答和推荐| 用户专属记忆

0 积分 | 40 页 | 2.60 MB | 9 月前
3
北京大学-DeepSeek原理和落地应用2025

人工智能概念辨析 PART 01 大模型相关术语 l 多模态 Ø 文本、图片、音频、视频 l AI工具（国内） Ø DeepSeek、豆包、Kimi、腾讯元宝、智谱清言、通义千问、秘塔搜索、微信搜索... l 通用模型 Ø 大语言模型（LLM，Large Language Model） Ø 视觉模型（图片、视频） Ø 音频模型 Ø 多模态模型 Ø …… l 行业模型（垂直模型、垂类模型）注意力机制（Attention） •编码器（BERT）：多数embedding模型，Ernie早期版本，……. •混合网络：T5、GLM •解码器（GPT）：大语言模型（LLM），也是传统的多模态模型的核心 •生成式人工智能（GenAI）：AIGC •DeepSeek、Qwen、GLM、Step、MiniMax、hunyuan、kimi、…… •OpenAI GPT（ChatGPT）、 a的DiT（加入Diffusion的视觉模型），部分新的多模态模型架构大模型的发展阶段生成模型 ref:中文大模型基准测评2024年度报告(2025.01.08) 推理模型生成模型与推理大模型的对比比较项 OpenAI GPT-4o（生成模型） OpenAI o1（推理模型）模型定位专注于通用自然语言处理和多模态能力，适合日常对话、内容生成、翻译以及图文、音频、视频等信息处

10 积分 | 57 页 | 9.65 MB | 9 月前
3

共 150 条前往

页

分类

语言

格式