基于大模型的具身智能系统综述Trans- former 体素编码器得到体素特征, 而自然语言则通 过 CLIP 的语言编码器转化为语言特征, 随后体素 特征一起输入至 Perceiver Transformer, 最后输出 序列经过解码器处理, 恢复到原始体素网格的维度, 并用于预测离散化的行动动作. 通过对场景进行三 维体素化, 并使用编码器进行场景、语言的特征提 取, PerAct 能够有效地对环境进行建模, 获取全局 感受野 对机器人任务进行规范的方法, 随后 Affordan- ceLLM[94] 将大模型的世界知识与 3D 几何信息相结 合, 通过视觉语言模型 (Vision language model, VLM) 骨干扩展了一个掩码解码器和一个特殊特 征, 用于预测可操作性图. 实验证明, 该方法能够综 合理解场景的多个方面, 包括物体及其部分的检测、 定位和识别、场景的地理空间布局、3D 形状和物理 特性, 以及物体与人类潜在的交互功能 框架使用大语言模型进行高层次任务规划, 从多种 机器人技能组成的技能库中选择合适的技能, 并使 用几何可行性规划器优化技能序列参数, 解决动作 间的几何协调问题, 从而提高任务成功率. PaLM-E[73] 是一个仅有解码器 (decoder-only) 的多模态语言模型, 能够结合视觉、语言和机器人 传感器数据, 自回归地生成文本, 这个生成的文本 可以是回答问题的答案, 或者是以文本形式产生的 由机器人执行的决策序列20 积分 | 19 页 | 10.74 MB | 2 天前3
2025年以计算加速迈进智能化未来-IDC新一代云基础设施实践报告编码前,需要运用降噪、画质增强等 AI 预处理技术对原始视频进行优化,这需要强大的算力支 持,用以在压缩过程中保障画质。 高弹性资源适配:应对算力密集型业务潮汐波动 作为算力密集型服务,编解码业务面临显著的流量潮汐特征,需构建可快速扩缩容的海量算力 池,实现资源供给与业务需求的动态匹配。 成本优化诉求:平衡算法迭代与资源效率的双重目标 在支撑算法引擎持续迭代与应对业务流量波动的过程中,需通过弹性资源调度机制优化算力成 本,避免资源闲置损耗,实现技术投入与运营效率的平衡。 解决方案: 高性能算力底座:ECS g�i 为视频编码前的 AI 预处理提供了有力保障,确保降噪、画质增强等 操作能够快速、精准执行,充分释放解码引擎的技术潜能。 全球化算力网络,多地域部署灵活覆盖:依托阿里云在国内和国际核心地域的完善基础设施, 微帧科技得以构建大规模算力服务网络,支持业务就近部署,确保为用户提供低延迟、高可用的 优质算力供给。 资源的 “即开即用、动态弹性”,使业务能够灵活、高性价比地应对业务潮汐需求。 �� 客户价值: 编解码效率提升:ECS g�i 为微帧科技的 WZ���/��� 及 AV� 编码效率带来了突破性提升。其中, AV� 推理耗时优化超 50%,4K 处理效率提升 35%,显著提高了视频编解码的处理速度和质量。 业务全面加速:依托阿里云国内核心地域及基础设施,构建就近接入网络,为业务提供低延迟10 积分 | 27 页 | 5.31 MB | 3 月前3
DeepSeek消费电子行业大模型新型应用最佳实践分享R1-Distill-Llama-8B R1-Distill-Qwen-7B R1-Distill-Qwen-1.5B DeepSeek 部署方案 DeepSeek 全系大语言模型支持服务部署 并行解码 模型量化 并行优化 Sampling 及 batch 优 化 CPU 及 传 统 GPU 算 力 按需按 量 服务管理 与运营 算力调度 容器调度 核心收益 满血版模型一键精调10 积分 | 28 页 | 5.00 MB | 6 月前3
公共安全引入DeepSeek AI大模型视频智能挖掘应用方案首先,系统需要具备视频数据的采集与处理能力。该功能应支 持多种视频源的接入,包括但不限于监控摄像头、无人机、移动设 备等,同时能够进行实时视频流处理和存储。系统应能够对视频数 据进行预处理,包括去噪、解码和帧提取等操作,以确保后续分析 的准确性。 其次,智能分析与挖掘是系统的核心功能。该功能包括以下几 个子功能: 目标检测与跟踪:通过深度学习模型识别视频中的人、车等目 标,并对其进行实时跟踪。 Linux 发行版,如 Ubuntu 或 CentOS, 其稳定性和安全性在服务器领域有广泛认可。 2. 视频处理框架:选择成熟的开源框架,如 FFmpeg 或 OpenCV,支持多种视频格式的解码、编码和处理。 3. AI 模型库:选用 TensorFlow、PyTorch 等流行的深度学习框 架,以便灵活构建和部署 AI 模型。同时建议使用 TensorRT 进行推理优化,提升模型的推理效率。0 积分 | 144 页 | 318.04 KB | 3 月前3
DeepSeek AI大模型在工程造价上的应用方案大模型采用了一种创新的混合架构,结合了 Transformer 和 Graph Neural Network (GNN) 的优势,以应对 工程造价领域的复杂数据结构和高精度需求。模型的核心是基于 Transformer 的编码器-解码器结构,用于处理文本和数值数据, 而 GNN 则专门用于处理工程项目中的图结构数据,如项目网络 图、资源分配图等。这种混合架构使得 DeepSeek-R1 能够同时捕 捉到数据的序列特征和图结构特征,从而在工程造价预测和分析中0 积分 | 138 页 | 252.70 KB | 5 月前3
AIGC生成式AI大模型医疗场景应用可行性研究报告(152页 WROD)如,StyleGAN 就是一种高质量图像生成的 GAN 变体,它能够生成 极为真实的面孔图像,且在医疗图像处理中的应用日益受到关注。 此外,变分自编码器(VAE)也是一种重要的生成模型,其通 过编码器和解码器的组合,学习潜在变量的分布。VAE 在生成任务 中具有良好的表达能力,并且能够有效进行数据的重构或插值。在 医疗数据的生成和去噪方面,VAE 已经显示出了其潜在的应用价 值。 现阶段除主流60 积分 | 159 页 | 212.70 KB | 4 月前3
AI知识库数据处理及AI大模型训练设计方案(204页 WORD)轮。 输出层根据任务需求设计不同的输出结构。对于分类任务,输 出层采用 Softmax 函数进行分类;对于生成任务,则使用自回归 模型生成文本。此外,输出层还需包含后处理模块,对模型的输出 进行解码和格式化,以满足实际应用需求。 在架构设计中,还需考虑模型的扩展性和可维护性。通过模块 化设计,使得各个层级之间松耦合,便于后续的优化和更新。同 时,采用分布式训练策略,利用多 GPU 或多节点进行并行计算,60 积分 | 220 页 | 760.93 KB | 4 月前3
大模型技术深度赋能保险行业白皮书151页(2024)(4)特定技术方法 Speculative Decoding:一种通过并行计算多个标记来加速推理过程的算法。该方法 利用猜测性执行和新颖的采样方法,在近似模型的输出上并行运行它们,从而加速从大型 模型中进行精确解码。 vLLM(Vectorized Large Language Model Serving System):一种大模型推理加 速工具,通过优化内存管理、连续批处理、CUDA核心优化和分布式推理支持等技术手段,20 积分 | 151 页 | 15.03 MB | 2 天前3
共 8 条
- 1
