公共安全引入DeepSeek AI大模型视频智能挖掘应用方案项目编号: 公共安全引入 AI 大模型视频智能挖掘 应 用 方 案 目 录 1. 引言...............................................................................................................5 1.1 背景介绍........................ .........................................................................................15 2.1.1 视频数据采集.............................................................................17 2.1.2 数据存储与管理. 数据源与输入......................................................................................34 3.1.1 视频监控设备.............................................................................36 3.1.2 社交媒体与用户生成内容0 积分 | 144 页 | 318.04 KB | 3 月前3
基于大模型的具身智能系统综述其次, 对大模型在具身智能中参与的需求级、任务级、规划级和动作 级的控制进行了较为全面的总结; 然后, 对不同具身智能系统架构进行介绍, 并总结了目前具身智能模型的数据来源, 包括 模拟器、模仿学习以及视频学习; 最后, 对基于大语言模型 (Large language model, LLM) 的具身智能系统面临的挑战与发 展方向进行讨论与总结. 关键词 大语言模型, 大型视觉模型, 基础模型, 第 2 节分析大模型分别在需求级、任务级、规划级、动作 级这四个控制层级上为具身智能提供的规划; 第 3 节对各类实现大模型结合具身智能的系统架构进行 分类与介绍; 第 4 节从模拟器、模仿学习和视频学 习等方面介绍具身智能训练的数据来源, 探讨大模 型如何为机器人训练带来丰富的数据; 最后在第 5 节对全文进行总结并提出研究方向. 1 感知与理解 在与环境的交互中, 具身智能通过摄像头、麦 用于通过结合自然语言指令和机器人 视觉感知来增强具身任务规划. 框架使用视频数据 的初始帧和对应的文本指令作为输入, 根据输入的 指令和环境图像, 生成一系列动作计划. 研究人员 在多个公开的机器人数据集上进行实验, 结果表明, GPT-4V 能够有效地利用自然语言指令和视觉感知 生成详细的动作计划, 且这些计划与真实世界的演 示视频具有高度的一致性, 展现出 GPT-4V 在具身 智能中的潜力. ViLA[30]20 积分 | 19 页 | 10.74 MB | 2 天前3
2025年以计算加速迈进智能化未来-IDC新一代云基础设施实践报告对算力密度的极致追求:企业希望利用有限的物理空间输出更强大的算力。这一方面体现在 一些高端的云服务实例可以提供数百、数千甚至数万数量级的CPU、GPU核服务能力;另一 方面,为满足大数据、数据库、3D视频处理在内的一些单核敏感型业务的需要,云服务仍将 持续提升单核、单实例性能。 多技术融合提升连接性能:云服务商综合利用内存/缓存、PCle、RDMA、IP网、EIP、VPC 等一系列技术升级和软 利用硬件加速提升数据预处理和AI推理效率:在处理器内部增加专用硬件加速单元和专用指 令集,提升数据清洗、加密与传输效率。对于视觉模型、视频处理、数据库模糊检查询等任 务,云实例基于新一代处理器的向量指令集、矩阵加速指令集等,能够直接支持相关AI算子 执行,简化系统架构,提升响应性能与可靠性,持续改善搜推广、语音/视频处理以及中小模 型的推理体验。 云原生方案形成整体保障:除了算力层面的降本措施,云服务商还通过持续增强弹性伸缩、 支持对应用、流量、安全、存储、可观测等进行统一管控。 �� 优秀实践分析 04 4.1小鹏汽车 在智能驾驶的竞速赛道上,数据是驱动进化的核心燃料。小鹏汽车,作为中国智能电动汽车的先锋, 其海量车机视频数据的实时处理与分析能力,直接决定了算法迭代与用户体验优化的速度。面对日 均 PB 级数据的切分、转码等预处理挑战,小鹏汽车选择与阿里云弹性计算深度合作,基于第九代企 业级实例 ECS g�i,构建了高效、稳定的数据处理基座。10 积分 | 27 页 | 5.31 MB | 3 月前3
DeepSeek洞察与大模型应用-人工智能技术发展与应用实践猫箱 情感陪伴 字节跳动 https://maoxiangai.com/ 可灵AI AI图片/视频生成 快手 https://klingai.kuaishou.com/ 海螺AI AI图片/视频生成 MiniMax https://hailuoai.com/video 即梦AI AI图片/视频生成 字节跳动 https://jimeng.jianying.com/ Perplexity AI搜索 Perplexity AI https://www.perplexity.ai/ Pika AI图片/视频生成 Pika https://pika.art/ MidJourney AI图片/视频生成 MidJourney https://www.midjourney.com/ Stable Diffusion AI图片/视频生成 Stability AI https://stability.ai/ 通用AI助手: 在北京西城区公安局试点,提供以特征搜特征的大模型视觉分析能力,解决小模型无法识 别的复杂场景 7月,该试点实验室进展收到了公安部领导的肯定,对取得的成果进行充分肯定,希望在中 国联通元景大模型的加持下,探索视频侦查新技术提高案件查办效率 利用以图搜图、以文搜图提升检索效率,可服务平安城市、雪亮工程、平安乡村等场景 利用以图搜图、以文搜图,检索监控内容,提升办案效率 -24- 大模型赋能医疗智能应用10 积分 | 37 页 | 5.87 MB | 6 月前3
大模型技术深度赋能保险行业白皮书151页(2024)方面的挑战;图形处理单元(GPU)和张量处理单元(TPU)等高性能计算硬件的飞速发展, 为算力提升提供了强有力的保障;多模态模型的突破性进展,打破了传统人工智能(AI)技 术界限,实现了信息处理能力的全面升级;视频生成模型的显著进步,更是让创意与想象 在数字世界中自由翱翔;而混合专家系统(MoE)架构的广泛应用,则进一步提升了模型的 灵活性与效率。此外,开源模型的不断涌现,不仅加速了技术的普及与应用,也为全球开发 难度。 庞大数据量,相较于先前的MMC4、OBELICS等数据集实现了超过15倍的增长。更为重要 的是,OmniCorpus在数据质量上同样出色,它不仅覆盖了广泛的英语及非英语网站,还 纳入了视频平台的内容,确保了数据内容的全面性与丰富性。此外,OmniCorpus还具备 高度的灵活性,能够轻松转换为纯文本语料库或图像文本对的形式,以满足不同领域研究 与应用的多元化需求。 1.1.2 未有的活力与可能。 (1)视频生成模型的进步 视频生成模型是大模型技术中的一个新兴领域,它允许从文本描述直接生成视频内 容。过去一年,这一技术取得了显著的进展,生成的视频质量大幅提高,应用场景也更加广 泛,包括电影制作、广告创意和虚拟现实等。 视频生成模型利用深度学习技术生成高质量的视频内容。随着算力的提升和算法的 优化,视频生成模型在生成连贯、逼真的视频方面取得了显著进步。例如,2024年2月16日,20 积分 | 151 页 | 15.03 MB | 2 天前3
基于大语言模型技术的智慧应急应用:知识管理与应急大脑多模态数据挖掘 大语言模型技术并不仅限于文本数据,也可用 于理解和生成包括图片、音频、视频等多种类型的 数据。例如,Sora 采用 Tansformer 架构重建图片处理 的扩散模型(diffusion models),能更准确地理解视频 片段(patches)在向量空间的正确时空关系,从而生 成接近现实的合乎逻辑又平滑过渡视频[17]。这种多 模态数据处理能力能够形成一个综合的多模态知识 表示,促进多模态数据的理解和融合,从而让模型 表示,促进多模态数据的理解和融合,从而让模型 具有跨模态知识挖掘和创新的潜能。如图 1 所示, 现实世界的信息、状态和变化通过不同的媒介和技 术手段,可以转化为文本、图片、音频、视频、信号 等符号描述,如果说文本数据是对现实世界在文字 符号规则下的一个投影,那么图片、视频、传感器信 号等不同数据都可以看作是现实世界在不同符号规 则下的多个投影,大语言模型技术具有在高维数字 空间融合不同符号世界信息的潜能,利用高维空间 的多 然度、信息处理能力、交互系统智能水平、工作流程 等方面的制约,缺乏有效的机制将人的优势与机器 的优势整合起来。 2.5 智能层次局限 通过引入大数据、人工智能技术系统智能化水 平得到了较大提高,例如,视频识别技术应用在安 全监管中实现的安全生产风险智能监测预警,无人 机及快速建模技术在应急救援中实现的灾害环境智 能感知等。这些技术侧重外部世界数据的收集和处 理,加强了系统的视觉、听觉和触觉等感知能力,使20 积分 | 8 页 | 3.21 MB | 2 天前3
从大模型、智能体到复杂AI应用系统的构建(61页 PPT)2023.02 ) 三阶段训练技术构建 GPT 3.5 辨别式 AI 对现有内容进行分析、分类、判断、预测 客户流失预测 生成式 AI 自动生成开放的文本、图像、音频、视频等内容 短视频片段 广告视频 多模态生成 相对通用的人工智能 一个大模型解决多个问题 自适应地应对复杂外界环境的挑战 专用人工智能 一事一模型,每个模型完成特定智能任务 解决特定的智能问题 里程碑: AI 2.0 时代 图像分类 文本分类 信用评估 房价预测 销量预测 客户分群 新闻聚类 广告定向 社区发现 文生图 文生视频 语音与对话 影视与广告 文章报告 问答内容 人像写真 广告图片 样例代码 测试用例 视频生成 分类 聚类 回归 文本生成 语音生成 代码生成 图像生成 Multi-task Language Understanding on20 积分 | 61 页 | 13.10 MB | 2 天前3
智慧党建平台解决方案(42页 PPT)打破层级,分享心得,提高互动。 志愿者活动管理 参与对象 党员志愿者 + 群众志愿者 + 社会组织企 业 活动发起 党组织发起公益活动 活动预约 希望参加的党员、居民进行活动预约 活动开展 活动开展 / 拍照、视频记录 活动记录 记录活动过程 / 上传活动材料 / 心得分享 平台功能 微课随学:微课形式体现,通过碎片化时间学 习,让学习党课无时无刻。 学而致用:每个课时学习完成都有匹配课时内 学习任务 考试管理 题库管理 积分管理 趣味答题 每日一题 学习任务 考试管理 教育学习 平台功能 打造特色党建资讯、支部风采展示平台 构建丰富多彩的图、文、视频展示专栏 待办事项提醒、投票管理,更便捷的资讯管理 可根据需求定制主题及分类,探索更多应用价值 支持评论、点赞、多渠道分享功能 党建资讯管理 党建资讯 待办事项 平台功能 线上投票 激励机制 平台功能 排行榜 积分商城 政治生日 奖惩机制 政治生日 排行榜 积分商城 奖惩机制 增值服务 平台功能 直播 党费缴纳 AI 党建助手 视频会议 工会服务 共青团服务 投票选举 问卷调查 微博朋友圈 其它定制功能 特色功能模块建设 -- 大数据中心 平台功能 利用大数据技术提取信息库中的数据,对20 积分 | 42 页 | 4.88 MB | 2 天前3
从DeepSeek探讨大语言模型在建筑及能源行业的应用趋势和技术方法交 口 N 视频源: https://openai.com/index/sora/ 世界模型 / 数字孪生: SORA 是世界模型 吗 ? 停 从 世界模型 / 数字孪生: SORA 是世界模型吗 ? 真实画面质感 生成复杂场景 视频风格多样 擅 长 Sora 薄 弱 模拟科学规律 理解社会行为 显示可读信息 过程可解释性 视频源: https://www NVIDIA CEO 黄仁勋 「 5 年实现 AGI, 10 年算力提高 100 万倍」 > 未来的 Al 将会自我生成数据来 进行强化学习; > 要 让 Al 完美地生成图像与视频, 必须要让它基于物理学,创建 一 个世界模型。 2018 图灵奖得主 卷积神经网络创始人 Yann LeCun 2024 年 11 月 9 日 「通往 AGI 只差最后一步,10 积分 | 78 页 | 33.88 MB | 6 月前3
铁路沿线实景三维AI大模型应用方案首先,本方案的基础是高精度三维地理信息系统(GIS)和三 维模型的构建。通过利用无人机航拍、激光雷达(LiDAR)扫描等 手段,获取铁路沿线的三维空间数据。同时,结合多种传感器的数 据(如气象监测装置、视频监控等),可全面收集并叠加不同维度 的信息,以便形成精细的三维环境模型。 其次,数据处理与分析将是模型应用的核心环节。利用深度学 习和机器学习技术,对收集到的多源数据进行融合与分析,提取出 讨深度学习模型 的具体应用,以及其在实际操作中的实现方式。 首先,要确定深度学习模型的主要任务,这些任务通常包括图 像识别、目标检测、语音识别以及视频分析等。针对铁路沿线三维 环境数据,我们特别关注以下几个方面的应用: 1. 图像与视频分析:通过卷积神经网络(CNN)对铁路监控视 频进行实时分析,有效识别铁路沿线的设备和障碍物,确保安 全运行。 2. 目标检测与分割:利用 YOLO(You 实际 需求进行调整。常用的深度学习框架如 TensorFlow、PyTorch 等,可以有效支持模型的构建与训练。以下是关于深度学习模型构 建的基本流程: 数据收集:收集铁路沿线的图像、视频、传感器数据等,构建 多样化的数据集。 数据预处理:对收集的数据进行去噪、归一化、增强等处理, 提高模型训练的有效性。 模型选择:根据任务需求,选择合适的深度学习算法,如 CNN、RNN40 积分 | 200 页 | 456.56 KB | 5 月前3
共 24 条
- 1
- 2
- 3
