图像 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

海康威视智慧工厂可视化解决方案

馈更加迅速，提高了企业对安全隐患及生产现场问题的快速反应能力，从而更好地适应竞争日益激烈的市场环境。以下抽取本方案设计部分应用进行说明：网络高清视频联网：通过视频监控联网，可为各级管理人员按权限分配各环节现场图像信息，避免现场状况信息汇报的延时，出差在外的管理人员甚至可通过移动网络了解现场实际情况以参与应急决策；报警联动策略：可设计通过视频分析、人脸识别、黑名单识别等技术进行实时侦测，当有非法备及车厢环境监测设备，提供远程视频监控、GIS 定位及厢货环境保障等；  可考虑使用单兵车牌识别功能，通过远程联网随时从后台获取、显示物流车辆信息；  可考虑厂内道路设置卡口设备（车牌识别、图像抓拍、违章测速等）追踪车辆路径；  入口信息显示屏可显示车辆信息；  支持通过车牌号从后台调取车辆信息，包括物流类型、司机资料照片等。行业基线方案密级级别：内部公开海康威视保密信息，未经授权禁止扩散第 4 6 页 4.3.2 基础应用功能 4.3.2.1 应用客户端整体界面 4.3.2.2 实时图像的浏览 1) 通过 C/S 客户端和 WEB 浏览器，可以单画面或多画面显示实时视频图像；支持不同画面的显示方式：1、4、6、9、16 画面等方式；还可以支持 6、7、8、10、13、14、17、22、24、25 画面多种规格画面

20 积分 | 173 页 | 22.95 MB | 1 月前
3
电子行业深度报告：AI系列深度，AI+降本增效拓宽应用，硬件端落地场景丰富-20230712-东吴证券-28页

爆火，其能力已接近人类水平。GPT 升级至四代，模型能力高速提升。2023 年 3 月 15 日，OpenAI 正式官宣了多模态大模型 GPT- 4，ChatGPT4 将输入内容扩展到 2.5 万字内的文字和图像，较 ChatGPT 能够处理更复杂、更细微的问题。最新版的 GPT-4 在 ChatGPT 的 GPT- 3.5 基础上主要提升了语言模型方面的能力，并添加了多模态功能，在不同语言情景和内部对抗性真实性评估的表现都显著优于 AI 分析后的结果。传统安防产业在产品、技术与应用等多维度实现了更深层次的进化与变革。2、人工智能亦将更加广泛地应用到智能制造行业中，机器视觉检测是 AI 技术在智能制造中最好的落脚点之一，AI 图像增强技术、AI 缺陷检测算法等技术的发展有望提升机器检测效率，从而逐步代替人工目检。 ◼ 投资建议： AI 产业链条长，各环节机遇频现，AI 应用的发展将是推动产业链上下游共同繁荣的动力，相关标的梳理如下：1、终端品牌：传音 ........................................................................... 13 图 23： Meta SAM 可以实现图像切割 ................................................................................................

10 积分 | 28 页 | 2.68 MB | 9 月前
3
英特尔-工业人工智能白皮书2025年版

• 质量管理：产品缺陷检测是质量管理的重要一环，尤其是对于金属等高反光产品、薄膜产品的划痕、裂纹、凹坑、气孔、污染等非常难检出的外观缺陷，利用传统视觉算法，对工业相机采集到的图像经过预处理，基于图像分割等深度学习模型，高效且较为准确地检出缺陷，为传统的视觉检测技术赋予高度智能化。质量检测也是目前 AI 技术在工业领域落地应用较多、较为成功的一个方向。 • 智能生产管理：时检测要求，使得效率和准确率低下且容易漏检的人工质检和容易受复杂环境光干扰的传统机器视觉检测方法无法胜任。将 AI 视觉算法技术与机器视觉成像技术相结合，利用经过缺陷图像训练的深度学习模型识别工业相机捕获的缺陷图像，满足终端检测节拍要求 24 秒/轮毂，提高检测精度和生产线效率。 08 01 工业人工智能 (AI) 行业观察以智能手机、平板电脑、笔记本电脑等为主导的消费电子产品以及生产制造，也是秒/件之间，甚至更快。传统的人眼检测，不但无法达到微小缺陷的检测精度要求，而且人眼容易疲劳，存在效率低、误检漏检偏高等问题，无法满足生产的精度和节拍要求。将深度学习算法与高精度成像系统相结合，更快速地识别出产品图像中的缺陷及种类，满足生产线对检测精度和速度的要求。锂电池的质量直接关乎电动车的安全性，因此锂电对质检要求严苛。锂电生产过程中的检测工序繁多，包括原料生产中的隔膜缺陷检测，前段工序中的极片

0 积分 | 82 页 | 5.13 MB | 9 月前
3
生态环境保护基于多模态AI大模型智慧诊断应用设计方案（141页 WORD）

.........................................................................................27 3.2.1 图像模态................................................................................................. 人工智能领域的研究与应用热点。这类模型通过融合多种不同类型的数据源，如图像、文本、语音和传感器数据等，能够实现更为全面和精准的智能分析及决策支持。相较于单一模态的 AI 系统，多模态 AI 大模型能够在面对复杂环境和任务时，提供更为丰富的上下文信息与推理能力，从而大幅提升智能化应用的效果。多模态 AI 大模型的关键在于其多层次的数据融合机制，包括但不限于文本嵌入、图像特征提取、声音信号处理等。这些模块通过共享和交互信息，支持生成更为准确的预测和决策。以图像和文本结合的应用为例，模型不仅能理解图像内容，还能综合背景信息进行更深层的理解。例如，在生态环保领域，通过分析无人机拍摄的森林图像与相关环境政策文本，多模态 AI 可以识别出生态环境的变化趋势及其潜在影响。实际应用中，多模态 AI 大模型的优势显著体现在以下几个方面：  数据综合分析：通过结合不同类型的数据，提供更全面的视

40 积分 | 149 页 | 294.25 KB | 1 月前
3
DeepSeek大模型及其企业应用实践

Vision，CV）领域中使用的大模型，通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练，可以实现各种视觉任务，如图像分类、目标检测、图像分割、姿态估计、人脸识别等。代表性产品包括VIT系列（Google）、文心UFO、华为盘古 CV、INTERN（商汤）等是指能够处理多种不同类型数据的大模型，例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力，以实现对多模态信息的综合据来自互联网上的大量文本，因此，它能够涵盖多种语言风格和文化背景 2.1 国外的大模型产品 n Gemini Gemini是谷歌发布的大模型，它能够同时处理多种类型的数据和任务，覆盖文本、图像、音频、视频等多个领域。Gemini 采用了全新的架构，将多模态编码器和多模态解码器两个主要组件结合在一起，以提供最佳结果 Gemini包括三种不同规模的模型：Gemini Ultra、Gemini Intelligence）的时代。 AGI是指能够像人类一样进行各种智能活动的机器智能，包括理解语言、识别图像、进行复杂推理等。Sora大模型能够直接输出长达60秒的视频，并且视频中包含了高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这种能力已经超越了简单的图像或文本生成，开始触及到视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理静态信息上越来越强大，而且在动态内容的创造上也展现出了惊人的潜力

10 积分 | 147 页 | 16.82 MB | 9 月前
3
DeepSeek大模型赋能高校教学和科研2025

GPT 系列（ OpenA I ）、 Bard （ Google ）、 DeepSeek 、文心一言（百度）等多模态大模型是指能够处理多种不同类型数据的大模型，例如文本、图像、音频等多模态数据。这类模型结合了 NLP 和 CV 的能力，以实现对多模态信息的综合理解和分析，从而能够更全面地理解和处理复杂的数据。代表性产品包括 DingoDB midjourney 等视觉大模型是指在计算机视觉（ Computer Vision ， CV ）领域中使用的大模型，通常用于图像处理和分析。这类模型通过在大规模图像数据上进行训练，可以实现各种视觉任务，如图像分类、目标检测、图像分割、姿态估计、人脸识别等。代表性产品包括 VIT 系列（ Google ）、文心 UFO 、华为盘古 CV 、 INTERN 因此，它能够涵盖多种 3.6.1 国外的大模型产品语言风格和文化背景 n Gemini Gemini 是谷歌发布的大模型，它能够同时处理多种类型的数据和任务，覆盖文本、图像、音频、视频等多个领域。 Gemini 采用了全新的架构，将多模态编码器和多模态解码器两个主要组件结合在一起，以提供最佳结果 Gemini 包括三种不同规模的模型： Gemini

10 积分 | 123 页 | 15.88 MB | 9 月前
3
AIGC生成式AI大模型医疗场景应用可行性研究报告(152页 WROD)

.......................................................................................49 4.2.1 医学图像处理.............................................................................51 4.2.2 影像生成与增强... 当前，面对全球医疗资源紧张、临床决策复杂化等挑战，传统医疗模式已无法满足日益增长的患者需求。医务人员需要在短时间内处理海量的信息并做出决策，这无疑增加了医疗风险。生成式大模型通过自然语言处理、图像生成等技术，可以在多方面为医疗应用提供支持。首先，生成式大模型可以应用于临床诊断辅助。通过分析患者的症状、实验室结果及影像学资料，这些模型能够生成初步的诊断建议。这不仅提高了诊断的准确性，还可以减少医生的工作负担。生成式大模型概述 AI 生成式大模型，正如其名称所示，是通过深度学习技术训练的复杂模型，能够基于输入数据生成新的内容。这些模型广泛应用于自然语言处理、图像生成、语音识别等多个领域，尤其在医疗场景中展现出良好的应用潜力。通过海量医学文本、图像和结构化数据进行训练，AI 生成式大模型能够理解并生成专业的医疗信息，辅助医疗决策、提供个性化医疗服务、以及改善患者的整体体验。首先，生成式大

60 积分 | 159 页 | 212.70 KB | 7 月前
3
电子行业：AI大模型需要什么样的硬件？-20240621-华泰证券-40页

开始普及，3）隐私保护需求推动办公用 PC AI 化等三大机会。具备记忆、推理、规划、执行能力的 AI Agent 可能是大模型的最终形态大模型的应用能力最初功能仅限于文字问答，此后逐渐引入图像理解、文生图功能，并通过 GPT Store 拓展功能，形成了 AI Agent 雏形，近期 GPT-4o 则实现了具备情感的互动。用户数方面，根据 Similarweb，24 年 5 月 ChatGPT AR/VR 被认为有望替代手机成为下一代移动终端。但由于缺少触摸屏，人机交互困难一直是困扰其发展的一大难点。从最近谷歌推出的 Project Astra 以及 Meta 的雷朋眼镜中我们看到，大模型所具备的图像理解、语音交互，以及根据语音交互结果进行的执行能力有望大幅度提高 AR 眼镜的交互能力。目前具身智能的发展仍处于非常早期的阶段，但是大模型所具备的以上能力有望大幅提高机器人对环境的理解能力，以及根据理解结果控制关节等年初，主流闭源大模型通常为纯文本的 LLM。2023 年至今，闭源模型的多模态能力具有大幅度提升，目前主流闭源大模型通常具备图像理解、图像生成能力。部分最前沿的闭源大模型，例如 GPT-4o、谷歌 Gemini，支持的模态更加多元，能够理解文本、图像、音频、视频（帧），并生成文本、图像、音频。2022 年 9 月，红杉资本预计还需要近十年的时间，大模型才能实现实习生级别的代码生成、好莱坞质量的视频

10 积分 | 40 页 | 2.60 MB | 9 月前
3
基于大模型的具身智能系统综述

甚至进行诗歌和故事的创作; BLIP (Bootstrapping language-image pre-train- ing)[10]、BLIP2[11]、GPT4-V[12] 等视觉−语言大模型则能对图片进行图像分割[13]、目标检测[14]、视觉问答 (Visual question answering, VQA)[15]; DINO (De- tection transformer with improved (Contrastive language-im- age pre-training)[17]、SAM (Segment anything model)[18] 等视觉基础模型则以低于前两者的模型量级提供跨越图像与文本鸿沟的能力, 为进行实时的开放词汇的视觉检索提供了可能. 这一系列的进展不仅展示了基础模型的强大潜力, 也为其与具身智能的融合提供了新的视角和可能性. 文献 [19] 将上述在大规模数据集上进行训练并能适应广泛任务捕获各模态之间的关系, 提取为统一的高维特征, 形成对世界的理解. 如对大量无标签的互联网文本和图像进行预训练的视觉模型, 能将图像与文本编码到同样的向量空间中, 这种对齐不仅有利于对环境的感知, 也有利于对用户自然语言指令的理解, 利于完成复杂的任务. 本节主要讨论各类将大模型用于具身智能感知与理解的方法, 讨论范围是文本、图像和音频等信息, 其中感知的信息来源于环境与人类用户. 1.1 多模态模型理解

20 积分 | 19 页 | 10.74 MB | 3 月前
3
大模型在自然资源规划管理中的探索与实践

绿色低碳底线守护 N 个智能体应用行业业务微调业务价值对齐检索增强算力基础知识图谱文本规则模型环境图文对视频图像实体分类空间边缘计算高性能存储专业 AI 芯片 Gpu 算力 …… 整治修复土地利用行业知识语料大模型构建平台行业大模型业务智能体政 113 国土资源部办公厅关于加强全国矿产资源潜力评价成果管… .2025/3/619:28 训练语料样本库多模态理解微调特定任务标注正反例百条图文对多模态理解模型微调图像 / 视频 + 文本描述 ( 十万级 ) 多模态 QA 结果排序 ( 万级 ) 问答对大语言模型微调千条 ~ 万条 QA 对形成宁波市自然资源行业知识库，为城市大模型建设提供权威行业语料国土资源部办公厅关于印发《土地权属争议案件文书格式… 2024/2/215:26 要素识别提取图像理解扩写视频分类视频 OCR 视频理解扩写深加工解析版面分析 Chunk 切分文档结构树公式解析图表理解表格解析图像解析图像分类语义标注专题知识 . 语料处理数据治理

10 积分 | 38 页 | 12.05 MB | 8 月前
3

共 169 条前往

页

分类

语言

格式