ppt文档 企业级大数据平台产品解决方案 VIP文档

2.97 MB 30 页 0 下载 25 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pptx
3
概览
企业级大数据平台 解决方案 大数据解决方案概述 1 Par t 人工智能 数据总线 数据治理 数据 标准 数据 质量 元 数据管理 数据 地图 数据 资产 数据安全 权限管 理 安全接 入 数据加 解密 数据分 级 日志 审计 统 认证 共享开放 服务 API SDK JDBC/ODBC 微服务 智能调度 任务 发布 任务调 度 任务 管理 任务 监控 任务 关联 数据采集 实时采集 离线采集 结构化数据采集 非结构化数据采集 大数据产品架 构 应 用 分 析 处 理 存 储 采 集 HDFS 2 Par t 其他 数据 库 关系 型数 据库 内存 数据 库 Hive Hbase 模型算法库 可视化建模 数据迁移 数据分析 数据处 理 机器学习 产品定位 随着大数据时代的不断发展, 各大企业、政府纷纷建立大数据中心,数据分析 、应 用 的脚步越来越快,在此过程中,异 构数据源的使用 、关联分析 的需求越发旺盛,如何快速、便捷地采集异构 数据至大数据平台,成为数据采集汇聚的关键。 我司提供的数据汇聚产品主要功能是将各种存 储 方式的数据源接入到大数据平台或者其他数据 仓库。通过提供可视化界 面,帮助用 户轻松完成采集任务创建、运行,并实时提 供任务监控,使用 户随时了解自己的采集任务状态。 采用 主流的流式计算引擎作为产品的主要采集框架,提供离 线采集、实时采集两种方式,满足用 户不同的采集需求。 产品特色 数据采集产品——定位及特色 组件灵活 提供多种基础数据源组件, 处 理组件,目标组件,也 可根据用 户需求,任意拼 装该些组件部署,更可为 用 户提供定制化组件的开 发 快捷易用 全流程可视化操作,拖拽 式编辑工作流,配置采集 信息,采集任务轻松灵活 完成 实时监控 工具提供实时监控功能, 用 户可随时查看采集任务 状态,及时干预,避免数 据漏采,少采 服务完善 专业的技术团队随时为用 户提供技术支持工作,提 供 7*24 小时专业服务保 障 2 Par t 04 01 02 03 数据源类型: 数据采集汇聚支持多种类型数据源的采集 ,如下表: 采集框架: 通过 Kakfa 消息队列 、 Storm 流式处 理以及 Spark- Streaming 实时计算方式,实现实时数据采 集; 通过 Flume 实现批量数据采集; 数据存 储 : 提供主流关系型数据库以及 HDFS 分布式多冗余存 储 ,支持动态扩缩容 可视化: 提供可配置数据源组件 ,处理组件 ,终端组件 ,用 户可自定义工作流 ,实现采集任务 提供任务监控供用 户查看工作流 执行情况 ,提供资 源监控供管理员对系统资源进行整体把控 Storm 流式处 理 Spark-Streaming 实时计算 数据采集 Kafka Flume Flume …… Flume 可视化 自定义工作流 任务调度 数据存 储 关系型数据库 文本类 关系型数据库 其他 本地文件 Oracle 消息队列 FTP SQLServer Nosql 数 据 库 SFTP MySQL 协议类 数据采集产品——技术架构 任务监控 资源监控 HDFS …… 2 Par t 关系型 数据库 数据源 FTP/ SFTP 本地文件 Nosql Kafka HDFS HTTP …… FTP 本地文件 HDFS kafkaV8 关系型数据库 ( oracle 、 mysql 、 sqlserver 、 南大通用 、 武汉达梦等) hbase Flume Storm Spark Flink FTP 本地文件 HDFS kafka 关系型数据库( oracle 、 mysql 、 sqlserver 、 南 大通用 、 武汉达梦等) Hbase Hive ES 数据采集产品——使用场景 2 Par t 处 理组件 目标组件 数据源 数据采集产品——配置化采 集 平台提供数据源组件, 处 理组件 , 终端组件选择 , 用 户可通过拖拽将需要的 组 件拖入工作流画布中连 线后 完成工作流 组件之间关联好后 , 对 各类组件进行信息配置 , 例 如: 处 理组件 进行添加节点, 配置节点信息 查 看 工 作 流 各 个 环 节 的 状况 , 通过界面查询 , 用 户 能直观的知道整个作业 的执 行情况 , 异常发生等 实 现 数 据 采 集 任 务 的 统 一调度功能 , 包括作业发 布 管理 , 作业审核管理 , 作业 运行管理 ,作业进程 管理等 STEP1. 选择组件 STEP2. 配置信息 STEP3. 执行工作流 STEP4. 查看工作 流 2 Par t 人工智能 数据总线 数据治理 数据 标准 数据 质量 元 数据管理 数据 地图 数据 资产 数据安全 权限管 理 安全接 入 数据加 解密 数据分 级 日志 审计 统 认证 共享开放 服务 API SDK JDBC/ODBC 微服务 智能调度 任务 发布 任务调 度 任务 管理 任务 监控 任务 关联 数据采集 实时采集 离线采集 结构化数据采集 非结构化数据采集 大数据产品架 构 应 用 分 析 处 理 存 储 采 集 HDFS 2 Par t 其他 数据 库 关系 型数 据库 内存 数据 库 Hive Hbase 模型算法库 可视化建模 数据迁移 数据分析 数据处 理 机器学习 复杂任务简单化 产品具有多任务关联功能,对于复杂任务,可拆分多 个子任务后关联,用 户管理 子任务,大大降低复杂度。 更可建立公共子任务,减少重复工作量,提高效率 任务定时 对于业务算法要求每天定时执行,或者在每天 晚上凌晨空闲时执行,产品提供各类型定时功 能,更可用 户自定 义,满足多种业务场景 个性化任务告警 产品提供多渠道通知功能,包括邮件,短信等。 用 户自定 义告警规则,任务执行失败时,及时 通知相关人员处 理 图形化工作界面 用 户可通过产品界面 进行图形化任务创建及管 理,操作多以拖拽及连线方式,大大降低操 作 难度,及使用 大数据平台的 门槛 组件式按需配置 产品松耦合,提供各类通用 型数据组件 ,各个 组件可自由插拔组合,用 户可根据实 际应 用 场 景配置,更提供定制化组件开发服务,为用 户 量身订造自有组件 多租户空间资源隔离 本产品与我司的多租户权限管理相结合,可实现 租户间资源隔离及存 储 空间隔离,既保证了平台 资源的合理分配及使用 ,也保障了用 户 私有信息 的安全 智能调度——定位与特色 2 Par t 创建任务 监控任务 管理任务 面 管理 理 作业发布 定时调度 作业调试 日志监控 参数测试 执行控制 作业关联 日志下载 文件目录管理 文件上传下载管理 文件增删改查管理 作业发布管理 作业进程管 理 图形化界 作业参数 进程监控管 作业空间管理 权限管控服 务 智能调度——功能架构 2 Par t 控件管理 菜单管理 角色管理 用 户管理 智能调度 运行情况实时监控告警 ,详细日志快速查看 独立作用空间 , 互相隔离互相不可 见 自定义作业参数 ,灵活配置调度策 略 BS 架构 ,拖拽式任务配置发 布 2 Par t 人工智能 数据总线 数据治理 数据 标准 数据 质量 元 数据管理 数据 地图 数据 资产 数据安全 权限管 理 安全接 入 数据加 解密 数据分 级 日志 审计 统 认证 共享开放 服务 API SDK JDBC/ODBC 微服务 智能调度 任务 发布 任务调 度 任务 管理 任务 监控 任务 关联 数据采集 实时采集 离线采集 结构化数据采集 非结构化数据采集 大数据产品架 构 应 用 分 析 处 理 存 储 采 集 HDFS 2 Par t 其他 数据 库 关系 型数 据库 内存 数据 库 Hive Hbase 模型算法库 可视化建模 数据迁移 数据分析 数据处 理 机器学习 l 实现异构数据交换的快速 通道 l 组件式拖拽实现数据 ETL l 便于用 户查 询及关联分析 不同数据源的数据 l 实现数据迁移 (同种数据 库、 异构数据库) 数据总线——数据 ETL NoSQL 其他 数据总线 过滤清洗 关系型数据 库 2 Par t Mpp 数据库 格式规则转换 Hadoop 数据集成 字段映射 提供可视化数据建模挖掘工作台,依托大数据集群强大的计算能力,进一步提升租户对于海量数据的建模挖掘能力, 提高开发效率。 u 交互式开发界面支持:全流程、图形化、组件拖拽式的交互式开发能力,快速便捷 u 完善的算法调试支持:提供小批量数据运行、断点调试、模型参数调试等 u 多租户管理支持:底层融合多租户权限体系,保证数据资源、存 储 资源以及计算资源的安全管控 u 数据挖掘建模支持:常用 机器学习算法 (随机森林,逻辑回归二分类,二分类评估,预测),统计分析(数据视图,数据直方图),模型管理及共享等 数据总线——数据分析 2 Par t 人工智能 数据总线 数据治理 数据 标准 数据 质量 元 数据管理 数据 地图 数据 资产 数据安全 权限管 理 安全接 入 数据加 解密 数据分 级 日志 审计 统 认证 共享开放 服务 API SDK JDBC/ODBC 微服务 智能调度 任务 发布 任务调 度 任务 管理 任务 监控 任务 关联 数据采集 实时采集 离线采集 结构化数据采集 非结构化数据采集 大数据产品架 构 应 用 分 析 处 理 存 储 采 集 HDFS 2 Par t 其他 数据 库 关系 型数 据库 内存 数据 库 Hive Hbase 模型算法库 可视化建模 数据迁移 数据分析 数据处 理 机器学习 “ 傻瓜化”建模 将复杂建模过程,“傻瓜化”、流程化、 插件化,在建模过程,只要拖拽插件, 就能构建模型。 降低技术门槛,使得非技术人员,也能 操作建模 开发源组件、预处 理组件、特 征工程组 件、算法组件和模型评估组件 模型可复用 将算法模型插件化,序列化和持久化, 创建共享机制,用 户可以调用 已有的模 型,避免重复建设。 将昂贵的生产资源,转化成公共基础设 施 数据预处 理、特 征工程等工作复用 开源算法补充 集成多种开源算法 Tenserflow 、 MXNet 、 Pytorch 、 Caffe2 、 Sklearn 、 Numpy/Scipy 非结构数据挖掘需求 ⅹ 大量的语音、图片、文本、视频 等非结构化数据还没有充分挖掘 利用 ⅹ SPSS 更偏向于数据统计方面应 用 , 很 难深层次挖掘数据价值 ⅹ 建模流程复杂,不友好 ⅹ 传统工具非集群模式,计算资源受制 于 用 户 电脑本身 ⅹ 没有模型保存 的功能, 导 致 模型无法很好的共享, 产生 重复工作和资源浪费 传统算法效果不佳 ⅹ 仅运用传统的机器学习算 法 (决策树、逻辑回归、随机 森林、神经网络、聚类等) 挖掘数据内在价值,不能满 足某些场景应 用 效果要求 人工智能平台优势 2 Par t 模型共享不便 传统工具局限 人工智能服务能力介绍 2 Par t 人工智能平台: ① 数据资产管理能力:数据、模型、样本、 特征全生命周期管理 ② 多算法库兼容能力:主流算法库支持,多 开发语言支持,模型构建与算法集成。 ③ 完整的 AI 算法开发能力:提供多框架支持, 提供从模型开发、训练、部署一整套服务。 ④ AI 应 用 构建能 力:视频、 NLP 、语言三大 领域成熟应 用 以及基 于业务的 AI 应 用 ⑤ 平台能力开放:支持平台服务、应 用 、模 型开放,与三方平台灵活对接 ⑥ 开发管控能力:实现模型开放全流程管控、 日志审计 数据 资产 管理 样本管理 元数据管理 样本标注 算力 资源 管理 预训 练模 型 模 型 管 理 外部 算法 引入 模 型 评 估 流 程 管 理 流程制定 工作流管理 任务管理 调 度 引 擎 开 发 工 具 机器 学习 框架 ····· 人工智能——技术架 构 数据 安全 隐私 保护 运营 管理 平台 数据 展示 与可 视化 ··· 开发管控 图像 / 视频 图 像 识 别 NLP 分 词 分 类 服务 语音 2 Par t 基础 设施 安全 情 文本转 绪 语音 识 语音转 别 文本 模型发布 模型下线 模型导出 模型更新 数据 存 储 处 理 安全 数据 应 用 安全 集成 整合 运行 监控 平台 管理 服务 治理 特征池管理 自动化 部署 服务型服务 决策型服务 存 储 管理 结构化模板管理 日志 审计 PyTorch Tensorflow 服务启动 资源分配 训练发布 模型发布 资源申请 应 用 资源管理 MxNet 数据目录管理 检索功能管理 Caffe2 监 控 在线评估 离线评估 模型 知 识 图 谱 实 体 抽 取 图 像 分 类 人 脸 识 别 语 音 识 别 句 法 分 析 N E R 任务监控 资源隔离 能力开放 服务 可视化监控 RStudio 存 储 安全 网络 GPU 容器 CPU Jupyter 集成展示 报表展示 人工 智能 AI 能力 更新 调用 版本 控制 服务 导 入 ··· u 提供标准化的流程引导,把高大上的算 法生产变成流程化操作 u 提供算法开发插件,提供面向不同业务 场景的建模开发工具,快速构建模型 uCPU 、 GPU 资源统 一 调度管理 u 样本数据共享 u 算法模型复用 人工智能—— AI 平台能 力 2 Par t 知识图谱构建: 将通过互联网爬取的不同类型、不同结构的信息进行,基于不同行 业 的元数据( Metadata ),基于基于深度学习构建领域知识图谱 和通 用知识图谱,有效提升多源数据整合之上的对象刻画能力,深 入揭示 对象之间的关系。 文本分析 技术: 根据分词、热词分析和语义分析等技术,对文本数据进行分析 、分类、 聚类和信息情感能量评估等工作,广泛地用于政府舆论监督、投诉类 工单知识整理和优化、智能客服、信息摘要及营销话术优化等场景。 人工智能—— AI 应用 服
下载文档到本地,方便使用
- 可预览页数已用完,剩余 29 页请下载阅读 -
文档评分
请文明评论,理性发言.