大数据平台产品建设和应用方案
17.94 MB
72 页
0 下载
39 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
大数据平台产品建设和应用方案 大数据平台产品建设和应用方案 1. 大数据概述 2. 大数据平台建设 3. 大数据平台应用 目 录 Contents Part 1 大数据概述 大数据平台产品建设和应用方案 大数据:成为国家战略 《十三五规划纲要》 提出实施国家大数据战略,把大 数据作为基础性战略资源,全面 实施促进大数据发展行动,加快 推动数据资源共享开放和开发应 用; 2016 年 3 月 18 日 2016 年 8 月 31 日 江苏省政府 《关于运用大数据加强对市场 主体服务和监管的若干意见》 提高政府运用大数据能力; 推动简政放权和政府职能转变; 提高政府服务水平和监管效率, 降低服务和监管成本; 2015 年 9 月 5 日 国务院 2015 年 7 月 1 日 国务院 《促进大数据发展行动纲要》 大力推动政府信息系统和公共数据互 联开放共享,加快政府信息平台整合; 以企业为主体,加大大数据关键技术 研发,着力推进数据汇集和发掘,深 化大数据在各行业创新应用; 大数据成为国家战略 《江苏省大数据发展行动计 划》 工信部、发改委 大数据平台产品建设和应用方案 大数据实例:中国电信海量数据 携程、途牛、去 哪儿、同程、美 团等月上网总量 5.02 亿条 / 月 手机定位 7 亿条 / 天 上网搜索、 浏览、点击等 行为数据 100 亿条 / 天 海量数据 实时获取 GPS 定位 500 万 / 天次 海量数据 覆盖人口 固定电话 2000 万用 户 家庭、公共 景区 WiFi 使用者 90% 以上 IPTV 用户 600 万 政府大企业 200 万 全省 网民 650 0 万 手机用户 2300 万 10T 仅江苏省每天数据量 大数据平台产品建设和应用方案 江苏电信 数据现状 容量大( Volume ):江苏电信数据总量已达 10P+ ,日均产生网络日志数据 10T+ 、话单数据 1T 、… 类型多( Variety ):包括位置信令数据、用户网络数据、呼叫记录数据、终端数据、视频数据、… 存取速度快( Volecity ):海量数据的快速产生、快速存储、快速使用 应用价值高( Value ):最真实的客户、产品、资源和订单等数据;最详实的用户行为数据 电信用户基本数据 号码 身份信息 缴费信息 消费信息 移动位置数据 基站信息 移动信息 滞留信息 …… 信令数据 主叫信息 被叫信息 IP 信息 位置信息 终端数据 Mac 地址 终端 ESN APP 信息 …… 网络日志数据 移动/固网源地址 目的地 IP 目的地 URL …… 用户触点数据 10000 网厅 …… 大数据特征 大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨 大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能 力的新一代信息技术和服务业态。 大数据平台产品建设和应用方案 大数据行业生态图谱 大数据的核心 - 企业技术 大数据基本上就是管道设施的一种。 大数据为许多消费者或商业用户体 验提供了动力,但它的核心是企业 技术:数据库、分析等。 大数据的关键 - 无缝集成 大数据的成功不在于实现技术的某 一方面(像 Hadoop 、 spark 等),而是需要把一连串的技术、 人和流程糅合到一起。 大数据的构成 - 多层递进 大数据基础设施日益完善,大数据 分析 BI 平台普遍成熟,大数据应 用层正在快速构建。 大数据平台产品建设和应用方案 大数据思维 - 数据范畴 信息管理 • 坚实的信息基 础 • 标准化的数据 管理实践 • 可获得并且可 用的洞察力 分析技能和工具 • 作为核心专业而 发展的技能 • 通过一套可靠的 工具和解决方案 而实现 • 培养面向行动的 洞察力 面向数据的文化 • 基于事实的领 导力 • 用作战略资产 的分析技术 • 洞察力知道的 战略和运营 管理数据 理解数据 使用数据 企业必须掌握三项分析技能才能实现竞争优势 大数据平台产品建设和应用方案 大数据思维 - 三原则 “ 大数据三原则”:要全体不要抽样,要效率不要绝对精确,要相关不要因果。 小数据 大数据 抽样数据、局部数据和片面数 据 用全体代替抽样 统计抽样的局限性 精准性 用数量代替精确 拥抱混杂性:容错性更强 经验、假设和价值观 用相关性代替因果性 知道是什么比知道为什么 更重要 大数据平台产品建设和应用方案 大数据角色 业务人员 • 业务用户:提出业务需求,并制定优先级 • 业务分析师:有较深的行业业务知识,通过分析业务数据提供决策支持 • 数据科学家:具有专业领域知识、统计分析背景和计算机技术基础,从数据中挖掘有效 信息以解决业务深度分析需求 • 机器学习专家:具有统计学思维、丰富的编程和数据建模经验,通过开发算法进行业务 分析和预测 技术人员 • 平台 / 系统架构师:软件工程师背景,对大数据、云计算有较深的理解,负责技术选型 和实现流程 • 数据工程师:负责数据的采集、存储、处理 • IT/ 运维人员:负责平台的开发、部署、运营、发布、管理和监控 大数据时代,解析海量难以理解的信息足以导致改变世界的革新。但真正理解这些数据,需要各个方面专业人士。 大数据思维 - 角色划分 大数据平台产品建设和应用方案 数据仓库数据源不断扩大(新增互联网非结构化数据等),数据量由 TB 级向 PB 级增长 几乎所有互联网企业都在业务或分析系统中采用了大数据 ( 特别是 Hadoop 数据分析技术),一方面应 对不确定的业务增长和处理各种结构化与非结构化数据,另一方面降低采购和运维成本。采用 Hadoop 大数据平台的互联网企业如国际上的 Facebook 、亚马逊( Amazon )、 ebay 等,国内的淘宝、阿里 巴巴、京东、苏宁云商、百度、腾讯、优酷等 电信运营商包括国际上的 AT&T 、 Vodafone 等,国内的中国电信、中国联通、中国移动也已经引入了 hadoop 大数据平台 谁在使用大数据? 大数据平台产品建设和应用方案 调研报告 - 大数据使用和分析的目标 53% 关注客户 40% 关注运 营 7% 关注财务 全球企业使用数据和分析的目标 获得客户和提升体验 运营销量 财务和风险管理 使用数据和 分析改进客 户体验 59% 关注客户 34% 关注运营 7% 关注财务 中国区使用数据和分析的目标 获得客户和提升体验 运营销量 使用数据和分 析 改进客户体验 大数据平台产品建设和应用方案 调研报告 - 大数据来源 企业主要使用内部数据源开展大数据举措 交易 日志数据 事件 电子邮件 88% 57% 73% 59% 社交媒体 传感器 外部来源 RFID 扫描或 POS 数据 自由格式文 本 地理空间 音频 静态图像 / 视频 41% 41% 42% 42% 43% 40% 38% 34% 大数据平台产品建设和应用方案 调研报告 - 大数据基础设施(平 台) 信息整合 可扩展的存储基础架构 高容量数据仓库 安全与治理 65% 64% 59% 58% 脚本与开发工具 列存储数据库 复杂事件处理 工作负载优化 分析加速器 Hadoop/MapReduce NoSQL 引擎 流计算 54% 51% 45% 45% 44% 42% 42% 38% 受访者大数据基础设施的组件 信息整合是任何分析项 目的关键组成要素,对 大数据来说,它甚至更 加重要。企业的数据必 须随时可被需要数据的 人员使用和获得。 大数据平台产品建设和应用方案 调研报告 - 大数据分析能力(应用) 查询与报表 数据挖掘 数据可视化 预测建模 优化 65% 67% 71% 77% 91% 模拟仿真 自然语言文本 地理空间分析 流分析 视频 分析 语音 分析 35% 43% 52% 56% 25% 26% 受访者采用多种高级分析技能 Part 2 大数据平台建设 大数据平台产品建设和应用方案 人在干、数在转、云在算 把握数据灵魂 找准应用抓手 夯实能力基础 风险防控 舆情分析 行为预测 …… 电信自有数据 + 业务应用数据 政务 + 教育 + 医卫 + 交通 + 旅游 + 基础设施能力 云网融合 关键业务能力 安全服务 运营保障能力 运营支撑 云计算 云计算强调的是底层基础设施的资源复用, 让资源的能力尽量发挥出来。 大数据 大数据是主要面向业务,业务需要什么样的 构架,大数据就要有相应的平台、技术和构 架。 大数据平台产品建设和应用方案 智慧的医疗 智慧的市民服务 智慧的公共安全 智慧的交通 •实时路况发送 •公交到站提醒 •通畅路线规划 •远程会诊 •智慧处方 •临床决策系统 •犯罪信息挖掘 •突发事件响应 •高危位区域统计、预警 智慧的公共事业 •智能用电分析 •环境状况分析预测 •水处理 / 水资源管理 •智能就业匹配 •政策舆情分析 •商品优惠客户匹 配 全面感知 充 分 整 合 智能处理 协 同 运 作 精 确 管 控 创 新 应 用 政务大数据需求 外部数据源 内部数据源 互联网 移动互联 网 物联网 社交媒体 等 政府部门资料信息及相关系统: 经济运行、产业、投资、消费、 能耗、交通、电力、装备、中 小企业……等 大数据来源 舆情评论 社交关系 实时位置 旅游度假 城市车位使用 …… 大数据平台产品建设和应用方案 企业大数据需求 助力运营 大数据平台产品建设和应用方案 大数据挑战 - 客户分析全流程 5 6 7 8 9 1 2 3 4 项目是为了实现 哪个业务目标? 如何表达成功 (通过哪些数据)? 您需要分析哪数据,哪 些数据具有相关性 您有哪些数据,缺乏哪 些数据,哪些数据具有相关性 您需要哪些沟通能力来实施 您的研究结果,并实现公司战略? 您需要采取 哪些行动? 这些活动与哪些客 户和产品相关? 您选择哪些沟通渠道? 您在哪些方面成功 ( 包括响应能力和业 务绩效的衡量和反馈 ) ? 客户分析举措的治理检查表 大数据平台产品建设和应用方案 数据源多种多样 数据存储代价高昂 数据资产缺乏有效管理 数据价值缺乏有效利用 用 管 存 收 大数据挑战 59% 59% 数据自然流失 70% 70% 数据过于复杂 85% 85% 企业数据架构无法适应 数据量和复杂性增长的需求 98% 98% 企业无法及时、准确地 为业务提供正确的信息 大数据平台产品建设和应用方案 性能 灵活 共享 价值 安全 关注要素 大数据关注要素 关键功能点 多级团队管理 资源开通和隔离 数据安全和隔离 程序管理和调度 数据查询分析 数据开放共享 数据隐私保护 大数据平台产品建设和应用方案 数据应用层 数据共享 层 数据存储 与分析层 数据采集层 任 务 调 度 与 元 数 据 管 理 安 全 、 权 限 与 监 控 搜索 报表 OLAP 其它数 据接口 DB Redis HBase Other File/ftp/http 实时计算 ( Storm /Spark Streaming) MR Hive Spark Sparksql HDFS Flume kafka 网站日 志 ftp/http Mysql Oracle Other Drill AD-HOC sqoop Kylin 批处理 抽取程序 依据数据特性和应用特点,建立批处理和实时计算的大数据平台系统架构 1 收 2 存 4 用 3 管 大数据系统架构 -Hadoop 方案 大数据平台产品建设和应用方案 电信大数据定位 基础设施提供商 数据产品与能力提供商 分析技术提供商 业务应用提供商 大数据使用者 基础设施提供商 数据和分析提供商 业务应用提供商 数据标签 位置信息 趋势预测 精准营销 咨询报告 我们能做什么 观 云 大 数 据 产 品 观 云 大 数 据 应 用 大数据平台产品建设和应用方案 大数据管理 数据地图 数据开发 生产部署 调度管理 数据管理 系统管理 数据交换 …… 大数据存储 数据批处理 数据实时处理 大数据收集 结构化数据 实时数据 非结构化数据 大数据分析 BI 分析 可视化 大数据挖掘 机器学习 决策支持 观云提供大数据一站式解决方案,帮助客户收集、存储、管理、使用(分析和挖掘)相关数据,提升 客户业务支撑水平。 观云基于成熟的大数据开源技术( hadoop/spark ),结合鸿信大数据团队的技术特长和项目实施 经验,形成了具有自主知识产权的大数据软件产品。 观云概述 大数据平台产品建设和应用方案 大数据源 日志数据 大数据集 群 大数据文件 结构化数据 多媒体数据 实时收集 实时毫秒级不间断采集数据,并 存入大数据集群 批量收集 按小时、日、周、月等时间周期, 批量采集各类数据,存入大数据集群 大数据收 集 非结构化数据 实时数据 数据流 观云 - 收集 大数据平台产品建设和应用方案 小型机 光纤交换 机 存储阵列 网络交换机 X86 服务 器 数据库软 件 ( ORACL E/DB2 等) 大数据软 件 ( Hadoo p/ Spark ) 成本显著降低同等存储和计算能力,软硬件综合成本最低仅需 10% V S 架构健壮 扩展灵活 Volume 海量 支持 GB\TB\PB 各种量级数 据存储和运算,实现海量数 据并发管理。 Variety 多样 轻松处理结构化和非结构化数 据,包括 Web\ 语音 \ 图像 \ 视频等数据。 Velocity 实时 实时 & 流式处理,支持海量 数据的毫秒级运算。 Scale 规模 适用小 \ 中 \ 大各种规模,可 根据数据发展情况灵活、快 速扩展集群:几台 - 千台。 实时处理 高效迅捷 不同数据 同地存储 海量数据 轻松存储 观云 - 存储 大数据平台产品建设和应用方案 数据资产管理 1 分门别类 观云 - 管理 分散各处,杂乱无序 各取所需 一点汇总,整齐统 一 数据血缘管理 2 寻根溯源 关系不清,野蛮生长 枝繁叶茂,欣欣向荣 正本清源 大数据平台产品建设和应用方案 团队和资源管 理 3 观云 - 管理 开发工具管理 4 五花八门,参差不齐 僧多粥少,山头众多 团队 1 团队 2 管理灵活,合理调 配 核心自主 降低门槛 统一规范,提升效率 削峰填谷 合作无间 大数据平台产品建设和应用方案 数据安全管理 5 观云 - 管理 IP 和工 具限制 函数 授权 用户 审计 数据表 授权 4 大安全保障 字段 加密 数据 分级 2 重隐私保护 大数据平台产品建设和应用方案 处理效率显著提升 2 应用名称 数据量 本地集市耗时 ( 分 钟 ) 大数据平台耗时 ( 分钟 ) 效率提 升 天翼、快销品到达及净增统计 上亿级 50 13 74% 天翼、快销品、 4G 新装统计 上亿级 54 15 72% 宽带日统计 千万级 10 4 60% 4G 产品清单统计 千万级 24 10 58% 天翼快销品清单统计 上亿级 34 11 68% 根据现有产品实例表作的宽表 上亿级 121 45 63% 天翼单产品合约统计 千万级 32 12 63% 后付费宽带超期缴费统计 百万级 47 20 57% 指定账目收入统计 千万级 53 23 57% 应收账款月统计 上亿级 79 20 75% 出库终端匹配月统计 千万级 61 21 66% 对比大数据平台和传统数 据库处理效率,发现效率 提升 60% 左右,而且数据 数量级越大,效率提升越 高。 多团队支撑能力 1 架构灵活,可以支撑不同 的团队基于企业数据进行 分析挖掘,实现了资源的 充分利用和数据的高效共 享。 A B C D 观云 - 使用 大数据平台产品建设和应用方案 3 丰富的可视化展现 提供海量数据的批 量和实时分析、图 形化操作、丰富的 可视化展现,帮助 客户轻松自如地完 成数据分析、业务 数据探查,提升数 据化运营水平。 实时监控大屏展现 图表结合界面展现 用户自定义界面展现 实景地图展现 观云 - 使用 大数据平台产品建设和应用方案 一站式大数据解决方案 提供大数据存储、计算、安全、工 具和服务等基础设施及一站式解决 方案,可根据客户需求进行个性化 定制。 成本大幅降低 规模灵活可调 使用廉价的 X86 服务器(新增或利 旧)组建大数据平台,极大地降低 建设成本,最低仅需传统投资成本 的 10% 。 架构先进,适用小 \ 中 \ 大各种规模, 可根据业务数据增长情况灵活、 快速扩展。 优质电信数据引用 提供客户数据 + 电信标签的能力, 助推客户业务拓展水平跃升。 电信级的品质保障 电信级的实施团队,电信级的管理 规范,经过电信内部多年使用的考 验。 通过灵活高效的管理,开放的大 数据解决方案,助力客户业务服 务水平的提升。 服务水平大幅提升 观云差异化优势 大数据平台产品建设和应用方案 科研情况:支持所有主流大数据批处理 (hadoop) 、实时处理 (spark) 技术,秒级同步百万条记录;秒级处理 TB 级别数据, 小时内部署百节点规模的大数据集群; 100+ 数据业务挖掘模型, 50+ 并行化数据挖掘算法;完整的大数据解决方案供应商,产品 线全面覆盖基础平台、数据应用和可视化各个层次。 成果展示:鸿信公司累计获得软件著作权 48 项,专利 11 项;省市以上奖项 12 项;获得资质包括计算机信息系统集成一级、 CMMI5 、 ISO9001 : 2008 等。 团队组成 团队规模 80 人,数据仓库及大 数据行业从业经验 7 年以上; 与国内领先企业、高校建立广 泛的合作关系和联合研发团队。 项目经验 成功实施 500 万 + 级项目 7 个, 200 万 + 级项目 5 个, 100 万 + 级项目 6 个, 30 万 + 级项目 9 个; 涉及运营商、社保、交通、教育、 财政等多个领域。 精英 团队 成 熟 经 验 前 端 科 研 丰硕 成果 观云大数据团队 大数据平台产品建设和应用方案 江苏电信大数据汇聚与共享平台 建设大数据基础平台,支撑电信大数据存储和计算: PC SER
| ||
下载文档到本地,方便使用
共 72 页, 还有
1 页可预览,
继续阅读
文档评分


【应用案例】智慧校园大数据云平台建设方案