pdf文档 智慧校园大数据建设方案 VIP文档

6.56 MB 74 页 6 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
精华科技副总经理 郭磊 智慧校园大数据建设方案研讨 www.gilight.cn 智慧校园目前尚未形成标准的框架体系, 但是数据却是通往智慧校园的必由之路。 www.gilight.cn 初始期 普及期 控制期 集成期 数据管理期 成熟期 费用 时间 转折点 1973-1979 诺兰模型 “一条不可逾越的学习曲线” www.gilight.cn 从2010年开始,我们专注于教育行业数据领域的产品 研发,历时5年形成了完整的数据产品线。 公司共拥有70余人的研发团队和50余人的软件实施服务团 队,约占公司人员总数的50%,目前还在快速增长。 各产品组的核心均为8-10年经验的资深研发人员,总监级 别研发经验均在15-20年以上。 www.gilight.cn 数据集成 基础数据 数据挖掘 数据治理 数据集成 数据标准 身份认证 有效数据 元数据管理 主数据管理 治理监管 质量监控 … 应用系统(低阶) 教务 学工 人事 科研 一卡通 … 低价值、低质量数据层 低价值、高质量数据层 高值数据 挖掘平台 挖掘工具 挖掘模型 挖掘算法 … 高价值、高质量数据层 应用系统(高阶) 智慧校园、大数据时代 服务化、智能化、移动化、泛在化、融合化 统一 门户 基本 校情 掌上 校园 (第一代) www.gilight.cn 数据集成 基础数据 数据挖掘 数据治理 数据集成 数据标准 身份认证 有效数据 元数据管理 主数据管理 治理监管 质量监控 … 应用系统(低阶) 教务 学工 人事 科研 一卡通 … 低价值、低质量数据层 低价值、高质量数据层 高值数据 挖掘平台 挖掘工具 挖掘模型 挖掘算法 … 高价值、高质量数据层 应用系统(高阶) 智慧校园、大数据时代 服务化、智能化、移动化、泛在化、融合化 统一 门户 基本 校情 掌上 校园 (第一代) www.gilight.cn 仅能对数据进行简单的统计和分析,缺乏进行深层次 利用的基础。 数据集成度普遍不高、数据标准不够健全、数据质量 整体而言较低,导致可以利用的数据种类和数量有限, 难以形成大数据应用(深层次利用)的广泛基础。 同时,缺乏解决这些问题的有效工具和手段。 数据集成 基础数据 数据挖掘 数据治理 有效数据 应用系统(低阶) 高值数据 应用系统(高阶) 智慧校园 第一个数据阶段的主要问题 www.gilight.cn 数据治理是一个体系和过程。 全局性的组织行为; 数据集成 基础数据 数据挖掘 应用系统(低阶) 高值数据 应用系统(高阶) 智慧校园 数据治理 有效数据 对数据来源、处理和使用进行集中和规范的管理; 目的是形成可重复利用的高质量的有效数据。 www.gilight.cn 数据治理相关的工具和系统 数据集成 基础数据 数据挖掘 应用系统(低阶) 高值数据 应用系统(高阶) 智慧校园 数据治理 有效数据 分布式数据集成交换平台 Data Integration Platform 统一数据标准管理系统 Data Standards Management 主数据管理系统 Master Data Management 数据质量分析与监管平台 Data Quality Management Platform 元数据管理系统 Meta Data Management 数据综合治理管理平台 Data Governance Platform www.gilight.cn 数据集成 基础数据 数据挖掘 应用系统(低阶) 高值数据 应用系统(高阶) 智慧校园 数据治理 有效数据 主数据管理 数据集成平台 元数据查询管理 元数据分析管理 交换网络管理 发布-订阅管理 数据接入管理 数据路由管理 数据传输管理 元数据管理 元模型管理 元数据采集管理 元数据映射管理 主数据模型管理 主数据映射管理 主数据质量管理 主数据服务管理 主数据查询管理 元数据维护管理 数据处理管理 交换监控管理 物理监控管理 www.gilight.cn 狭义的数据挖掘,指传统数据挖掘的定义,即从海量数据中揭示 出隐含的、先前未知的并有潜在价值信息的非平凡过程。 数据挖掘分为广义的和狭义的两种。 广义的数据挖掘,知识发现时识别出存在于数据中有效的、新颖 的、具有潜在价值的乃至最终可以理解的模式的非平凡过程。 简而言之,广义的数据挖掘,就是从已有数据中, 发现新数据的过程。 数据集成 基础数据 应用系统(低阶) 应用系统(高阶) 智慧校园 数据治理 有效数据 数据挖掘 高值数据 www.gilight.cn 数据集成 基础数据 应用系统(低阶) 应用系统(高阶) 智慧校园 数据治理 有效数据 数据挖掘 高值数据 智慧校园下的数据挖掘层的目的和进行方式, 和传统数据挖掘是有区别的。 积累并形成一个高价值数据层,为应用(高阶)提供基础。 每一个数据挖掘模型必须是实时、自动和不间断运转的。 分析速度必须达到实时处理的要求。 需要对外提供大量标准化的、基于SOA服务的访问接口。 www.gilight.cn 数据集成 基础数据 应用系统(低阶) 应用系统(高阶) 智慧校园 数据治理 有效数据 数据挖掘 高值数据 结构化数据 非结构化数据 半结构化数据 数据库(OLDP) 超级数据立方体(cube) 图数据库 (Neo4j) 分布式数据系统(Hadoop+MapReduce+Spark) 现有数据 数据层 分布式挖掘引擎 挖掘模型 挖掘算法 分布式数据高速缓存 挖掘层 图表生成引擎 知识层 高价值数据、信息和知识 展现层 接口层 标准化服务接口 应用系统(高阶) www.gilight.cn 数据集成 基础数据 应用系统(低阶) 数据治理 有效数据 数据挖掘 高值数据 应用系统(高阶) 智慧校园 大量高阶应用系统的出现,才意味着真正 踏入了智慧校园的时代。 高值数据层是实现高阶应用系统的一个必要条件,但是还 需要其它的基础。如:无线网络的密集覆盖、基于NFC技术的 精确身份识别、各类感知网络的覆盖…这些系统在带来直接应 用价值的同时,也带来了丰富和重要的基础数据。 www.gilight.cn 数据集成 基础数据 应用系统(低阶) 数据治理 有效数据 数据挖掘 高值数据 应用系统(高阶) 智慧校园 从技术体系架构的角度,还有一个非常重要的 基础:服务治理层。 教务管理 统 一 服 务 集 成 平 台 学工管理 人事管理 科研管理 标 准 SOA 服 务 接 口 资产管理 …… 抽取 注册 访 问 控 制 层 在 所 有 系 统 间 共 享 www.gilight.cn 【数据集成阶段的建设】 www.gilight.cn 高校进行集成阶段建设时,核心的目标是通过三大平台的 建设,建立一个标准化的、开放的应用环境,在完成构建进一 步发展基础的同时,摆脱对单一厂商的依赖,防止被绑架。 由于对数据和集成接口进行了标准化,数据第一次摆脱了 业务厂商的控制,真正成为了用户可管理的数据资产。 www.gilight.cn 高校进行集成阶段建设时,核心是三大平台,而三大平台 的核心是数据集成平台(统一数据平台)。 目前市场上的主流数字校园厂商在选择数据集成方案时大 多选择了以ODI为代表的ETL工具的方式,主要原因是为了节省 厂商的开发成本和销售成本(盗版或使用免费产品),但也因 此为用户埋下了隐患。 www.gilight.cn 接口 A系统 接口 B系统 A系统 B系统 数据 平台 点对点结构:高成本、难维护、数据无法集中 星形结构:低成本、易维护、数据可以集中 www.gilight.cn 分离式结构,弱管理能力,不适合较大规模的数据集成。 A系统 B系统 数据 平台 ETL交换代理 ETL交换代理 ETL管理器 生成&发布 在线监管 离线模式 触发器/日志 触发器/日志 www.gilight.cn 事实上,ETL的设计定位是为了进行传统数据挖掘的数据预处理 过程,并非专门针对成规模的数据集成任务。 其作用突出表现在完成数据向上的抽取,并非数据的集成交换 和管理。因此采用这种方式,在初始能够解决一定的问题,但随着 进一步的深入和发展,数据集成过程和交换状态将面临难以管理和 驾驭的问题,学校的数据环境也因此会陷入失控和混乱的状态。 www.gilight.cn www.gilight.cn 交换模式-面向对象 www.gilight.cn 交换模式-面向消息 www.gilight.cn 交换模式-面向消息 www.gilight.cn 交换模式-基于数据 www.gilight.cn 交换模式-基于服务 www.gilight.cn 两种方案的比较 项目分类 精华数据交换平台 ODI(ETL工具) 备注 1 系统模式 B/S系统 C/S系统 ODI包括简单的B/S模块 2 交换机制 一对多 一对一 3 发布-订阅 支持 不支持 3 交换方式 JDBC、JMS、WS、ETL ELT ELT是ETL的变种 4 多域模式 支持 不支持 5 传输通道 消息中间件 TCP/IP 6 失败补偿 有 无 7 集群模式 有 无 8 部署方式 分布式 单点 9 系统内核 ESB ETL 10 负载均衡 有 无 www.gilight.cn 项目分类 精华数据交换平台 ODI(ETL工具) 备注 11 元数据管理 有 无 12 主数据管理 有 无 13 目录服务 有 无 14 管理方式 简单 复杂 15 二次开发 Javascirpt、XSLT SQL 16 稳定性 高 较高 17 大数据接口 有 无 18 系统类型 分布式系统 单点系统 19 国家标准 完全覆盖 覆盖不全 缺乏元数据、目录服务、主数据 数据量:2800万条数据 精华平台:4小时(单点) 精华平台:20分钟(集群、3个点) ODI平台:6小时(单点) 20 交换效率 高 较高 www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn 【数据治理阶段的建设】 www.gilight.cn 已然形成大数据,但针 对其应用处理困难? 数据质量低下,统计不准确? 数据多样化,缺少统 一标准,集成困难? 数据分散,形成信息孤岛,共享困难? 出了问题再补漏,数据管理部 门和业务部门互相推脱责任? www.gilight.cn 数据治理四要素 组织 流程、活动 与机制 技术平台 与工具 计划、制度 与标准规范 www.gilight.cn 数 据 治 理 体 系 架 构 组织体系 管理体系 技术体系 执行体系  数据使用者(领导决策层)  数据管理者(IT管理层)  数据生产者(业务层)  制定数据标准(定义标准、使用标准)  制定数据管理机制(管理流程、权责关系)  制定数据应用规则(数据集成、分发规则)  制定数据模型(统一数据视图)  数据探查  数据清洗、质量提升  数据集成、监控  数据安全  业务梳理  数据分析  绩效评估  PDCA循环管控机制 www.gilight.cn 数据生产者 数据生产 数据质量初审 数据质量绩效执行 使用 挖掘 管理 数据管控体系 组织体系 生产 数据使用者 数据使用 数据统计分析 数据质量绩效执行 数据拥有者 数据owner 数据挖掘 数据质量绩效评估 数据管理者 数据管理 数据安全保护 数据质量绩效执行 www.gilight.cn 经营 风险 核心 业务 主数据 数据管理核心目标: 保障核心业务正常运作,提升数据 价值,深度挖掘数据应用价值。 数据标准、元数据体系建立: 分析梳理业务流程,设计业务主数 据指标体系,形成数据标准规范。 数据质量稽查、提升、主数据监控 : 探查、解决、处理数据质量问题,提升数 据价值。 数据集成共享: 将各类型处理过的优质数据统一集 中存储,便于调用、共享,支持大 数据应用集成。 数据管控体系: 形成从数据生产 – 数据处理 – 数据 监控 – 数据调用共享的数据综合管 理体系,使数据管理日常化。 数据综合管理平台: 为用户提供综合的数据管理解决方 案,保障业务运作,提升数据价值 ,辅助管理决策。 www.gilight.cn 高质量数据是目标 主数据管理是关键 元数据管理是基础 质量 元数据 主数据 www.gilight.cn 数据治理行为总是存在的,只有有意识和无意识、规范和 不规范、成体系和不成体系的区别。 不实施主动的数据治理并建立相关体系,随着信息化发展 到一定阶段,就会陷入被动的、疲于应对的状态,信息化的发 展就会停滞不前。 www.gilight.cn 1 2 3 4 5 从数据剖析(Profiling)开始 尽量使用工具进行数据剖析 数据剖析工作需要持续开展 数据集成过程也需要进行数据剖析 数据质量评估和改进需要被动和主动两种方式 关于数据治理的一些建议 www.gilight.cn 6 7 8 9 10 得到高层的支持 关键数据先行,渐进开展 在数据的“上游”解决质量问题 “防患于未然”优于“后期治疗” 数据质量报告要大范围发布 www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn 【数据挖掘阶段的建设】 www.gilight.cn 采用商业BI工具的数据挖掘方案 其最主要的优点是可以通过配置化的方式,快速构建数据分析模型。 商业BI工具最早起源于1996年,迄今发展已近20年。 目前主流的商业产品有IBMcognos、SAP BO、oracle BIEE、 Microsoft BI、MicroStrategy、QlikView。 但是由于其保持通用性和强调可配置化的特点,也导致了一系列问题的产生。 www.gilight.cn 采用商业BI工具方案的缺陷(一) 其配置化构建分析模型的方式,必须基于单表的数据构造,如:单表、视图 和数据立方体,否则就要通过开发方式来解决。 但是在大数据时代的背景下,越来越多的涉及复杂结构的多表数据分析模型 ,因为难以形成视图或数据立方体这样的单表构造,而不能进行配置化,使其沦 为只能通过配置化的方式,构建有限的数据分析模型。 www.gilight.cn 采用商业BI工具方案的缺陷(二) 目前主流的BI工具仅支持普通数据库、数据立方体(Cube)和内存计算三种数据 系统中的两种或一种,不支持如:图数据库和分布式数据系统等其它方式,而以 Hadoop、MapReduce(离线)、Storm(在线)和Spark(在线)为代表的分布式数据 系统,正是大数据环境下的标准配置。 因此BI工具在面对大数据处理时的分析速度和计算资源开销都将成为致命的瓶颈 ,无法达到实时在线式分析的目标,而这也是开发大数据应用的一个必要前提。 www.gilight.cn 采用商业BI工具方案的缺陷(三) 由于BI工具保持配置化和通用化的需要,导致分析系统的表现形式固化,无 法针对不同的主题和应用场景灵活构建不同的用户体验,与当前软件发展趋势 所强调的极致用户体验和个性化的要求不符。 分析挖掘后的结果数据不能进行标准化的存储,无法积累高价值数据层,使 其后的基于大数据的高价值应用难以顺利展开。 www.gilight.cn 正是基于这些问题,我们在选择之初就放弃了BI工具 的路线,并针对这些问题设计了我们数据挖掘平台的体系 架构。 我们的建议是BI工具可以作为一个补充手段,用来快 速响应临时性的紧急需求,但不建议作为构建数据挖掘体 系的核心基础。 www.gilight.cn 结构化数据 非结构化数据 半结构化数据 数据库(OLDP) 超级数据立方体(cube) 图数据库 (Neo4j) 分布式数据系统(Hadoop+MapReduce+Spark) 现有数据 数据层 分布式挖掘引擎 挖掘模型 挖掘算法 分布式数据高速缓存 挖掘层 图表生成引擎 知识层 高价值数据、信息和知识 展现层 接口层 标准化服务接口 应用系统(高阶) www.gilight.cn 我们的高校数据挖掘平台,目前已经涵盖教学、科研、 学生、人事、资产、一卡通、图书、宿舍等方面,共计50多 个分析主题,200多个数据分析模型。 目前正在以每月大约30个分析模型的开发速度递增,预 计两年内达到近千个分析模型的规模,学校以此为基础,将 快速高效的搭建符合自身需求的数据挖掘体系。 www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn www.gilight.cn 【系统演示】 www.gilight.cn 我们一直在努力,只为您呈现最美精华。 We have been working hard, only to present you the most beautiful GiLight.
下载文档到本地,方便使用
共 74 页, 还有 20 页可预览, 继续阅读
文档评分
请文明评论,理性发言.