智慧税务大数据分析平台整体解决方案(104页 PPT)
15.61 MB
104 页
0 下载
3 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
智慧税务 大数据分析平台解决方案 目录 智慧税务大数据分析平台综述 1 智慧税务大数据分析平台总体架构 2 智慧税务大数据分析平台演进路线 3 智慧税务大数据分析平台一期实施重点 4 智慧税务大数据质量管理平台 5 6 Page 3 智慧税务管理分析类应用建设现状基本分析 关注的内容 存在的问题 基本的现状 集团数据仓库累积数据没有充分利用 缺乏面向整个智慧税务大数据的统 一、完整的数据视图; 缺乏支撑智慧税务大数据日常业务运 转的风险评估体系; 缺乏智慧税务大数据客户 360 度视 图,客户行为分析和预测无法实现; 缺乏面向金融业务运营管理的关键绩 效指标体系; …… 已建立面向整个金融业务的数据仓 库,整合了前台业务运营数据和后台 管理数据,建立了面向金融的管理分 析应用; 智慧税务大数据已开展供应链金融、 人人贷和保理等多种业务,积累了一 定量的业务数据,同时业务人员也从 客户管理、风险评级和经营规模预测 等方面,提出了大量分析预测需求; …… 数据平台、数据应用、数据管控…… 基础数据平台和 BI 应用建设是未来一段时间的重点! 数据平台整体架构; 数据平台各层建设的标准; 较成熟的金融业数据模型; 数据质量治理; 元数据管理; 数据标准建设 数据整合; 数据应用建设; 数据平台的软硬环境 …… 面临的主要问题: 1. 未建立税源信息语义标准及数据采集规范。 2. 税源信息采集通道狭窄,缺乏有效的采集工具,无法保证采集质量。 3. 载体限于增值税发票。“金税工程” 三期仍然未解决税源的基础数据——交易数据采集问 题。 4. 税源管理体系存在缺陷,不能将企业交易与经营过程信息有机结合,税源信息分析亟需 创新的系统支撑。 5. “ 信息管税”能力和水平有待进一步提高和加强。 税务管理的机会与挑战 发票和申报信息 交易及其相关信息 需要关注的问题: 税源数据获取是一切工作的基础! 新模式推广的方式转变——如何由“抓管理”变化为“抓管理、重服务”? 税务管理的机会与挑战 解决问题的主要思路: 1. 建立新的数据标准与采集规范。 2. 扩大税源信息采集通道,积极采用新技术、新工具——获取更多的数据 3. 以大数据思维和技术,提高涉税信息分析水平和利用能力——更强大的数据分析处理能力 4. 推进财税物联网系统,提高税源信息管理能力——系统能力建设 税务管理未来展望 大幅度提升税务管理涵盖面和服务效率: 1. 税源数据的完整性得到大幅度提升 ◎ 由“开票数据”和“申报数据”拓展为 “交易及交易过程数据”和“交易相关数据” 2. 税源信息分析处理方式的变革 ◎ 由 样本抽样数据分析 变革为 全数据(全样本)分析 ◎ 由 单纯统计归纳数据分析 变革为 多因素相关性动态分析(大数据分析) 3. 税源数据采集和处理的时效性得到大幅度提升 ◎ 采集:由 准实时数据、事后数据为主 提升为 以 实时数据为主 ◎ 处理:由 周期性和专项事务处理为主 提升为 以 敏捷服务响应为主、自助式服务为特色 4. 税务管理与服务模式提升 ◎ 由 固定周期和专项事务处理为主 提升为 以实时快速服务响应 和 动态管理为主 ◎ 由 侧重于结果分析与总结 提升为 过程与结果并重的管理与服务 ◎ 由 事后快速响应处理 提升为 事前准确预测与风险防控 7 • 数据准确,采集高效,信息全面,部署使用便捷 精准、高效、全面、便捷 • 帮助企业提升服务品质和盈利能力 • 为消费者提供定制化的服务,优化消费体验 管理与服务相结合,以服务为先导 • 以交易环节为核心,采集覆盖顾客消费行为、企业营销相关数据,通过数据关联比对甑别作弊,规避偷漏 系统化数据采集,规避偷漏 掌握自主核心技术,立足于原创,技术领先 系统建设的理念和准则 Page 8 大数据分析平台建设目标 外部非结构化数据 0% 100% 200% 300% 400% 500% 600% 2004年 2005年 2006年 2007年 2008年 铁矿石 焦煤 统一制定目标和分 析模型 统一划分分析主题 统一设计数据模式 统一规划分析方法 统一部署技术基础 统一定义 BI 应用 自定义报表工具 行+列的简单定义方式 自定义报表工具 行+列的简单定义方式 多种格式报表 多种格式报表 集团决策层 集团决策层 集团职能管控层 集团职能管控层 各级业务操作层 各级业务操作层 关注集团主 要经营指标 关注集团主 要经营指标 业务人员使用 BI 应用 实现业务协作和创新 业务人员使用 BI 应用 实现业务协作和创新 BI 分析工具 BI 分析工具 供应链金融系统 POP 系统 其他业务系统 云数据推送平台已实现了 主要零售及金融业务系统 数据清洗、整合,为未来 智慧税务大数据数据平台 提供了丰富的数据源。 通过数据平台和 BI 应用建设,智慧税务大数据将搭建统一的大数据共享和分析平台,对各类业务进 行前瞻性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力 采购管理系统 查看职能部门的 业务经营情况 查看职能部门的 业务经营情况 Page 9 大数据分析平台建设预期收益 2. 加强业务协作 实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集 中和整合,建立单一的产品、客户等数据的企业级视图,有效促进业务的集成和协 作,并为企业级分析、交叉销售提供基础 实现分散在供应链金融、人人贷、保理等各个业务系统中的数据在数据平台中的集 中和整合,建立单一的产品、客户等数据的企业级视图,有效促进业务的集成和协 作,并为企业级分析、交叉销售提供基础 3. 促进业务创新 智慧税务大数据业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘, 为金融业务创新(客户服务创新、产品创新等)创造了有利条件 智慧税务大数据业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘, 为金融业务创新(客户服务创新、产品创新等)创造了有利条件 4. 提升建设效率 通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基 础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转 变,提升相关 IT 系统的建设和运行效率 通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基 础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转 变,提升相关 IT 系统的建设和运行效率 5. 改善数据质量 从中长期看,数据仓库对智慧税务大数据分散在各个业务系统中的数据整合、清 洗,有助于企业整体数据质量的改善,提高的数据的实用性 从中长期看,数据仓库对智慧税务大数据分散在各个业务系统中的数据整合、清 洗,有助于企业整体数据质量的改善,提高的数据的实用性 通过数据平台实现数据集中,确保智慧税务大数据各级部门均可在保证数据隐私和 安全的前提下使用数据,充分发挥数据作为企业重要资产的业务价值 通过数据平台实现数据集中,确保智慧税务大数据各级部门均可在保证数据隐私和 安全的前提下使用数据,充分发挥数据作为企业重要资产的业务价值 1. 实现数据共享 Page 10 目录 大数据分析平台综述 1 大数据分析平台总体架构 2 大数据分析平台演进路线 3 大数据分析平台一期实施重点 4 智慧税务大数据质量管理平台 5 6 Page 11 大数据分析平台总体架构 历史数 据查询 数据交换平台 应用集市数据区 集团零售 供应链金融 人人贷系统 基金系统 …… 系统 企业内外部半结构化、非结构化数据 大数据交换组件 数据库数据交换组件 数据区数据交换组件 数据计 算层 大数据区 沙盘演练数据区 数据应 用层 实 时 数 据 区 客户主题 协议主题 产品主题 业务沙盘演练 数据增 值产品 零售数据 供应链数据 增值产 品数据区 主 题 数 据 区 … … 用户访 问层 客户汇总 账户汇总 机构汇总 … … 社交媒体 移动互联 用户评价 访问日志 处 理 后 大 数 据 待 处 理 大 数 据 流 程 调 度 监 控 告 警 数 据 标 准 数 据 质 量 元 数 据 数 据 安 全 流程 调度 平台 …… 数据 管控 平台 流 程 调 度 层 数 据 管 控 层 数据 产生层 数据交 换层 实时数 据查询 客户管理 财务管理 …… 外部用户 贴源数据区 …… 内部管理分析 内部用户 历 史 归 档 数 据 区 IT 人员 风险管理 Page 12 大数据分析平台总体架构——数据产生层 内部业务系统产生的结构化数据 集团日常零售业务处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水…… 智慧税务大数据日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、金融产品信息、交易流水…… 企业内部非结构化数据 日常业务处理过程中产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评…… 企业外部数据 企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒体信息…… 源数据内容 在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据 集团和智慧税务大数据业务系统的数据 增量数据识别、获取由云数据推送平台负责,云数据推送平台采用分析、对比源系统日志方式实现 对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量 初始数据加载均采用全量模式 源数据增量 Page 13 大数据分析平台总体架构——数据交换层 数据交换层设计目标 传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储 库的特点来针对性的设计工具,以追求卓越的性能 保证数据在平台内高速流转 保证数据交换过程中不失真 保证数据交换过程中不丢失 保证数据交换过程安全可靠 数据区数据交 换组件 数据库数据交 换组件 大数据交换组 件 智慧税务大数据系 统 数据服务层 外部 大数 据 集团系统 Hadoop 元数据 云数据推送平台 数据平台导入 临时区 数据平台导出 临时区 NAS 存储 ETL 程序 区 Page 14 大数据分析平台总体架构——数据交换层 NAS 存储 Hadoop 集群元数 据区 数据平台 ETL 数 据处理程序区 数据平台临时数 据区 存储数据平台各个 Hadoop 集群的元数据信息,如: HDFS 文件 系统元数据 集团数据交换平台每日获取运输局推送平台提供的业务系统变 化数据,暂存在 NAS 临时数据区 金融数据平台加工计算结果返回给业务系统,暂存在 NAS 临时 数据区 数据平台 ETL 加工处理程序(数据压缩、数据加载、各数据数据 处理等)统一存储在 NAS 集群指定目录,各接口服务器通过文 件系统 Link 建立映射 Page 15 大数据分析平台总体架构——数据交换层大数据交换组件 企业内部非结构 化、半结构化数 据,如:音频、视 频、邮件、 Office 文档、抵押品扫描 件等 企业外部非结构 化、半结构化数 据,如:微博、贴 吧、论坛、用户点 击流 用户移动位 批量采集:大数据 源以 SFTP 协议批 量传输数据文件 在线访问:开发 Java 或 C 应用,调 用大据源 API ,或 以网络平台爬虫方 式抓取源系统非结 构化、半结构化数 据 组件以实时和批量 两种模式实现下列 功能: 数据采集 数据传输到数据交换 平台(接口服务器) NAS 指定目录 存储数据到数据平台 大数据区指定 HDFS 目录 定时抽取用户访问 日志,加载到数据 平台大数据区 HDFS 指定目录, MR 程序加工处理 开发网络爬虫程 序,扫描用户微 博,抓取用户微博 内容,社交圈信 息,存入大数据区 处理对象 实现技术 实现功能 应用场景 Page 16 大数据分析平台总体架构——数据交换层数据库数据交换组件 企业内部业务系统产 生的结构化数据,包 括两大来源: 集团零售业务数据,数 据存储在 Oracle 、 SQLServer 、 MySQL 和 MongoDB 四类数据库 智慧税务大数据互联网 金融业务数据,数据存 储在 MySQL 数据库 Perl 程序 数据采集,调用 Perl 文件模块相关函 数,轮询指定目录, 获取数据文件 数据核查, Perl 执 行文件级数据质量检 查 数据加载,调用 Hive Load 数据命 令,加载到数据平台 临时数据区的 Hive 组件以实时和批量模 式实现下列功能: 数据采集,轮询 NAS 集群指定目录,获取数 据文件( LZO 压缩) 数据核查,对数据文件 进行质量校验 数据加载,加载数据到 临时数据区 云数据推送平台连接 供应链金融系统数据 库,分析供应链金融 MySQL 数据库日志, 识别增量数据,存储 到金融平台 NAS 存储 的指定目录,金融平 台加载数据文件到数 据平台临时区 Hive 表 处理对象 实现技术 实现功能 应用场景 Page 17 大数据分析平台总体架构——数据交换层数据区数据交换组件 数据平台计算层各 数据区 贴源数据区 主题数据区 集市数据区 沙盘数据区 大数据区 归档数据区 Sqoop 实现集市数 据区与数据平台其 他 Hadoop 数据区 的数据交换 Hadoop 命 令、 Hive 外部表、 MR 程序实现数据平 台 Hadoop 数据区 间的数据交换 组件以批量方式实 现下列数据交换功 能: 贴源数据区和主题数 据区到集市数据区 大数据区到主题数据 区和集市数据区 主题数据区、贴源数 据区、集市数据区到 沙盘数据区 各个数据区数据归档 数据集市的数据按 照据生命周期规 划,统一将过期数 据归档 到历史 数据 归档 区 处理对象 实现技术 实现功能 应用场景 Page 18 大数据分析平台总体架构——流程调度层批量处理流程 批量数据处理由流程调度层部署的自 定义开发 WorkFlow 组件调度运行 整个流程主要完成如下工作: 1. 获取业务系统结构化数据,存 入临时数据区 2. 获取企业内外部非结构化数 据,并进行结构化处理,存入 主题或集市数据区 3. 按照贴源数据模型整合数据 (标准化、数据更新 / 追加) 4. 按照主题数据模型整合数据并 生成汇总 5. 数据加工计算后,结果交付到 数据集市,支持分析类应用 Page 19 大数据分析平台总体架构——流程调度层实时数据处理流程 实时数据处理强调的是实时或准实时获 取并处理数据,通常采取消息队列等技 术构建“数据流” 整个处理流程由流程调度层部署的自定 义开发 WorkFlow 组件调度运行 整个流程主要完成如下工作: 1. 通过数据库数据交换组件获取增量 数据,加载到实时数据区 2. 通过大数据交换组件获取非结构化 数据,并利用 Storm 处理数据, 加载到实时数据区 3. 针对实时数据区数据执行标准化处 理和贴源整合 Page 20 大数据分析平台总体架构——流程调度层归档数据处理流程 数据归档的对象包括业务系统数据文件、贴源数 据区数据、主题数据区数据、大数据区数据和集 市数据区数据 数据按照生命周期规划存储到归档 区 Hadoop 集 群,归档后原数据区删除此数据 整个处理流程由流程调度层部署的自定义开发 WorkFlow 组件调度运行 整个流程主要完成如下工作: 1. 数据文件通过 HDFS 命令行 copyfromlocal 进行归档 2. 贴源、主题和大数据区通过 HDFS 命令行 distcp 或自定义开发的 MR 程序执行归档 3. 集市数据区通过 Sqoop 或数据库提供的 Hadoop 集成技术(如:外部表)执行归 档 Page 21 大数据分析平台总体架构——数据存储层 业务系统前日增量数据 缓存数据,支持后续 ELT 数据处理 数据内容 主要用途 数据模型 保留周期 用户 访问模式 工作负载 平台要求 贴源数据模型 保存最近 7 天数据 贴源数据区和主题数据区批量作业访问 无最终用户访问 I/O 敏感,连续小批量的数据抽取和加载 少量量数据使用 Hive 的 Load 命令,大量数据使用 MR 程 序 与主题区 / 贴源区 / 集市区构成一个 Hadoop 集群( Hive ) 无单点故障, 7×24 小时 + 非工作日有限停机 主题数据区、集市数据区和沙盘演练数据区批量作业访问 无最终用户访问 I/O 敏感,日终批量 ETL 以 ELT 形式通过 Hive SQL 执行 与主题区 / 贴源区 / 集市区构成一个 Hadoop 集群( Hive ) 无单点故障, 7×24 小时 + 非工作日有限停机 贴源数据模型 不保存历史 业务系统前日快照数据和一段时间的流水数据 数据标准化,为后续主题模型、集市和沙盘演练提供数据 临时数据区 贴源数据区 Page 22 大数据分析平台总体架构——数据存储层(续) 企业内外部非结构化、半结构化数据 采集并存储数据,进行结构化处理,最终得到结构化数据 数据内容 主要用途 数据模型 保留周期 用户 访问模式 工作负载 平台要求 数据按照 HDFS 文件存储 建议保留 1 年 集市区 / 沙盘区 / 增值产品区 / 主题区 / 归档 区批 量作业访问 少量高级业务人员进行大数据分析 MapReduce 分布式计算,半 / 非结构化数据的结构化处理 (包括文本检索、语义分词、图像识别、音频识别等) 与主题区 / 贴源区构成一个 Hadoop 集群( HDFS ) 无单点故障, 7×24 小时 + 非工作日有限停机 集市区 / 沙盘区 / 增值产品区 / 主题区 / 高时效区批量作业访 问 业务人员执行历史数据查询 MapReduce 分布式计算, HDFS 命令实现 Hadoop 集群内 归档, Sqoop 实现数据库归档,通过 Hive 提供历史查询 独立的 Hadoop 集群( HDFS+Hive ) 无单点故障, 7×24 小时 + 非工作日有限停机 数据按照 HDFS 文件存储
| ||
下载文档到本地,方便使用
共 104 页, 还有
4 页可预览,
继续阅读
文档评分


智慧民政大数据平台整体解决方案(90页Word)