农业污染源普查数据质量控制方法与空间规则实践(29页 PPT)
7.28 MB
29 页
0 下载
14 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
农业污染源普查数据质量控制方法与空间规则实践 汇报人: 徐艳 科技、 创新 农业农村部环境保护科研监测所 01 农业污染源普查简 介 03 填报与审核阶段质 控 02 质控工作总体概 述 04 入库阶段质 控 目 录 05 总 结 PART 01 农业污染源普查简介 农业污染源普查内容: 普查标准时点: 2017 年 12 月 31 日 五大专业:种植业、畜禽养殖业、水产养殖业、秸秆、地膜 内容:生产活动水平调查、原位监测、相关成果分析 四级管理:部、省、市、区县 普查 作 时可限追:溯 生产活动水平调查: 2018 年 9 月-- 2018 年 7 月 15 日 原位监测调查: 2018 年 5 月-- 2019 年 9 月 31 日 全 国的普查员: 部、省、市、 县四级:调查员、审核员 承担调查任务的普查县: 种植业 2886 个、畜禽 1746 个、 秸 秆 121 个、地膜 321 个、水产 100 个 参与人员: 54791 位 农业污染源普查简介 全流程、全要素 1 PART 02 质控工作总体概述 质控工作总体概述 原始数据 省质控 数据 结果库 入库阶段质 控 审核阶段质 控 填报阶段质控 填报阶 段 审核阶 段 入库阶 段 农业污染源普查流程 2 PART 03 填报与审核阶段质控 填报阶段质控——全过程留痕 APP 直接获取填报时位置 GPS 位置,不允许修改,并且将信 息直接以水印的形式标识在现场的照片上(系统也将储存)。 填报环节全过程痕迹追溯——空间信息位置留痕 3 2017 年行政区划 代 码、统一填写表 头 (省、市、 县) 数据专业规范 内置共计 20 余条专业校 验 规范,根据专业规则对填 写的数据进行数据规范 校验不通过,不允许提交 种植业、秸秆、地膜 水产、畜禽字典表 数据字典表 填报阶段质控——机械校验 机械校验 通过采集端内置的字典表,以及专业规则进行强制校验 3 审核阶段质控——空间校验 空间校验 通过可视化手段,将坐标落在县 域内,用于快速定位偏移数据。 3 审核阶段质控—— 可视化校验 可视化校验 通过数据规律,利用可视化的方法,对数据进行横向校验。 直方图 可用于发现单位填写错误的异常 聚类分析 从数据离散性上发现异常 散点图 从数据的规律上发现异常 3 专题 退回数量 退回数量占比 畜禽 67601 条 98.89% 地膜 13728 条 36.39% 秸秆 581 条 3.98% 水产 1586 条 5.34% 种植业 121432 条 37.30% 审核阶段质控 审核阶段质控 4-6 月各专业退回数量 3 PART 04 入库阶段质控 入库阶段质控——方法介绍 利用 gis 的手段,将数据制图,从图中发现潜 藏 的数据问题 通过新的规则和阈值范围,对各专业数据进行 补充校验 通过异常值检测算法,从统计学角度去发现异 常数据 竞争型神经网络与 GIS 相结合, 通过空间分 布 规律寻找异常数据 竞争型神经网络 +GIS 制图分析 补充校验 算法检测 4 系统异常值算法介绍 -3σ 原则 3σ 准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得 到 标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而 是粗 大误差,含有该误差的数据应予以剔除。 数据分布区间 数值分布在 (μ- σ,μ+σ) 中的概率为 0.6827 数值分布在 (μ-2σ,μ+2σ) 中的概率为 0.9545 数值分布在 (μ-3σ,μ+3σ) 中的概率为 0.9973 -- μ (平均数)、 σ (标准差) 适用范围及局限 1 、仅局限于对正态或近似正态分布的样本数据处理; 2 、 μ 、 σ 对异常值的耐抗性小,异常数据本身会对其造成影响; 3 、为保证检测结果的准确性,数据量必须充足。 算法检测——检测方法介绍 4 绘制步骤及数据分布区间 1 、找出一组数据的中位数和上下四分位数 (Q3 和 Q1) 2 、连接两个四分位数画出箱子,并计算四分位距 IQR=Q3-Q1 3 、计算上下界: 内限( Q3+1.5IQR , Q1-1.5IQR ) - 外限( Q3+3IQR , Q1-3IQR ) 总结与适用范围 1 、四分位对仅用于显示数据位置,对异常数据耐抗性高 2 、多达 25% 的数据可以变得任意远而不会很大地扰动四分位 数 3 、为保证检测结果的准确性,数据量不能太小 4 、在异常值方面具有一定的优越性 系统异常值算法介绍 - 箱形图 箱形图 ( 英文 :Box plot) ,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名 , 常见于品质管理。 其最大的优点就是不受异常值的影响,可以以一种相对稳定的方式描述数据 的离散分布情况。 算法检测——检测方法介绍 4 系统异常值算法介绍 -kmeans 以空间中 k 个点为形心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各簇 的 形心的值,直至得到最好的聚类结果 绘制步骤及数据分布区间 1 、选取若干个数作为初始中心点。 2 、在第 k 次迭代中,对任意一个样本,求其到 c 个形心的欧氏距 离,将该样本归类到距离最小的形心所在的簇。 3 、利用均值等方法更新该簇的形心值,直到当形心更新稳定或 误差平方和最小时,则迭代结束。 4 、利用欧式距离计算离群点。 总结与适用范围 1 、以簇的形式进行区分,对异常数据耐抗性较高 2 、如果异常值单独成簇,则该方法效果不理想 3 、为保证检测结果的准确性,数据量不能太小 算法检测——检测方法介绍 4 竞争型神经网络 +GIS—— 方法介绍 将每个缓冲区内,中心 点与周围点进行对比。 如果与周围点均不相同, 则可能为异常数据。 将聚类点落在地图上, 并获取每个点位周围点 位的情况。 学习,聚类 缓冲区分 析 竞争性神经网 络 计算异常数据 竞争型神经网络与 GIS 相结 合 结合空间分布规律寻找异常。 4 投入字段 播种面积、单产、机械收获面积、人工收获面积 聚类 将字段在神经元内进行学习,聚类 缓冲区范围选定 1 千米 异常判定条件选定 缓冲区内,同类别点比例小于 40% ,算为异常 检测专业 秸秆,分品种使用竞争性神经网络对数据进行聚类,通过缓冲区分析法,计算每个类别在缓冲 区内所占比例,获取异常值。 竞争型神经网络 +GIS—— 方法介绍 4 竞争型神经网络 +GIS—— 方法介绍 投入字段 播种面积、单产、机械收获面积、人工收获面积 4 聚类 将字段在神经元内进行学习,聚类 竞争型神经网络 +GIS—— 方法介绍 4 玉米单产聚类结果图 玉米单产聚类结果图 异常值 竞争型神经网络 +GIS—— 方法介绍 缓冲区分析 + 异常判断 对每一个数据点绘制 1KM 的缓冲区,并将每个缓冲区内,同类型点比例小于 40% ,算为异常。 4 异常检测成果展示 作物 总数 异常数 比例 玉米 8723 995 11.4% 早稻 1232 317 25.7% 中稻和一 季晚稻 5093 909 17.8% 大豆 1453 151 10.3% 小麦 4387 245 5.5% 竞争型神经网络 +GIS—— 成果展示 4 跨省邻县分析 对具有相似地理条件和生产模式的不同省邻近县,进行比较,分析具体数据的合理性。 绘制方法 1 、寻找相邻区县 a. 在中国地图中,找到省界。 b. 在省界上绘制一千米的缓冲区。 c. 对省界与县界进行缓冲区分析,找出邻省的县。 d. 对邻省县靠省一面继续做缓冲区分析,找出 其相邻的不同省的区县。 2 、计算指标平均值 求出相邻区县数据指标的平均值,并将其输出为 excel 或绘制在地图上。 制图分析——跨省邻县分析 4 能根据已采集的区域 样本值,模拟出未采 集的区域情况,能很 好的展示数据的区域 分布规律 能很好的展示行政区 的统计数据(或平均 数据),适用于行政 区之间的数据统计与 对比展示 能很好地将不同指标的对 比情况进行展示,叠加地 图,能让人在了解省内数 据对比情况下,也能查看 各省间的对比情况。 制图分析——专业图分析 专业图分析 以专业的角度制图,从专业规律上发现数据变化或潜在的异常。 散点图 准确,能准确反应每 个数据点的绘制指标, 使用者也能根据颜色, 对数据的分布情况有 大致的了解。 空间插值图 行政区划图 饼状图 / 柱状 图 4 小麦 单产 空间插值图(反距年离地权膜重使小法用麦)回单收产对行比政图区划图(地小市麦级人)工 、 机 械 收 获 留 茬 高 度 对 比 图 入库阶段质控 4 PART 05 总 结 填报阶段 审核阶段 入库阶段 空间信息位置留痕 + 机械校验 空间校验 + 可视化校验 补充校验 + 算法校验 + 空间分析 + 制图分析 总结 全流程质控 空间信息技术支撑 空间信息技术为数据质控提供了强有力的支撑 5 感谢您的耐心聆听 THANKS 科技、 创新 农业农村部环境保护科研监测所
| ||
下载文档到本地,方便使用
- 可预览页数已用完,剩余
27 页请下载阅读 -
文档评分

