基于互联网搜索引擎的传染病监测预警研究进展
2.06 MB
6 页
0 下载
15 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pdf | 3 |
| 概览 | ||
*预警预测* 基于互联网搜索引擎的传染病监测 预警研究进展 黄思超1,刘魁2,蒋健敏2 摘要: 传染病监测预警是传染病防控工作的重要技术手段,互联网的快速发展与搜索引擎的普及应用为传染病的监测提供了 新的思路和方法。 本研究重点阐述了国内外研究者利用搜索引擎开展传染病监测预警的研究进展,为现有传染病监测预警系统 的完善和补充提供参考。 关键词: 传染病监测预警;搜索引擎;大数据;流行病学 中图分类号: R01 文献标志码: A 文章编号: 1003−9961(2018)11−0945−05 Progress in research of infectious disease surveillance and prediction based on Internet search engine Huang Sichao1, Liu Kui2, Jiang Jianmin2. 1. Medicine School, Ningbo University, Ningbo 315000, Zhejiang, China; 2. Zhejiang Provincial Center for Disease Control and Prevention, Hangzhou 310051, Zhejiang, China Corresponding author: Jiang Jianmin, Email: jmjiang@cdc.zj.cn Abstract: Disease surveillance is one of the most important approaches for the prevention and control of infectious diseases. The application of Internet search engines along with the advance of internet has offered novel methods for infectious disease surveillance. This paper summarizes the progress in the research of infectious disease prediction byusing of Internet search engine both at home and abroad to supplement evidence for current surveillance system. Key words: Infectious disease surveillance; Search engine; Big data; Epidemiology This study was supported by the fund for Zhejiang Medical Science and Technology Planning Project (No. 2016KYB056) 开展科学有效的监测和预警是传染病防控的 重要工作。我国于 2004 年建立了传染病网络直报 信息系统和突发公共卫生事件网络直报系统以及 各个专病强化监测系统,10 余年来我国的传染病监 测系统得到了快速发展,但仍存在一些不足,如监 测方法比较单一等[1]。随着互联网技术的飞速发 展,互联网搜索引擎的使用日益普及,产生大量的 电子数据,为传染病的监测预警提供了新的思路和 手段,该文基于国内外互联网搜索引擎的传染病监 测预警研究进展综述如下。 1 国内外主流搜索引擎发展 中国互联网络信息中心发布的第 36 次《中国 互联网络发展状况统计报告》显示:截至 2016 年 6 月,中国网民规模达 7.10 亿,互联网普及率为 51.70%,中国手机网民规模达 6.56 亿。我国搜索引 擎用户规模达 5.93 亿,手机搜索用户数达 5.24 亿。 网络搜索引擎可以帮助用户快速获取需要查阅的 信息,是第二大互联网应用。这从一个侧面反映出 搜索引擎对疾病监测的巨大潜力[2]。 国内外搜索引擎的种类多样,常用的有以下几 种。谷歌:是互联网公司谷歌的主要产品,被公认为 全球最大的搜索引擎。曾有媒体报道谷歌每天提供 超过 30 亿次查询服务。百度:于 1999 年底成立,是 目前全球最优秀、最大的中文信息检索与传递技术 供应商,搜索范围涵盖了中国大陆、香港、台湾、澳 门等地区,在中国,其市场覆盖率已高达 89.10%。 雅虎:是时间最长的“分类目录”搜索数据库,在全 部互联网搜索应用中所占份额一度达 36%。其他比 较常用的搜索引擎还包括 360、搜狗、腾讯搜搜和微 软 bing 等。上述搜索引擎的发展为基于搜索引擎 的传染病监测预警提供了支撑。 2 利用搜索引擎开展的几种常见传染病监测预警 对基于搜索引擎开展的传染病监测预警研究 进行归纳与分类后,发现目前此类研究较多关注的 传染病为流行性感冒(流感)、登革热、艾滋病等。传 基金项目:浙江省医药卫生科技项目(No. 2016KYB056) 作者单位:1. 宁波大学医学院,浙江 宁波 315000;2. 浙江省疾病预防控 制中心,浙江 杭州 310051 作者简介:黄思超,男,浙江省诸暨市人,硕士研究生在读,主要从事传染 病监测研究工作 通信作者:蒋健敏,Tel:0571–87115009,Email:jmjiang@cdc.zj.cn 收稿日期:2017−11−19 疾病监测 2018 年 11 月 30 日第 33 卷第 11 期 DISEASE SURVEILLANCE, November 30, 2018, Vol. 33, No. 11 • 945 • www.jbjc.org DOI:10.3784/j.issn.1003–9961.2018.11.015 播途径包括呼吸道、性传播、媒介传播等,提示该方 法适用于多种传染病。 2.1 流感 流感作为最常见的呼吸道传染病,是利 用搜索引擎开展研究报道最多的传染病。2008 年, 美国 Polgreen 等 [3]利用雅虎搜索引擎筛选收集 2004 年 3 月至 2008 年 5 月间的流感数据,并与实 验室确诊病例数和流感及肺炎死亡数分别进行拟 合,发现与两者均呈一致性,分别比常规报告时间 提早了 1 ~ 3 周和 5 周。随后,Ginsberg 等[4]在 2009 年提出了谷歌流感趋势(google flu trends,GFT)的 概念:其构建的模型纳入了 45 个流感及类似流感 症状的检索词。谷歌的 GFT 模型的预测结果与美 国疾病预防控制中心(CDC)流感病例监测结果的 相关系数高达 0.97,并比美国 CDC 流感监测系统 报告早 1 ~ 2 周。初步证明了基于网络监测可以提 早 发 现 疫 情 。 其 后 , Ortiz 等 [ 5]以 2009 年 甲 型 H1N1 流感暴发为出发点,分别选取 2003-2008 年 GFT 数据和美国 CDC 流感病例监测数据以及实验 室确诊病例数进行相关分析,皮尔逊相关指数分别 为 0.94 与 0.72。在加拿大,Eysenbach[6]通过追踪 谷歌流感相关搜索词与 2004-2005 年度监测数据 比较研究,发现搜索词点击量与第二周流感病例数 相关性高达 0.91;Malik 等[7]在加拿大发现 2009 年 H1N1 流感暴发期间,谷歌流感相关检索词的搜索 量与卫生部门的数据具有一致性,但关键词的搜索 峰值较实验室确诊病例数据提前 2 周。在瑞典, Hulth 等[8]通过医学平台 vardguiden 选取流感相关 搜索词并获得其检索数,结果显示与实验室流感确 诊病例数构成比和哨点报告的流感及类似流感症 状病例模型的确定系数 R2 分别为 0.90 与 0.89,验 证结果显示预测发病高峰与实际发病高峰高度重 合。Pelat 等[9]基于谷歌平台,研究了 2004-2009 年 法国流感、胃肠炎、水痘 3 种传染病临床哨点监测 数据与法语词条“禽流感疫苗”,“胃肠炎”,“水痘” 的同期搜索量的关系,研究发现相关指数分别为 0.82、0.90 和 0.78;西班牙、韩国与中国广东省均有 研究证明检索词的搜索量与流感监测病例数存在 一致性[10–12]。以上研究表明基于谷歌平台,该方法 在不同语种间同样适用。 在中国,大量网民选择百度作为首选的搜索引 擎,基于百度搜索引擎的流感监测研究也相继开 展。Yuan 等[13]尝试使用百度搜索平台,通过关键 词筛选、过滤、指数复合和建立模型四步来预测流 感在中国的发病情况,同时选取了“流感预防”、 “流感的症状”等相关系数高的检索词构建复合指 数,模型的确定系数 R2 为 0.95,而预测病例数与实 际 发 病 数 相 比 平 均 百 分 误 差 < 11%; Gu 等 [ 14] 发现 2013 年中国 H7N9 流感暴发期间,公众对疫 情的关注和流感疫情严重程度存在显著的正相关; 百度搜索词 H7N9 的搜索量在早期急剧的增长,随 后出现波动,其中百度指数与病例累计死亡率的相 关指数为 0.43;Xie 等[15]与 Liu 等[16]在研究中也 得出公众对疫情的关注和流感疫情严重程度存在 正相关的结论。Luo 等[17]同时收集了百度和谷歌 搜索引擎数据,对 2009 年北京市甲型流感进行监 测并取得较好的效果,他们还提出使用多种搜索引 擎数据的拟合效果优于单一搜索引擎。 但是,谷歌的 GFT 模型预测结果也曾出现与 事实不相符的情况。2009 年甲型 H1N1 流感暴发 期间,虽然 GFT 的预测结果仍与美国 CDC 流感病 例 监 测 结 果 有 较 高 的 相 关 性 , 但 在 预 测 甲 型 H1N1 流感的发生率上比美国 CDC 的监测结果低 将近 40 倍[18]。 2.2 登革热 针对登革热疫情,通过搜索引擎并 融合虫媒、气候等因素联合开展对登革热的监测 预警,相关研究显示该方法同样取得了较好的效 果。Gluskin 等[19]提出了谷歌登革热趋势(google dengue trends,GDT)的概念,并选择墨西哥进行了 相关研究,研究发现与传统的监测系统相比,在国 家层面上,GDT 可识别出 83% 的报告病例;但是在 各洲层面上,识别病例的效果从 1% ~ 88% 不等,随 后研究联合气温、降水量等气候因素发现 GDT 在 高发病率地区和适宜登革热传播的气候条件下具 有更高的准确性。Althouse 等[20]基于谷歌平台对 2004-2011 年新加坡和曼谷的登革热疫情发病率 和高发期进行了预警预测,检索词包含疾病名称、 疾病症状与治疗方法三大类,其中新加坡的 3 种官 方语言英语、中文、泰米尔语均被纳入研究。在新加 坡,模型的确定系数 R2 为 0.95,预测值与观察值相 关性为 0.93;而在曼谷,R2 为 0.94,相关性为 0.87, 模型对登革热高发时期的预测有很好的效果; Chan 等[21]利用 2003-2010 年登革热病例数与谷 歌搜索词构建的模型在玻利维亚、巴西、印度、印度 尼西亚和新加坡成功追踪了登革热的疫情,预测结 果与实际发病的相关系数均高于 0.82;Liu 等 [22] 基于百度搜索引擎对 2010-2014 年登革热报告病 例数与网民对搜索词“登革热”的关注度开展数据 挖掘分析,并构建决策树模型。结果显示,当广州市 “登革热”的搜索指数均值连续 3 周高于 99.30 时, 登革热暴发的可能性高达 89.28%,模型校验的一致 • 946 • 疾病监测 2018 年 11 月 30 日第 33 卷第 11 期 DISEASE SURVEILLANCE, November 30, 2018, Vol. 33, No. 11 www.jbjc.org DOI:10.3784/j.issn.1003–9961.2018.11.015 率为 91.57%,当搜索指数均值高于 382,登革热的 发病率增加了 30 倍;而中山市“登革热”的搜索指 数均值连续 5 周高于 68.10 时,登革热暴发的可能 性接近 100.00%,模型校验的一致率为 94.64%,当 搜索指数均值高于 91.80,登革热的发病率增加了 9 倍。近期广东省一项基于百度搜索引擎对登革热 预警预测的研究也发现,在传统的监测模型中加入 了百度指数可以提高对登革热的预测能力;纳入了 百度指数模型的组内相关系数和均方根误差分别 为 0.94 与 59.86, 未 纳 入 的 传 统 模 型 则 分 别 为 0.72 与 203.29[23]。 2.3 艾滋病等其他传染病 在艾滋病、淋病、手足口 病等其他传染病领域也有基于互联网搜索引擎的 监测预警研究。Bao 等[24]通过百度搜索引擎,利用 KMO(Kaiser-Meyer-Olkin)检验最终纳入 30 个淋 病搜索词并利用因子分析构建模型,其确定系数 R2 高 达 0.96, 模 型 预 测 的 百 分 误 差 不 超 过 6%; Zhou 等[25]对艾滋病、猩红热、痢疾、肺结核等传染 病进行监测,通过百度搜索数据对流行趋势进行评 估,预测结果比传染病网络直报信息系统提早 10 ~ 40 日不等;加拿大报道利用谷歌趋势针对艾滋病、 脑卒中、结直肠癌和吸食大麻 4 种疾病或危险行为 进行了研究,显示各疾病与检索词的检索量之间呈 显著相关性,但相关性均<0.70,而结直肠癌的相关 性为–0.41,该方法可能对慢性病并不适用 [26]; Cayce 等[27]在香港,日本,新加坡开展的针对手足 口病的研究,结果显示搜索词与监测数据的相关性 多数>0.80;搜索词的搜索高峰较传染病报告中的 疫情高峰更早出现,构建的模型可能比监测系统更 迅速的发现病例。国内一项在百度平台上开展的针 对手足口病研究的模型确定系数 R2 均在 0.90 左 右,预测发病数与实际发病的相关指数为 0.95[28]。 3 常用的搜索引擎与传染病预警模型 除以上围绕重点疾病开展的研究外,各国学者 还利用不同搜索引擎对传染病的预警预测模型进 行了研究探索。研究者通过收集搜索引擎与疾病呈 正相关词条的数据,与卫生部门的监测数据或实验 室确诊数据拟合,并结合气候、时间等因素后构建 合适的模型对传染病进行监测预警,见表 1。 谷歌和百度是研究者使用最多的搜索引擎平 台,搜索的关键词可分为疾病名称、症状、治疗方法 三大类;目前国内外研究者采用的预警预测模型种 类不多,大部分选择了广义线性模型,少部分研究 对多个关键词的原始的百度指数加权后进行传染 病的监测预警分析;所有纳入研究均为对既往数据 的拟合研究,其中 5 项在既往数据拟合研究的基础 上,也进行了一定程度的预测研究[13, 20, 22, 24, 27]。在未 来研究中,随着技术的发展,该方法有望实现实时 的传染病监测。 4 该方法的优势,局限及展望 利用搜索引擎开展传染病的监测预警,相比于 传统疾病监测报告系统具有明显优势:(1)监测实 时快速,有可能更早地发现疫情。(2)人群覆盖面 广,数据来源丰富,可以搜索到更多与健康相关的 信息。(3)耗费更少的人力物力,成本降低。(4)符 合大数据分析应用趋势,可纳入多种因素开展综合 表 1 基于互联网搜索引擎数据的传染病预测模型 Table 1 Prediction models for infectious disease based on Internet search data 模型种类 搜索引擎 关键词种类(数量) 研究内容 多元线性模型 雅虎 疾病名称(-) 利用既往数据构建模型并验证流感发病数和死亡数[3] 多元线性模型 谷歌 疾病名称及并发症、症状、治疗方法及药物(45) 对检索词与流感发病数的拟合[4] 多元线性模型 百度 疾病症状、治疗方法与专家建议的关键词(30) 预测淋病发病率[24] 多元线性模型 谷歌 疾病名称、症状、治疗方法 (-) 预测登革热发病率[20] 多元线性模型 谷歌与百度 疾病名称 (-) 拟合流感病例数与关键词的模型[17] 多元线性模型 百度 疾病名称(-) 拟合猩红热、痢疾、艾滋病与肺结核感染数与死亡数[25] 多元线性模型 谷歌 疾病名称与症状(-) 结合气候分析登革热预测模型的准确性[19] 多元线性模型 vardguiden 疾病名称及症状(-) 利用搜索词进行症状监测[8] 简单线性模型 百度 疾病名称(8) 计算复合指数、拟合模型、预测流感病例[13] 简单线性模型 谷歌 疾病名称(-) 拟合并验证模型[21] 简单线性模型 谷歌 疾病名称(-) 预测手足口病暴发[27] 简单线性模型 谷歌 - 与流感的实验室检测数据拟合,实现早期预测[7] 负二项回归模型 谷歌 疾病名称、症状、治疗方法(-) 预测登革热发病率[20] 广义提高回归模型谷歌 疾病名称、症状、治疗方法(-) 预测登革热发病率[20] logistic 回归模型 谷歌 疾病名称、症状、治疗方法(-) 预测登革热高发期[20] 支持向量机模型 谷歌 疾病名称、症状、治疗方法(-) 预测登革热高发期[20] 回归树模型 百度 疾病名称(1) 估算暴发出现时搜索指数的阈值[22] 分类树模型 百度 疾病名称(1) 估算暴发出现时搜索指数的阈值[22] 注:-.为无数据 疾病监测 2018 年 11 月 30 日第 33 卷第 11 期 DISEASE SURVEILLANCE, November 30, 2018, Vol. 33, No. 11 • 947 • www.jbjc.org DOI:10.3784/j.issn.1003–9961.2018.11.015 分析。(5)随着互联网技术快速发展,搜索引擎研究 的技术进步,可能实现系统自动化监测和预警,成 为传统传染病监测系统的重要补充。但也存在一些 局限:(1)基于搜索引擎的传染病监测更多的是相 关性分析和推断,不能实现因果关系判断,不能替 代传统的监测方法。(2)互联网信息量非常大,与疾 病相关的信息多,存在偏倚,难以实现准确的预警 预测。(3)网民的搜索行为可能受传染病季节性、病 程发展或舆论关注等因素影响[29]。(4)基于搜索引 擎的传染病监测,受监测地区网络资源、网民数量、 文化差异、语言变化、方言等因素的影响[30–31]。 搜索引擎的使用为传染病监测预警提供了新 的工具,值得进一步深入研究。未来该领域的研究 方向包括寻找合适的关键词,减少甚至消除偏倚, 在模型中纳入更多因素(自然环境因素、文化因素 等)以期获得更高的准确性。 利益冲突 无 参 考 文 献 徐旭卿, 鲁琴宝, 王臻, 等. 浙江省传染病自动预警系统暴发预警 效果评价[J]. 中华流行病学杂志,2011,32(5):442–445. DOI:10.3760/cma.j.issn.0254−6450.2011.05.004. Xu XQ, Lu QB, Wang Z, et al. Evaluation on the performance of China infectious disease automated-alert and respons
| ||
下载文档到本地,方便使用
共 6 页, 还有
4 页可预览,
继续阅读
文档评分


基于CIM的智慧校园运营平台建设方案