预训练大模型与医疗:从算法研究到应用
28.32 MB
52 页
0 下载
27 浏览
0 评论
0 收藏
| 语言 | 格式 | 评分 |
|---|---|---|
中文(简体) | .pptx | 3 |
| 概览 | ||
预训练大模型与医疗:从算法研究到应用 1. 预训练大模型概述 2. 理解大模型的内在机理 3. 赋予模型精准性与可解释性 4. 医疗领域应用 5. 清华探索:数基生命 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn CONTENTS 预训练:从大数据到小数据 ③ 精 准 可 解 释 ④ 医 疗 应 用 ② 剖 析 大 模 型 ① 关 于 预 训 练 预训练大模型 (学习共性) 大数据(低成本无标注) 少量特定领域标注数据 (成本高) 微调小模型 (学习特性) ⑤ 数 基 生 命 1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练; 2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 以英文电子病历后结构化为示例 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 英文 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 英文 英文电子病历后结构化 电子病历后结构化 电子病历 后结构化 A 不懂英文 B 懂英文 C 懂英文的医生 Transformer 架构:预训练的基 石 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 从 word2vec 到 Transformer 从 context-free 到 context-aware CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn BERT 和 GPT ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 两类典型的大语言模型 BERT : Bidirectional Encoder Representations from Transformers 双向模型,同时考虑前文和后文 采用掩码语言模型( masked language model )和下一句 预测任务 ( next sentence prediction )进行预训练,使得模型能够学习到上下 文 关系和词汇语义 通常用于文本分类、序列标注、问答等任务 GPT : Generative Pre-trained Transformer 单向模型,只考虑前文,不考虑后文 采用自回归( autoregressive )的方式生成文本,即逐个生成下一个词 通常用于生成文本、对话、问答等任务 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn BERT 训 练 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 BERT 主要采用掩码语言模型( masked language model ,对应图 Mask LM )和下一句预测任务( next sentence prediction ,对应图 NSP )进行预训练,使得模型能够学习到上下文关系和词汇语义。预训练好的 BERT 可以用于对 输入文本进行编码,得到具有语义的向量表示。 预训练好的 BERT 也可以通过微调( fine-tuning )方式适配各类 NLP 任务: The Stanford Question Answering Dataset 问答( SQuAD )、命名实体识别( NER )、 MNLI 任务(大规模分类任务,目标是预测第二个句子相 对于 第一个句子是包含,矛盾还是中立) CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn BERT 表示能 力 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 Represented Into Symbolic Space Latent Space CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn BERT 类模 型 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 2018 年 10 月 Google AI 提出 BERT 模型 参数量 1.15 亿 , 3.4 亿 数据量约 16GB . 2020 年 2 月 Google AI 提出的轻 量化 BERT 模型 参数量 0.2 亿, 0.61 亿, 2.4 亿 数据量约 16GB 2019 年 7 月 Facebook AI 基于 BERT 模型的 扩展 参数量 1.15 亿 , 3.4 亿 数据量约 160GB 2021 年 10 月 Microsoft AI 在 BERT 模 型上 引入解码与注意力解耦 参数量 3.4 亿 数据量约 78GB CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 2019 年 8 月 清华大学提出知识注入 BERT 模型,后由 Baidu AI 更新迭代 到 3.0 版本 参数量 1.15 亿, 1.25 亿, 100 亿 数据量约 12GB , 22.9G , 4TB 2020 年 3 月 Google AI 在 BERT 模型引入 GAN 参数量 3.4 亿 数据量约 16GB GPT 发展 史 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 解码器部分为 GPT 发展奠定基 础 2017 年 6 月 Google 提出 Transformer 模型 2017 年 6 月 OpenAI 提出 Few-shot GPT-1 模 型 参数量 1.17 亿 数据量约 5GB 赋予 GPT 预测下一个字符串能 力 2019 年 2 月 OpenAI 提出 One-shot GPT-2 模 型 参数量 15 亿 数据量 40GB 增加 GPT 解释翻译能 力 2020 年 5 月 OpenAI 提出 Zero-shot GPT-3 模 型 参数量 1750 亿 数据量 40TB 赋予 GPT 处理多任务的能 力 2022 年 1 月 OpenAI 提出 GPT-3.5 模型 参数量 13 亿 , 60 亿, 1750 亿 数据量 40TB 赋予 GPT 推理能 力 多模态生成 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 2023 年第一季 度 OpenAI 提出 GPT-4 模型 百万亿级别参数量 GPT 训练过 程 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 Unsupervised Pre-training Expensive training on massive datasets Datasets: 300 billion tokens of text Objective: Predict the next word Example: a robot must ? GPT Untrained GPT CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn GPT 应 用 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 GPT 具有搜索引擎的功 能 2021 年 12 月 赋予 GPT 理解人类 指令的能 力 2022 年 2 月 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn GPT 在编写代码上的应 用 2021 年 12 月 使 GPT 具有与人类对话的能 力 2022 年 11 月 模型内部本质上是基于统计的文字生成器 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 通过对海量文本的学习,自动构建了一个含有 1750 亿参数的大模型,建立了对这个世界基本的逻 辑 认知,由此产生了基于逻辑的推理能力 实际上是根据对话中的最近 4095 个记号,算出紧接着最可能是哪个记号 但, ChatGPT ≠ 模型 模型负责把最近的对话内容翻译为一张概率表 ChatGPT 负责根据这张表选出下一个记号,再让模型算再下一个记号的概率 表 可以理解为高阶的马尔可夫链 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ChatGPT 根据前 4095 个记号猜下一个记号,所以是一个 4095 阶的马尔可 夫链 后续状态按一定概率取决于过去状态的随机过程,被称为马尔可夫链 m 阶马尔可夫链模型可以根据前 m 个记号算出下一个记号的概率分 布 ① 关 于 预 训 练 如果 ChatGPT 遇到它在训练时从没见过的记号串怎么办? 1 阶马尔可夫 链 3 阶马尔可夫 链 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn —— 神经网络能很好解决这个问 题 概念:嵌入向量( embedding vector ) ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 嵌入向量: • 在 GPT 里面,把一个记号作为一个 N 维浮点数向量来表示。这种用 一 个向量来表示一个单词或记号的方法按神经网络的术语就叫做嵌入 • 一个单词对应的向量叫这个单词的嵌入向量 • 把每个单词或记号( token )在 GPT 内部都会通过一层简单的神经 网 络映射层对应到一个嵌入向量,这个向量代表了记号的语言特征 • GPT-3 是 1600 维, GPT-3.5 2048 维 位置信息的引入 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 • 第一步:将离散的顺序号转换成一个与嵌入向量长度相同的向量, 称为位置编码( positional encoding ) • 第二步:将位置编码与嵌入向量相加(即对应的元素相加),结果 作为后续处理的输入向量 • 第三步:输入向量会被送到多层 Transformer 进行后续处理,每 层 Transformer 的参数不同,但都会让输入先经过一个线性投影层 • 第四步:线性投影层将输入向量投影到另一个维度空间,剔除不重 要的维度,将高维向量简化为低维向量 使用 Transformer 摆脱了人工标注数据集的缺陷,模型在质 量 上更优、更易于并行化,所需训练时间明显更少 ① 关 于 预 训 练 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn ChatGPT 待优化的部 分 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 可信性无法保证,还不能提供合理的证据 进行可信性验证 01 成本高、部署困难、每次调用花费不菲,对 工程能力有很高的要求, GPT-3 模型的 训 练成本在 875 万 -1093.75 万美元之间 03 因为数据的偏见性,很可能生成有害内容 05 时效性差,无法实时地融入新知识,知 识范围局限于基础大规模语言模型使用 的预训练数据时间之前 02 反映的是标注人员的偏好,在标注人 员分布不均的情况下,可能会引入新 的偏见问题 06 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 在特定的专业领域上表现欠佳,训练 数据是通用数据,没有领域专业数据 04 如何让 ChatGPT 更靠 谱 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 两个关键参数: • temperature 参 数 • top_p 参数 ChatGPT 不是每次都选概率最大的记 号 temperature 参 数 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn • 控制语言模型输出的随机性或创造性的参数 • temperature 参数 = 0 ,模型每次都挑最佳候选字,从不偏离 • temperature 参数越大,生僻的选择变得更容易被选中 • openAI 试验场( playground )限制 temperature 参数在 0 到 1 的区间 t=0 t=0.4 t=2 top_p 参 数 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 • 限制 top_p 参数在 0 到 1 的区间 • 拿到候选字的原始概率分布后,先把这些字按概率从高到低排序,按顺序依次选取,选到总概 率超过 top_p 值的时候即停止,剩下的候选字彻底放弃 ① 关 于 预 训 练 • top_p=0 ,只保留最高频的一个字 • top_p=0.5 ,考虑总概率占 50% 的那些最高频的 字 • top_p=1 ,全部候选字都考虑 top_p=0 CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn top_p=0.1 top_p=1 大模型精确性提升思路:知识嵌入 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 大模型语言本身具有很强的语言理解或生成能 力,然而为了提高其叙述内容的真实性和严谨 性,需要采用特定的技术路线,例如将知识图 谱中的事实描述融入大模型的训练过程中。 知识嵌入: Zhang 等人通过将知识图谱的表示 向量加入到 BERT 中对应的 tokens 编码内,从 而 使得模型学习到与知识相关的事实信息,增 强 了模型在相应知识领域的准确性。 [1] 相关模型在 FewRel 和 TACRED 上的表 现 参考: CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn [1] Zhang, Zhengyan, et al. "ERNIE: Enhanced language representation with informative entities." arXiv preprint arXiv:1905.07129 (2019). 大模型精确性提升思路:知识预测 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 参考: [1] Liu, Jiacheng, et al. "Generated knowledge prompting for commonsense reasoning." arXiv preprint arXiv:2110.08387 (2021) 知识图谱应用于大模型训练后阶段: Liu 等 人提出了知识生成式大模型提示方法,让 模型 进行知识预测,通过将知识图谱的三元 组形式 转化成 Question and answer 的形式, 让模型 生成一些知识,然后将这些知识进行 聚合,从 而得到最终的更为精确靠谱的结果。 模型在数 值常识( NumerSense )、一般常 识 ( CommonsenseQA 2.0 )和科学常识 ( QASC )基准测试中进行实验,得出了将外 部 知识融入到大模型中能够提升其常识推理任 务 的精度的结论。 [1] CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 大模型精确性提升思路:少样本提示 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ① 关 于 预 训 练 参考: 1 https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/130211938 2 https://www.promptingguide.ai/zh/techniques/fewshot ChatGPT 作为一种生成模型,存在一些问题。 其中最主要的问题是不确定性和预训练语料库 中存在的某些局限性,这可能导致 ChatGPT 在 回答一些问题时存在时效性、事实性以及 内容 不合规等情况。 [1] 少样本提示:尽管大型语言模型展现出惊人的 零样本能力(泛化能力),但在复杂的任务中 使用零样本设置时仍然表现不佳。为了提高模 型的性能,我们可以采用少样本提示技术来启 发上下文学习。这种技术可以通过给模型提供 示例演示来引导其生成更好的响应。演示作为 后续示例的条件,可以有效地提高模型的准确 性和可靠性。 [2] CHIMA 20Pag2 Tsinghua Confidential | lvhairong@tsinghua.edu.cn 大模型精确性提升思路:自我一致性 ③ 精 准 可 解 释 ④ 医 疗 应 用 ⑤ 数 基 生 命 ② 剖 析 大 模 型 ①
| ||
下载文档到本地,方便使用
共 52 页, 还有
1 页可预览,
继续阅读
文档评分


医疗健康大模型伦理与安全白皮书(93页 WORD)
智慧供应链预测算法应用