语言 - 信息化解决方案--维度跃迁 —— IT方案库， IT 世界的跃迁密码，让复杂问题迎刃而解!

首页上传文档发布文章登录账户

基于大语言模型的AI Agent架构及金融行业实践-周健

基于大语言模型的AI Agent架构及金融行业实践周健 2024.8.17 企业数智化发展趋势商业化成熟度时间 2022.1 1 2023.2 2023.8 2023.5 Llama3 GPT 4o GPT4 GPT4 GPT 3.5 Sora Gemini 2023.1 1 2024.2 闭源模型（文本）开源模型（文本）多模态模型实时模型 Llama2 Is Emerging — Business Orchestration and Automation Technologies AI Agent在企业数智化中的定位 AI Agent：基于大语言模型的自治智能体从人机协同模式角度从Agent组成结构角度 p 初级形态：把AI嵌入到人的工作中 p 中级形态：AI作为人的辅助工具 p 高级形态：AI作为主要工具，Agent对人的依赖性在降低，且越来越像真人。人 Agent具备角色识别，规划及任务拆解、记忆及知识沉淀、工具/技能使用、执行动作等能力 p 采用更加高效的CUI交互模式从技术架构演进角度 p 对话式编程时代，我们相信新的更优雅的基于大语言模型的软件架构必将诞生 p SPQA架构是一种全新的软件架构，区别于以前静态、有限输入、电路式的软件架构 n State+Policy：用于感知环境状态、组织策略 n Questions+Action：拆解问题任务、组织

10 积分 | 29 页 | 26.70 MB | 6 月前
3
基于大语言模型技术的智慧应急应用：知识管理与应急大脑

的总体目标，强调要适应科技信息化发展大势，以信息化推进应急管理现代化，提高监测预警、监管执法、指挥决策、救援实战、社会动员等应急管理能力。大语言模型是具有大规模参数的深度学习模型，通过对海量文本的训练习得语言的统计规律，从而具有理解和生成自然语言的能力，实现人机之间的有效通信。自2018年双向编码表示模型（bidirec⁃ tional encoder representations from pre-trained transformer，GPT），人工智能领域自然语言处理方向的重大突破，引领了大规模预训练模型及应用研究的热潮。大语言模型技术的迅猛进展正深刻地影响着机器系统智能化的轨迹，标志着进入一个新的人工智能时代。从 BERT 到 GPT [1-2]，这些模型通过深度学习和海量数据训练，不仅推动了自然语言处理技术的边界，也正在改变知识获取和创新的模式，将对应急管理体系发展、能力要求以及实金（20BZZ037）, 广东省哲学社会科学规划项目（GD24XGL075）资助 *通信作者简介黄欢（1976— ）, 男, 湖南常德人, 硕士, 助理研究员。基于大语言模型技术的智慧应急应用：知识管理与应急大脑龚晶 1 黄欢 2，* （1. 暨南大学公共管理学院/应急管理学院，广州 510632；2. 暨南大学党委政治保卫部/人民武装部，广州 510632）

20 积分 | 8 页 | 3.21 MB | 6 月前
3
打造自适应AI运维智慧体：大语言模型在软件日志运维的实践（29页 PPT）

打造自适应 AI 运维智慧体：大语言模型在软件日志运维的实践刘逸伦华为 2012 实验室本科毕业于南开大学，硕士毕业于美国佐治亚理工学院。研究方向包括 AI 智能运维，大模型质量评估以及大模型提示策略，在相关领域以第一作者、通讯作者身份在 ICDE 、 ICSE 、 IWQoS 等顶级国际会议 / 期刊发表 10 余篇论文。刘逸伦华为 2012 文本机器翻译实验室工程日志是机器语言：大规模网络、软件系统在运行过程中每天会产生 PB 级别的日志，这些日志是一些类自然语言的文本，实时描述了设备的运行状态、异常情况。 (2) 传统网络运维是机器语言的人工翻译过程：为了维护网络的稳定，运维人员会持续监控设备的运行状态，希望准确、及时地检测异常和突发事件。网络日志是设备运行维护最重要的数据源，运维人员通常会通过解读日志中的自然语言、语义信息来发现问题、分析根因。分析根因。 (3) 自动日志分析是机器语言的自动翻译过程：日志文本种类繁多、数量庞大，且多数日志为非结构化文本，无法通过人工方式监控和检测全部的日志。更重要的是，分析设备日志需要丰富的领域知识，耗时耗力；简单的规则配置也无法理解文本的语义信息。化⽂本类自然语⾔半结构观点 1 ：软件日志运维是从机器语言向自然语言的转化转化表：一些网络基础设施

20 积分 | 29 页 | 9.28 MB | 6 月前
3
电子行业AI+系列专题：边缘AI，大语言模型的终端部署，推动新一轮终端需求-20230531-国信证券-25页

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告 | 2023年05月31日超配电子 AI+系列专题报告边缘 AI：大语言模型的终端部署，推动新一轮终端需求核心观点行业研究·行业专题电子超配·维持评级证券分析师：胡剑证券分析师：胡慧 021-60893306 021-60871321 hujian1@guosen.com.cn huhui2@guosen 特征是通过海量数据，无需标注自监督学习，训练一个基础大模型，并在各领域将其专业化。据相关论文，当模型的参数量大于某阈值，会展现出类似推理、无监督学习等未曾出现的能力，这种现象被称为“涌现”，因此目前大语言模型参数均在十亿量级以上。同时，Deepmind 研究表明，模型参数的上涨需要配合等比例上升的优质数据集来达到最佳训练效果。因此，大模型参数在十亿级以上发展并受限于优质数据集的增速是 AI 发展的必然趋势。 8GHz 的占比 36%，价格在 1000 美金以上的占比 13%，即旗舰机型占比较低，随着 AI 大模型在边缘端落地，有望推动新一轮换机潮。以大语言模型为核心，以语言为接口，控制多 AI 模型系统，构建“贾维斯” 式智能管家。我们认为大语言模型不仅可以实现对话、创意，未来也有望作为众多复杂 AI 模型的控制中心，同时也是接受用户指令的交互窗口，实现《钢铁侠》电影中“贾维斯”式综合智能管家。23

10 积分 | 25 页 | 2.20 MB | 1 年前
3
基于大模型的具身智能系统综述

然后, 对不同具身智能系统架构进行介绍, 并总结了目前具身智能模型的数据来源, 包括模拟器、模仿学习以及视频学习; 最后, 对基于大语言模型 (Large language model, LLM) 的具身智能系统面临的挑战与发展方向进行讨论与总结. 关键词大语言模型, 大型视觉模型, 基础模型, 具身智能, 机器人引用格式王文晟, 谭宁, 黄凯, 张雨浓, 郑伟诗, 孙富春. 基于大模型的具身智能系统综述 intelligence, AI) 技术提高具身智能的表现则成为学界与产业界的关注重点. 最近的研究表明, 通过扩大语言模型的规模, 可以显著提高其在少样本学习任务上的表现, 以 GPT-3 (Generative pre-trained transformer 3)[4] 为代表的大语言模型 (Large language model, LLM) 在没有进行任何参收稿日期 2024-08-01 仅通过文本交互来指定任务和少样本示例就能很好地完成各类任务. 在此之后, 具有优秀泛化能力与丰富常识的基础模型在计算机视觉、自然语言处理等领域都展现出令人瞩目的效果. GPT-4[5]、LLaMA[6]、LLaMA2[7]、Gemini[8]、 Gemini1.5[9] 等大语言模型能与人类进行流畅的对话, 进行推理任务, 甚至进行诗歌和故事的创作; BLIP (Bootstrapping language-image

20 积分 | 19 页 | 10.74 MB | 6 月前
3
规划和自然资源行业应对DeepSeek浪潮的思考

游：带 AI 功能手机销量涨 120% 。 2 、提振算力产业链：助力国产算力成长一、算力产业链：让国产算力 “能用、好用 ” 1. 语言模型概述 2. Transformer 结构 3. 语言模型构建流程二、大语言模型技术原理数据是用于训练 AI 的，也就是 AI 算法通过大量的数据去学习 AI 中算法的参数与配置，使得 AI 的预测结果与实际的情况越吻合千亿上万亿。人工智能核心要素语言是人类与其他动物最重要的区别之一逻辑思维以语言的形式表达知识以文字的形式记录和传播如果人工智能想要获取知识，就必须懂得理解人类使用的不太精确、可能有歧义、混乱的语言。 1 、语言模型概述语言模型（ Language Model ， LM ）目标是建模自然语言的概率分布词汇表 V 上的语言模型由函数 P(w1w2.. wm 看作一个变量，那么它具有 |V|m 种可能。按照《现代汉语词典（第七版）》包含 7 万词条，句子长度按照 20 个词计算，模型参数量达到 7.9792* 1096 的天文数字。 1 、语言模型概述由此， w1w2...wm 的生成过程可以看作单词逐个生成的过程。首先生成 w1 ，之后根据 w1 生成 w2 ，再根据 w1 和 w2 生成 w3 ，以此类推，根据前 m −

10 积分 | 62 页 | 12.36 MB | 11 月前
3
DeepSeek大模型赋能高校教学和科研2025

更连贯的回答可迁移性高学习到的知识和能力可以在不同的任务和领域中迁移和应用。这意味着一次训练就可以将模型应用于多种任务，无需重新训练语言生成能力大模型可以生成更自然、更流利的语言，减少了生成输出时呈现的错误或令人困惑的问题 3.1 大模型的概念 3.2 大模型的发展历程大模型发展历经三个阶段，分别是萌芽期、沉淀期和爆发期 3 ），预训练大模型包含了预训练大语言模型（可以简称为“大语言模型”），预训练大语言模型的典型代表包括 OpenAI 的 GPT 和百度的文心 ERNIE ， ChatGPT 是基于 GPT 开发的大模型产品，文心一言是基于文心 ERNIE 开发的大模型产品人工智能机器学习深度学习预训练大模型预训练大语言模型预训练大语言模型 GPT 文心 ERNIE 深度学习模型预训练模型文心一言 ChatGPT 语言大模型是指在自然语言处理（ Nat u ral La ng uage Processing ， NLP ）领域中的一类大模型，通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则。代表性产品包括 GPT

10 积分 | 123 页 | 15.88 MB | 1 年前
3
DeepSeek大模型及其企业应用实践

大模型可以从大量的数据中学习，并利用学到的知识和模式来提供更精准的答案和预测。这使得它们在解决复杂问题和应对新的场景时表现更加出色学习能力强大模型可以生成更自然、更流利的语言，减少了生成输出时呈现的错误或令人困惑的问题语言生成能力学习到的知识和能力可以在不同的任务和领域中迁移和应用。这意味着一次训练就可以将模型应用于多种任务，无需重新训练可迁移性高 1.2 大模型的发展历程，预训练大模型包含了预训练大语言模型（可以简称为“大语言模型”），预训练大语言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE，ChatGPT是基于GPT开发的大模型产品，文心一言是基于文心ERNIE开发的大模型产品人工智能机器学习深度学习深度学习模型预训练模型深度学习预训练大模型预训练大语言模型预训练大语言模型 GPT 文心ERNIE 文心ERNIE ... ChatGPT 文心一言 1.4 大模型的分类语言大模型视觉大模型多模态大模型是指在自然语言处理（Natural Language Processing，NLP）领域中的一类大模型，通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则。代表性产品包括GPT系列（OpenAI）、Bard

10 积分 | 147 页 | 16.82 MB | 1 年前
3
大模型时代的AI教育：思考与实践2024

智能（Intelligence）：以模型为核心，是对真实世界的模拟和解释人类智能 • 抽象（语言）：概念，数字，理念 • 逻辑（理性）：归纳，演绎，类比 • 计算（模型）：科学方法 • 基于观测经验，发现规律 • MIT：一切问题都是模型问题 • 模型：一个映射，一个函数科学范式 • 用语言逻辑方法获取理论模型：模糊 • 用解析数学方法获取数学模型：精确 • 用计算数学方法获取数据模型：近似 Diffusion、transformer ◼ 从NLU+NLG到LLM（大语言模型） 1. 语言逻辑和数据集蕴含了人类的认知智能 2. LLM是人类的认知智能的实现方式之一 3. LLM的原理很简单；工程很复杂；效果很神奇 01 对AI技术的认知：大模型的能力边界用人工神经网络获取网络模型：深度学习-Transformer模型-大语言模型大语言模型的核心原理：数据化-语义化-NTP（Next Token Token Prediction）大语言模型的三层能力：语言能力-知识能力-推理能力 1. 语言能力：一本正经地说话，语言顺畅，GPT时达到 • NLG+NLU：语言理解、语言表达（包括温度和情商） • 人类语言、代码语言、XX语言 2. 知识能力：海量公开知识，言之有物，GPT-2时达到 • 顺带学习（基座模型）：文字中蕴含了知识 • 压缩：幻觉 • 遗忘：微调（迁移学习），尤其是RLHF

10 积分 | 36 页 | 4.04 MB | 1 年前
3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告

DeepSeek-R1 \ Kimi 1.5 及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班” 主要研究方向：大语言模型对齐与可扩展监督 https://cby-pku.github.io/ https://pair-lab.com/ 2 Outline ➢ DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 ➢ DeepSeek-R1 Zero 技术剖析：DeepSeek-R1 Zero DeepSeek-R1 Zero的关键启示 ➢ 传统RLHF背景下，SFT通常被认为是不可或缺的一步，其逻辑先用大量人工标注的数据来让模型初步掌握某种能力（如对话或者语言风格），然后再用RL来进一步优化性能 ➢ DeepSeek-R1 系列跳过对于大规模人工标注数据的依赖 ➢ 无需构建和维护高质量的SFT数据集，而是让模型直接在RL环境中进行探索 ➢ 类比：初 languagemodels.co/p/the-illustrated-deepseek-r1 15 DeepSeek-R1 技术 Pipeline 总览 ➢ DeepSeek-R1 Zero 的问题：长推理过程可读性差、语言混合，帮助性低 ➢ Research Questions: ➢ 能否在Zero基础上兼顾推理性能的同时，提升模型的帮助性和安全性？例如产生 Clear & Coherent CoT 并且展现出通用能力的模型

10 积分 | 76 页 | 8.39 MB | 1 年前
3

共 198 条前往

页

分类

语言

格式