DeepSeek大模型赋能高校教学和科研2025大语言模型 预训练大语言模型 GPT 文 心 ERNIE ... 3.3 人工智能与大模型的关 系 深度学习模型 预训练模型 文心一言 ChatGPT 语言大模型 是 指 在 自 然 语 言 处 理 ( Nat u ral La ng uage Processing , NLP )领域中的一类大 模型, 通常 用于处理文本数据和理解自然语言 。 这类大模型 的主要特点是它们在大规模语料库上 大模型是基于 Transformer 架构的 ,这种架构是一种专门用于自然语言处理的“编码 - 解码器”架构。 在训练过程中 ,大模 型将输入的单词以向量的形式传递给神经网络 ,然后通过网络的编码解码以及自注意力机制 ,建立起每个单词之间联系的 权 重。大模型的核心能力在于将输入的每句话中的每个单词与已经编码在模型中的单词进行相关性的计算 ,并把相关性又 编码 叠加在每个单词中。 这样 ,大模型能够更好地理解和生成自然文本 ,经过大量文本数据训练而成 ,能够生成自 然、 流畅的语言 ,并具备回答问题、 生成文本、 语言翻译等多种功能 ChatGPT 的应用范围广泛 , 可以用于客服、 问答系统、 对话生成、 文本生成等领域。 它能够理解人类语言 ,并能够回 答各 种问题 ,提供相关的知识和信息。 与其他聊天机器人相比 , ChatGPT 具备更强的语言理解和生成能力 ,能够更自 然地与人 类交流 ,并且能够更好地适应不同的领域和场景。10 积分 | 123 页 | 15.88 MB | 10 月前3
英特尔-工业人工智能白皮书2025年版实时 监控物流配送过程,提高配送效率、降低成本。 • 财务与人力管理:通过训练模型,可以自动读取发 票和收据,将其转换为数字格式,直接导入会计系 统,减少了数据录入和处理的时间和错误 。使用自 然语言处理 (NLP) 和机器学习算法,能快速分析候 选人简历,识别出与职位相关的教育背景、工作经历 等关键信息,快速筛选出符合条件的候选人,提高招 聘效率。 05 01 工业人工智能 可以对未见过的数据做出准确的预测,能够处 理更加复杂的任务和数据。 展开来讲,大模型技术有以下几项基本特征: 1. 普遍基于 Transformer 架构。Transformer 架构通过引入自注意力 (Self-Attention) 机制,在处理序列数据时,能同时 关注输入序列的所有元素,并直接建立任意两个元素之间的联系,从而捕捉序列中的长距离依赖关系,实现对输入序列的 高效处理和理解 AI 技术,还是工业大模型的落地应用,数据都是首要问题。首先是数据的数量问题,如何从应用场景 中收集到大量的数据作为训练算法或模型,是算法或大模型具备更智能化分析和决策能力的基础。而往往很多时候来 自工业现场的数据量非常有限甚至极少。其次是数据质量问题,即数据的清洁性,并非所有来自工业现场的数据都是 有用的,需要对数据进行清洁。如何从实际应用场景中采集或生成丰富且有价值的可用数据,是 AI 及工业大模型成功0 积分 | 82 页 | 5.13 MB | 10 月前3
华为昇腾DeepSeek解决方案DeepSeek-V3 是一款 MoE 模型,总参数量 671B ,激活参数量 37B ,采用 2048 张 H800 (节点内 NVLink ,节点间 IB ,非超节点架构) 在 14.8T token 数据集上基 于自 研 HAI-LLM 训练系统总计训练了 1394h ( 58.08 天) 性能优 数学、科学和代码等领域领先业界, 成为业界公认的 LLM 的领先模型 来源: DeepSeek 模型测试数据 高阶融合算子库 硬件层算网协同 提升有效吞吐 NLSB 网络级负载均衡实现网络 动态路由,有效吞吐达 98% 控 制器 全 局集 中 算路 自 动生 成 路径 并 动态下 发网络 获取网络拓扑 网络局部计算选路 Hash 冲 突 导 致 有 效 吞 吐 不 足 50% 拥塞 Llama2-13B 1.44~2.19x A10 电商 ChatGLM2-6B 1.86x A30 Baichuan2-13B 1.82x A30 Qwen-14B 1.81x A30 ZN 大模型 智脑 13B 1.7x A30 图像识别、 OCR 文 字识别和视频 处理 Llama2-70B 1.7x L20 智慧教育、办公问 答 星火 -65B x 800T A2 交互搜索,金融客0 积分 | 32 页 | 2.52 MB | 10 月前3
AI跃迁派:2025年DeepSeek零基础完全指南电脑跑 AI 2.知识蒸馏:把 70B 参数大模型压缩到 1.5B,手机都能运行专业级 AI 5.国际影响:技术出海的东方智慧 ⚫ 在东南亚、中东等地区,DeepSeek 成为数智主权建设工具,帮助发展中国家摆脱 对西方技术的依赖 ⚫ 开源策略吸引全球 20 万开发者,形成中美双极化的 AI 生态格局 二、核心能力图谱 1.技术特性:AI 界的“六边形战士” 2.功能模块:你的私人 AI 军团 DeepSeek 通过三大功能模块,满足从日常生活到专业领域的全场景需求: 模块 1:基础版(V3)——效率倍增器 适用人群:学生、白领、自媒体创作者 核心技能: ⚫ 文案生产:3 分钟生成周报/演讲稿/小红书爆款文案(带 Emoji 和话题标签) ⚫ 知识管家:自动整理会议录音→生成思维导图→提炼待办事项 ⚫ 语言翻译:支持10 积分 | 21 页 | 1.01 MB | 10 月前3
从智慧教育到智慧课堂:理论、规范与实践计划 智慧教育计划 提出 建立学习者为中 心的个性化学习 空间 建设国家范围的 教育基础设施 使新加坡成为全 球教育领域使用 信息技术的创新 中心 5 智慧教 育 已 成 韩国 " 智 慧 教 育 推 进 战 略 " 2011 年 数字教科书的普及推广 核心 6 智慧教 育 已 成 马来西亚 1999 年“智慧学校 计划” 2010 年将所有学 校都转型为智能学 校 U 桃园 计划” 从 e 化教育向 u 化 教育(泛在教育) 美国 IBM 智慧教育解决 方案:教育数据的 收集、管理与分析, 为学习者提供独特 的学习体验,教学 制度优化 7 智慧教 育 智 慧 教 育 什么是智慧教育? 在信息化基础之上建构的信息时代的教育新秩序,是信 息时代的教育新形态、教育的“新常态”,是信息化元素充分 融入教育以后,在“时代催化剂”的作用下教育发生的“化学反 高效率 沉浸性 持续性 自然性 基本特征 获取自己所需的资源、信息和 服务 享受个性化定制的资源和服务 发掘自己的兴趣爱好 挖掘自己的潜能 学习过程更加轻松高效 学习者 34 智 慧 慧 学 习 框 架 泛在网络 物联网 感知需求 分析需求 发 现 所 需 提 供 资 源 和 服 务 信息、数据、 服务支持 环境、终端 外部支持 智慧课堂:智慧教育主阵地10 积分 | 74 页 | 10.39 MB | 10 月前3
2025年DeepSeek-R1Kimi 1.5及类强推理模型开发解读报告随着模型尺寸逐渐增大,预训练阶段参数 Scaling Up 带来的边际收益开始递减;如果想要深度提升模 型推理能力和长程问题能力,基于RL的 Post-Training 将会成为下一个突破点。 ➢ 自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正,如果仅是依靠生成 式方法和扩大参数规模,那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws [1]。 流程:“监督微调(SFT)→ 强化学习(RL)→ 再次 SFT → 再次 RL”,有效解决了传统强化学 习模型在冷启动、收敛效率和多场景适应性方面的瓶颈。 ➢ 强大的自验证和长链推理能力:并非预先设定好的,而是在RL训练中自主涌现出来的 ➢ 自验证是指模型在生成最终答案之前,会先主动地验证自己的中间推理步骤是否正确。这就 像一个学生在做题时,会反复检查自己的解题过程,以确保答案的准确性。 ➢ 反思10 积分 | 76 页 | 8.39 MB | 10 月前3
山东大学:DeepSeek 应用与部署DeepSeek-R1 满血版为例进行演示 ,通过百炼模型服务进行 DeepSeek 开源模型调用 ,可以 根 据实际需求选择其他参数规模的 DeepSeek 模型。百炼平台的 API 提供标准化接口 ,无需自 行搭建 模型服务基础设施 ,且具备负载均衡和自动扩缩容机制 ,保障 API 调用稳定性。搭配 Chatbox 可视 化界面客户端 ,进一步简化了调用流程 ,无需在命令行中操作 ,通过图形化界面即10 积分 | 79 页 | 6.52 MB | 10 月前3
共 7 条
- 1
