积分充值
 首页  上传文档  发布文章  登录账户
维度跃迁
  • 综合
  • 文档
  • 文章

无数据

分类

全部人工智能(12)前沿探索(12)

语言

全部中文(简体)(12)

格式

全部PDF文档 PDF(7)PPT文档 PPT(5)
 
本次搜索耗时 0.027 秒,为您找到相关结果约 12 个.
  • 全部
  • 人工智能
  • 前沿探索
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • ppt文档 AI在保险行业的发展和应用(32页 PPT)

    预训 练 SFT RLH F 1 0 使用 PPO 针对奖励模型优化策略 采样一个新的问题 基于有监督策略初 始化 PPO 模型 输出策略生成答案 奖励模型计算输出 奖励 更新策略 第二步 收集比较数据并训练奖励模型 采样问题,模型输出 问题的多个回答 人工对多个答案进行 排序 使用排序比较数据训练 奖励模型 从问题数据集中抽取 问题 人工标注期望的答案
    10 积分 | 32 页 | 941.17 KB | 3 月前
    3
  • pdf文档 《Web3.0:下一代互联网的变革与挑战》姚前 & 陈永伟

    部分通证的25%。这些激励对象在获得通证后,可以设定一个比例X% ,并以SP形式持有其中X%的通证,而以SBD的形式持有其中(100- X)%的通证。 其中的15%将以SP的形式分配给所有的SP持有者,作为长期“持 股”的奖励,以及对通货膨胀的补偿。 其中的10%将以SP的形式分配给“见证人”,也就是区块的生产 者,用以弥补他们为生产区块所产生的硬件、电力等成本。 在一个以内容为主的社交网络中,维持用户活跃、创造优秀内 个问题。 第一,为了维持用户活跃,Steemit不仅对发文、点赞、评论等 活动都设置了相应的奖励,还通过不断增发的机制进行倒逼。持续 的增发会带来通货膨胀的压力。[1]因此,为了使自己手中的资产保 值增值,用户就会在网络中维持更高的活跃度。 第二,为了创造优秀内容,Steemit设置了精巧的奖励机制。在 Steemit上,发布内容是通证获取的重要来源。当一个用户发布内容 越多、质量越高时 纳入加密经济,让数字符号直接具备经济价值,但这两类通证 在加密经济中的作用是完全不同的。 同质化的通证大致分为两类。第一类,通证由算法决定如 何发行,背后没有资产储备或信用背书作为支撑,并被人为赋 予用途,比如用作区块奖励或手续费。比特币和以太币是此类 通证的代表。每种此类通证都对应着一个DAO。通证代表着参与 DAO的权益,但不构成DAO的负债。DAO中的经济活动使用通证作 为结算工具。DAO更接近于市场而非企业。衡量DAO发展的重要
    20 积分 | 183 页 | 3.74 MB | 3 月前
    3
  • ppt文档 2025年智启未来·险见新机-人保寿险大模型探索及实践(33页 PPT)

    )训练,跳过 SFT ,让模型通过自主试错和优化来学习, 减少对标注数据依赖,降低训练复杂度。 在实际应用中, R1 在数学和编程任务中表现优于 OpenAI o1 。 自适应调整 极简单的奖励规则,让大模型自我博弈、不断顿悟与自适应调整,实现深度思 考。比如, R1 会深入思考多种解题路径,评估优劣后选择数学难题的最优解, 这种能力使其在处理复杂任务时更加高效精准。 挖掘硬件潜力提高算力利用 数据信息高效处理 DeepSeek 的多头潜在注意力( MLA )机制通过对注意力机制中的键值进行压 缩实 现数据高效处理,这就好比仅通过阅读摘要就能快速了解长篇书籍的核心内 容。 奖励学习机制高度依赖 其他大模型对复杂神经网络奖励、监督学习以及学习 示例的高度依赖 逐个单词生成答复 信息冗余处理 传统模型计算注意力权重时,可能会对不重要信息分 配过多资源,导致信息冗余。 训练成本低 深度思考强
    10 积分 | 33 页 | 2.82 MB | 3 月前
    3
  • ppt文档 电子AI+系列专题:DeepSeek重塑开源大模型生态,AI应用爆发持续推升算力需求

    通过群体反馈数据分析替代独立评估模型,有效降低计算资源消耗。这种优化策略无需依赖与策略模型规模匹配 的独立评估模型,通过 动态基线估计显著提升训练效率。 2 )双维度评价体系。建立“准确性验证 + 格式规范”的复合奖励机制:前者通过数学符号解析与代码编译测试进行精确 度验证,后者要求模型将 推理过程严格置于 结构化标签内。这种双重设计既保障了技术问题求解的严谨性,又确保了输出内容的可解析性,为自动化评估提供标准化接 )面向推理的强化学习。和 DeepSeek-R1-Zero 方式相同,但引入了语 言一致性 奖励,对推理密集型任务进行特别优化。 3 )拒绝采样与监督式微调。使用已训练的 RL 模型来生成新的训练数据,通过构建推理数据和非推理数据提升模型的通用能力。 4 )全场景 强化学习。为了同时平衡推理能力和通用能力,将不同类型的奖励机制有机结合,再次进行强化学习。 DeepSeek-R1(-Zero) 通过 (
    10 积分 | 38 页 | 1.95 MB | 9 月前
    3
  • pdf文档 未来网络发展大会:2025卫星互联网承载网技术白皮书

    构建强化学习 模型,让路由算法能够在不断与网络环境交互的过程中学习到最优的 路由策略。例如,将网络的吞吐量、时延、丢包率等性能指标作为奖 励函数,让路由算法通过不断尝试不同的路由决策,以最大化奖励为 目标,逐步学习到适应不同网络场景的最优路由策略。这种基于人工 智能的路由算法能够更好地应对卫星互联网承载网复杂多变的特性, 提高网络的整体性能。 此外,针对卫星互联网承载网中不同业务对网络性能的不同要求, 导致数据包处理延迟过高,成为网络性能瓶颈。 强化学习算法则通过不断地在网络环境中进行试错,以网络性能 指标(如吞吐量、时延、资源利用率等)为奖励信号,自主学习和改 进资源分配策略。在资源分配过程中,强化学习算法尝试不同的资源 分配方案,根据得到的奖励信号判断方案的优劣,逐渐找到最优的资 源分配策略。未来趋势包括 AI 驱动的自主管理、意图驱动网络管理, 以及 3GPP 5G 管理框架、ETSI
    20 积分 | 85 页 | 3.37 MB | 3 月前
    3
  • ppt文档 清华大学:DeepSeek赋能家庭教育

    隐性教育 家庭文化(餐桌礼仪) 、情感联结(亲子共读) 、价值观渗透(家长以身作则) 。 4. 系统方法 沟通方式 对话与倾听(非暴力沟通) 、非语言互动(拥抱鼓励) 。 激励与约束 正向强化(积分奖励) 、负向反馈(暂停特权) 。 参与模式 共同活动(家庭运动日) 、自主探索(提供实验工具) 。 5. 环境与资源 物理环境 学习角布局 、书籍 / 电子设备配置。 心理环境 民主氛围(允许表达意见) 力,提高其学习效果 。 一次函数 (y = kx + b) ( k , b 为常数 , k=#0 )中 , b 值变 化如何影响图像在 y 轴上的平移 。请提供详细的解 题思路, 并提供奖励机制激发小张的学习兴趣 A I 个性化教育: 孩子专属的智能家 教 n 异世界的异感艺术 n A I 城市拟人化处理与创意场景生成 n 协同智能框架下的宇宙文明大模型 理论构建学是一个系统化的学术领域
    10 积分 | 89 页 | 9.10 MB | 9 月前
    3
  • pdf文档 信通院:“机器人+人工智能”工业应用研究报告2025

    在环境的不断交互中实现环境的重构映射、自主决策和自适应行动 1。 强化学习方法使得机器人的泛化操作能力大大提升。强化学习为 具身智能的突破性发展提供了理论基础,让机器人在与环境的交互 中,不断试错、学习和优化策略,并依据奖励策略不断优化动作执行 结果。然而,强化学习在面对新场景时存在迁移困境,对高质量训练 数据的要求较高,目前主流的改进方法有两种,一是通过模仿人类的 行为快速掌握新技能,比如丰田研究所开发的“大型行为模型”,机
    0 积分 | 37 页 | 2.06 MB | 9 月前
    3
  • pdf文档 电子行业深度报告:AI系列深度,AI+降本增效拓宽应用,硬件端落地场景丰富-20230712-东吴证券-28页

    学习在无明确监督情况下执行多种任务 GPT-3 2020 年 5 月 1,750 亿 45TB 499B 结合少样本学习和无监督学习 GPT-4 2023 年 3 月 待公布 基于规则的奖励模型 数据来源:OpenAI,Medium,东吴证券研究所 ChatGPT 提供变革性的用户体验,用户数量飙升。ChatGPT 发布后爆火,仅用 5 天 时间用户量便破百万,推出 2 个月后用户量破亿,访问量从
    10 积分 | 28 页 | 2.68 MB | 9 月前
    3
  • ppt文档 DeepSeek如何加速金融业数字化转型?

    是认知杠杆,不是流程替代,金融机构业务端的“产 品经理” 或成为稀缺人才 ; Ā 表 22ÿ 财富管理领域的认知能力坐标系 资料来源 ÿ 中信建投整 理 通过 MoE 架构、本地化部署、适配国产 GPU 、规则奖励 机制、开源生态等策略, DeepSeek 在 推理能力不输 OpenAI GPT-o1 的同时,实现显著的成本节省。 简单对比 : 训练成本 :DeepSeek-V3 (558 万美元 )
    10 积分 | 77 页 | 16.76 MB | 9 月前
    3
  • pdf文档 未来网络发展大会:2025算电协同技术白皮书

    供需平衡的可持续运行需市场化调节机制支持,应完善电力现货 市场和辅助服务市场,建立与算力用电行为挂钩的价格信号传导机制, 引导算力基础设施依据电力系统运行状态灵活调整运行策略。政策引 导方面,可通过绿色电价、差异化电费、碳积分奖励等方式,推动算 力设施在非高峰时段运行或优先使用清洁能源,提高系统调节响应积 极性。感知与控制系统能力提升也是关键,构建面向电力与算力融合 的统一调控平台,实现电力供需态势、算力资源分布及响应措施的全
    10 积分 | 66 页 | 1.70 MB | 3 月前
    3
共 12 条
  • 1
  • 2
前往
页
相关搜索词
AI保险行业保险行业发展应用32PPTWeb3一代下一代互联联网互联网变革挑战姚前陈永伟2025年智启未来险见新机人保寿险模型探索实践33电子系列专题DeepSeek重塑开源生态爆发持续推升算力需求网络大会卫星承载技术白皮皮书白皮书清华华大大学清华大学赋能家庭教育家庭教育信通机器机器人人工智能人工智能工业研究报告电子行业深度降本增效降本增效拓宽硬件落地场景丰富20230712东吴证券28如何加速金融金融业数字数字化转型算电协同
维度跃迁
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传,所有资料均作为学习交流,版权归原作者所有,并不作为商业用途。
相关费用为资料整理服务费用,由文档内容之真实性引发的全部责任,由用户自行承担,如有侵权情及时联系站长删除。
维度跃迁 ©2025 - 2026 | 站点地图 蒙ICP备2025025196号
Powered By MOREDOC PRO v3.3.0-beta.46
  • 我们的公众号同样精彩
    我们的公众号同样精彩