电子书 -具身智能人工智能的下一个浪潮

语言	格式	评分
中文（简体）	.pdf	3
概览
1 2 序言种到地里的娃娃多年以后，面对行刑队，奥雷里亚诺·布恩迪亚上校会回想起父亲带他去见识冰块的那个遥远的下午。 ——加西亚·马尔克斯，《百年孤独》冰正在沸腾。这是奥雷里亚诺上校在那个遥远的下午第一次接触到冰块的感受。很多年以后，当人类进入信息时代，人工智能也宛如冰块一般，炽热与寒意同在。人们既狂热地期待着智能带来的诸多惊喜，又恐惧着可能无法掌控的命运。从1956年达特茅斯会议开始正式使用人工智能（artificial intelligence，AI）这个词以来，近70年间，人工智能历经了至少3次起落，从摇旗呐喊到陷入彷徨。物理学家马克斯·普朗克曾说，科学在一次又一次的葬礼中进步，但人工智能的高潮与低谷似乎等不到人类的凋零便进入了一个新的周期。 2010年前后，由于ImageNet等一系列学术亮点的出现，人工智能在学术界逐渐进入炽热期。2016年谷歌人工智能程序AlphaGo战胜围棋世界冠军李世石，2022年 OpenAI（美国开放人工智能研究中心）发布一款名为ChatGPT的聊天机器人，终于把这份火热传递给了大众。当生命用40多亿年的进化所形成的最高智慧大脑皮质被人工神经网络快速逼近，当几十亿人用50多年缔造的互联网数据被大语言模型用不到100天的时间吞噬（GPT-4的训练时间估算为90～100天），当我们生活中的电子产品都被冠以AI之名，如AI个人计算机、AI手机、AI汽车……我们正在进入一个新的时代，一个被人工智能“生命”（“硅基生命”）包围的时代。炽热往往又伴随着寒意。2023年，如日中天的OpenAI爆发了震惊世界的“宫斗”大戏，首席执行官萨姆·奥尔特曼被解雇了。人们猜测其中原因可能有人类尚未准备好迎接通用人工智能的到来。通用人工智能是什么样子？一个可以对话的机器目前来看远远不是人工智能的终点。所谓的强人工智能，要多强才算强？随着不同科技大佬的发声，具身智能的概念浮出了水面。这种智能体不仅拥有物理形态，还能与物理世界互动。有人干脆说，具身智能就是人形机器人！具身智能究竟是什么？它是一种方法论还是一个发展阶段？具身智能会带来什么不同吗？ 3 带着这些疑问，我们可能要回到梦的起点，“人工智能之父”艾伦·图灵的那个遥远的下午。从艾伦·图灵的童年说起 1912年6月23日，艾伦·图灵在英国伦敦帕丁顿的一间普通的产房中诞生。他的父母慈爱地看着他，根本不会知道这个孩子以后竟会改变人类历史。图灵的数学天赋到底是从哪儿来的？可能有一部分来自他的爷爷。尽管后世记载图灵的爷爷仅是当地的一名牧师，但实际上他曾以优异的成绩考取了剑桥大学三一学院，算起来也是牛顿的直系师弟。得提一下，在那个年代当牧师就等于“上岸”，可以保全家衣食无忧，可能也不比考剑桥大学容易。就拿凡·高来说，他本来就想当牧师，结果没考上神学院，只好去画画了。当上牧师之后，图灵的爷爷凭工资共养大了8个孩子（可见牧师的工资有多高），图灵的父亲朱利叶斯·图灵是家里的老二。艾伦·图灵的父亲朱利叶斯倒是没有表现出特别的数学天赋，他更喜欢研究历史和宗教。不过，遗传了学霸基因，他最终考上了牛津大学，用奖学金轻轻松松拿下了牛津大学基督堂学院的学士学位，又通过激烈的竞争成为一名公务员，被派往印度。随后，他在归途中遇到了图灵的妈妈艾赛尔·斯托尼——一名出身于印度殖民家庭的小姐。两人在船上一见钟情，很快就结婚了，1908年生下了大儿子约翰，4 年后图灵出生。如果说图灵一出生就在数学领域天赋异禀，那确实有点夸张。但俗话说“三岁看老”，“数学王子”高斯三岁的时候就指出了父亲账本中的错误，而图灵在三岁时做了什么呢？他把玩具木头人一块块掰下来，分别种到土里。 “艾伦，你在做什么？”妈妈问道。“我希望地里能长出新的木偶娃娃来。”图灵回答。地里并没有长出新的木偶娃娃，但这在图灵的心中种下了一颗思想的种子：事物是否能够在完全不同的形态下重新生成？这种思考后来也成为他研究计算机以及如何让计算机“思考”时不可或缺的一部分。由于在计算机理论以及人工智能理论方面做出无可比拟的贡献，图灵被后世称为“计算机科学之父”和“人工智能之父”。 4 种到地里的娃娃回顾计算机领域短暂的发展历史可以发现，计算机其实一直在计算和智能两条路径上交替演进。从1946年计算机诞生并替代了手动的计算开始，计算机首先经历了从大型机到个人电脑的普及，这一普及使得计算成为一项人人可以轻易获得的服务。人工智能领域的成果在这段时期也相继出现，经典的符号人工智能领域取得了傲人的进展，这也被哲学家约翰·豪格兰在他1985年出版的《人工智能：非常的想法》（Artificial Intelligence: The Very Idea）一书中总结为“有效的老式人工智能”（GOFAI）。20世纪90年代，计算机进入了互联网革命的时代，新的网络服务模式快速发展，虚拟世界与现实世界共存。随着人工智能依托互联网进入互联网人工智能阶段，人们从互联网上搜集大量图片等数据，用于深度神经网络模型的训练，在图像分类任务上取得了巨大的成功，人工智能进入了深度学习时代。人们搜集网上优质的文本数据信息，训练了诸如ChatGPT的大语言模型，使得scaling law （规模定律）开始引起关注，成为人工智能新的发展方向。进入21世纪，随着物联网逐渐打破物理世界和现实世界的壁垒，数字网络和物理世界逐渐融合。人们开始召唤能够深入物理世界环境，能够与物理世界互动的人工智能——具身智能。事实上，早在1950年，图灵在他的经典论文《计算机与智能》中就展望了人工智能可能的两条发展道路：一条路径是专注于抽象计算所需的智能；另一条路径则是为 5 机器配备最佳的传感器，教机器说话，使其可以与人类交流并像婴儿一样“成长”。今天，当我们开始谈论具身智能时，不妨再回想一下那个三岁的小男孩在花园里对着泥土时所怀抱的希望。数学是否“完备”？图灵三岁的时候是1915年。那一年是“神仙打架”之年，数学家大卫·希尔伯特在年底发表了演讲，题为“物理学的基础”，不为别的，正是为了“欺负”数学不好的爱因斯坦。当时，两人都在为广义相对论的引力场方程做最后的冲刺，但希尔伯特万万没想到，他为之自豪的数学，会因为两个年轻人而遭遇根本性的挑战。在那个时期，世界正经历着巨变。 20世纪之前的很长一段时间，人类对世界的认知已经从“实践指导实践”进入“理论指导实践”。科学界认为，我们了解了某一时刻的宇宙，就能预测将来会发生什么，这就是统治了科学界数百年的因果律（causality）。所以当苹果砸到牛顿脑袋上的时候（这个事情本身存在不确定性），他想的并不是“上帝安排苹果砸下来的”，而是“苹果掉下来背后的原因”，这才有了万有引力以及后来的牛顿力学三大定律，近代科学的篇章被打开。在那之后的很长一段时间里，科学征服了世界，它的力量控制着一切人们所知的现象。古老的牛顿力学大厦历经岁月磨砺、风雨吹打，始终屹立不倒，从天上的行星到地上的石块，万物似乎都要一丝不苟地遵循着它制定的规则。可是牛顿建立的“物理大厦”被“两朵乌云”笼罩，最终导致了量子论革命的爆发；“上帝的存在”也逐渐被达尔文的进化论和孟德尔的遗传学联手“搞没了”。人们开始再一次反思这个世界：究竟什么才是可靠的？上帝不万能，科学靠得住吗？达尔文说，科学是我们通过整理事实所总结出来的规律。它就可靠吗？我们一靠近火，还没有碰到就被烤热了。每次靠近都热，所以靠近火就会被烤热，这是科学和客观的。换个人换个地方，还是会被烤热。为什么呢？几百年前大家没有科学理解，但不妨碍有这个科学发现。好吧，后来大家研究发现：哦，这是辐射，靠近火会造成分子运动速度加快，所以温度提高了。然后，我们发现在其他场景里辐射也会让物体分子运动速度加快，从而提高温度。这就算靠谱了吗？根据大卫·休谟的说法，虽然每次我们观察到的都是这个结果，但是如果尚未发生的下一次，分子运动速度快了而温度没有提升，也没有问题啊。 6 这就让人难以确定了。我们暂时不知道上帝什么时候靠得住，科学似乎也没有完全靠得住。靠谁呢？希尔伯特给出的答案是：数学。希尔伯特是20世纪最厉害的数学家之一，据说以他名字命名的数学名词多到连他自己都未必完全知道。1900年在巴黎举行的第二届国际数学家大会上，希尔伯特提出了23个数学难题，并把算术公理的相容性作为第二个问题提出。他在此基础上提出了希尔伯特计划，初衷很简单：他希望数学是完整的，也是可判定的，数学将建立在严谨的逻辑之上，成为比上帝和物理更靠谱的真理。 1928年，关于数学基础，他列出了三个亟待解决的问题。第一个问题：数学是完备的吗？即能否基于有限的公理，对所有数学命题都进行证明或证否？第二个问题：数学是一致的吗？即是否每个被证明的命题一定为真？会不会证明出来命题是错误的？第三个问题：所有问题都是数学可判定的吗？即是否有明确的程序能在有限的时间内告诉我们每个命题的真假？希尔伯特自然希望这三个问题的答案都是“是”。他在1930年的退休演讲中表示：我们必须知道，我们必将知道。本以为这句话可以刻在墓志铭上，但没过多久他就知道了。退休后平静的日子仅过了一年，1931年，年仅25岁的天才哥德尔横空出世，通过一篇论文一下子解决了希尔伯特的前两个问题。答案都是“否”。也就是说，数学既不完备，也不一致。哥德尔先把所有的数学陈述和证明符号化，然后给每个符号串赋予一个数字，这个过程被称为“哥德尔配数法”，接着用纯数学工具依次证明了数学的这种不可能性。但他这个方法还留了一个小口子，也就是第三个问题没有解决，所以，说不定还存在某种方法能够判定一个命题到底能不能被证明。图灵表示，这太天真了。 7 让机器“思考” 1931年，19岁的图灵开始在剑桥大学国王学院攻读数学。伊利镇上的居民发现不知道从什么时候开始，有一个清瘦高挑的年轻男孩总是穿着松松垮垮的运动衫，沿着河边跑步。他的跑步姿势很奇怪，腿向外拐，手臂抬得很高，还会发出一种吓人的喘息声。但他又跑得那么快，谁都追不上他。那时候，没人想得到，这个羞涩腼腆的男孩日后会在不断的奔跑中产生一个又一个震惊世界的想法——他先是思考了希尔伯特留下的难题之一，随后在1936年撰写论文《论可计算数及其在判定问题上的应用》，并在解决问题的过程中创造性地提出了图灵机的设想，奠定了其“计算科学之父”的地位。具体而言，图灵觉得希尔伯特的判定问题不是“生存还是毁灭”这种直观判定的问题，而是属于一种更抽象的领域，不带任何质量或情感。他提出：既然数学问题由一系列抽象的符号构成，那么为何不用一种同样抽象、无感情的方式来解决呢？即使用机器。这种机械的解决思路并非首创，在当时的数学圈中也不受欢迎。当时，理科生和工科生之间界限分明，前者追求理论的纯粹性，而后者注重实用性。正如《生活大爆炸》中理论物理学家谢耳朵对工程师霍华德的轻视，认为工程是“低智商”的活儿。哈代在《一个数学家的辩白》一书中说：“平凡的数学是有用的，而真正的数学是无用的。” 图灵拒绝接受这种界限。在研究希尔伯特问题时，图灵挑战了传统的数学观念，提出了一种创新的机械解决方案：可以做一个机器，这个机器由一个读写头和一条无限长的纸带组成，纸带分成带有0和1的小格。每个时刻，读写头都从纸带上读入当前所在方格的信息，然后结合自己的内部状态，根据程序计算输出信息，并将其写到纸带方格上，同时转换自己的内部状态。 8 图灵机假想图例如，在进行两位数乘法（如36×42）运算时，我们通常会在纸上列竖式，先乘后加。图灵机的原理也类似：每次只关注一个任务点，根据读取的信息移动读写头，在纸带上记录符号。这些操作指南就像乘法表一样简单，让任何人都能通过操作纸带得出结果。图灵的导师阿隆佐·丘奇将这种设备命名为“图灵机”。尽管看似简单，但图灵机能完成的计算任务却非常复杂。理论上，只要纸带足够长、人们的耐心足够多，它 9 就能完成现代电脑能做的任何计算（尽管可能非常耗时）。电脑通过二进制电信号简化了这一过程，和图灵机的逻辑完全相同。虽然图灵机操作复杂，但是这样的机器理论上就已经可以解决抽象计算问题了。于是，图灵开始构想如何利用这台机器来回答希尔伯特的第三个问题，即判定问题。他想象一种场景：设立一个图灵机，它遍历所有大于等于2的偶数，尝试将每个偶数分解为两个素数之和。如果存在一个偶数无法分解，机器则停机并输出该偶数；如果所有偶数都能成功分解，机器则永远运行下去。利用这种实验设置还能够尝试检验哥德巴赫猜想——一个至今未解的数学难题。即使创建了这样一个机器，它也没有办法真正解决哥德巴赫猜想，因为只有在这个机器停下来的时候，我们才能够确定哥德巴赫猜想为假。而图灵在1936年证明了不存在解决停机问题的通用算法，即没有可靠的、可重复的方法来区分机器是停机了还是继续在循环运行。停机问题（halting problem）就是判断任意一个程序是否能在有限的时间内结束运行的问题，这是一个著名的悖论，引入了逻辑学中的自我指涉问题，类似于罗素在1901年提出的“理发师悖论”：一个理发师声明他只为那些不给自己理发的人理发，那么他应该给自己理发吗？他如果给自己理发，就违背了自己的声明；如果他不给自己理发，按照声明他应该给自己理发。同理，如果图灵机能够判断所有图灵机的运行结果，那么它如何判断自己是否能在有限时间内停止？图灵的这些思想实验不仅在技术上推动了计算机科学的发展，也深刻影响了哲学、逻辑学和认知科学领域。思想实验是指使用想象力去进行的实验，所做的都是在现实中无法做到的实验。爱因斯坦的自传中提过一个思想实验，他当时幻想在宇宙中追寻一道光线，如果自己能够以光速在光线旁边运动，那么他应该能够看到光线成为“在空间上不断振荡但停滞不前的电磁场”。受此启发，爱因斯坦提出了著名的狭义相对论。“薛定谔的猫”是另外一个著名的思想实验。奥地利著名物理学家薛定谔假设将一只猫关在装有少量放射性的镭和毒气的密闭容器里，而镭的衰变存在概率。如果镭发生衰变，触发机关打碎毒气瓶，猫就会死；如果镭不发生衰变，猫就会存活。根据量子力学理论，由于放射性的镭处于衰变和没有衰变两种状态的叠加，猫就理应处于死猫和活猫的叠加状态。该思想实验把微观领域的量子行为扩展到宏观世界中。回归正题，图灵通过这些思想实验展示了计算理论的力量和局限，指出即使是精巧的机械也不能完全解决所有逻辑和数学问题，从而进一步验证了哥德尔不完全性定理。哥德尔不完全性定理和图灵机的提出，让20世纪初的人们意识到，试图一劳永逸地避免所有悖论的尝试本质上是徒劳的。 10 这在当时的欧洲无疑标志着一次里程碑式的进步。科学历史上的重大理论——从哥白尼的日心说、达尔文的进化论到弗洛伊德的潜意识理论——逐一打击了人类的自负。现在，连曾被视为绝对完美的数学领域也显示出不完备性，让我们不得不问：在所有这些打破传统的发现之后，我们还剩下什么可以坚守的？达尔文揭示了自然选择是由个别基因的偶然变异驱动的，量子理论揭示了即使是上帝也在掷骰子，布朗运动展示了微观世界中的化学分子路径是随机的：这一切似乎都表明科学本身充满了不确定性和随机性。这是不是揭示了一个更深层次的真相：宇宙和我们所知的世界，正是通过不断的相互作用、学习和适应，以其独有的方式演进和变化的。人工智能的诞生 “猫坐在毯子上，因为它很温暖。”——请问什么很温暖？ “猫坐在毯子上，因为它很冷。”——请问什么很冷？对我们来说，回答这两个问题应该不难，但你有没有想过，机器会怎样回答这些问题呢？前文提到，图灵有一篇经典论文《计算机与智能》，它之所以经典，是因为提出了一个关键问题：机器能思考吗？图灵的回答是做场模仿游戏就知道了，这场游戏后来成为著名的图灵测试。游戏规则很简单：参与者有三方，一个人类被试，一个机器被试和一个询问者，询问者也由人类担任。询问者通过问答来判断被试中谁是机器，谁是人类。如果机器能够成功欺骗询问者，使其无法准确区分出机器与人类，那么图灵认为这台机器就通过了测试，可以被认为具备人类智能。图灵测试成为评估机器智能的重要基准，但你可能已经发现一个问题：能不能通过图灵测试，主要取决于询问者的判断标准。比如，机器可以搞定复杂的计算任务，但对最简单的情绪问题却可能束手无策。那它还算智能吗？ 11 图灵测试图灵也预见到了这一点。所以在论文中，他说：我们或许希望机器最终能在所有纯粹的智力领域与人类竞争。但是，从哪些领域开始才是最好的呢？许多人认为从国际象棋这类抽象的活动开始最好，也有人主张要为机器提供最好的感觉器官，然后教会它理解并让它学会说英语。我认为这两种方法都应该尝试。图灵提出有关机器智能的发展，并明确地预见了其分为两个阶段，即离身智能和具身智能。当时，还没有“人工智能”这个词，5年之后，麦卡锡邀请明斯基、塞弗里奇、所罗门诺夫以及“信息论之父”香农等，在达特茅斯举办夏季研讨会，才使用了“人工智能”这个词。人工智能的发展路径则分为三个流派：符号主义、行为主义和联结主义。符号主义（symbolism）是基于逻辑推理的智能模拟方法，让计算机通过符号运算模拟人类的“智能”，并在早期取得了系列标志性成果。行为主 12 义（actionism），又称进化主义或控制论学派，主要关注控制论及感知-动作型控制系统。我国的科学家钱学森是行为主义的代表人物之一。联结主义（connectionism），又称仿生学派或生理学派，依靠神经网络和它们之间的联结机制和学习算法，通过模拟人脑神经元的相互作用，赋予计算机类似于人脑的信号处理能力。如今大热的深度学习（deep learning）就是联结主义的产物。我们不禁又要问，机器学习这条路径能否通向通用人工智能？逻辑学、统计学、神经科学和计算机科学等领域的研究者分别从符号主义、联结主义和行为主义三个纲领出发研究人工智能。打造通用人工智能是否需要第四种纲领？还是依靠这三者的融合就能解决？来到具身智能这个阶段，通用人工智能就能实现了吗？本书的内容共分为上、下两篇。上篇以人工智能学派的视角梳理人工智能领域的专家对于“机器可以思考吗”的探索，旨在回答人工智能是如何从非具身智能一步步发展到深度学习、大语言模型，最后发展到具身智能的。下篇则从技术视角出发，探讨机器如何通过模仿游戏实现具身智能。笔者笔力有限，所讨论的内容也是一家之言，如果能给大家带来一些启发，当是最好不过了。人工智能三大学派或许，我们只是东施效颦，希望和图灵一样在地里种出一个木偶娃娃。 13 14 上篇机器可以思考吗？ 15 第一章符号主义的野望如果说薛定谔的猫是世界上最生死未卜的存在，那么拉普拉斯妖则是最无所不知的预言家。这个可爱而又迷人的小妖精是由数学家拉普拉斯想象出来的，它可以精确地掌握宇宙中所有原子的确切位置和动量，并通过牛顿定律预测未来的每一个事件。也就是说，我们如果了解每个原子的初始状态，就能确定整个宇宙的命运，因为一切都是因果关系的链条，环环相扣，无法逃脱。例如，在多米诺骨牌中，一旦推倒了第一张牌，剩下的牌就会依次倒下。在宇宙中亦是如此，拉普拉斯妖仿佛掌控着每一个开关，精确地知道这些开关如何相互作用，最终决定宇宙的未来。这个理论点燃了当时物理学界的热情，人们幻想，只要掌握足