🎉 Gate.io 动态 #创作者成长激励计划# 正式开启!
发帖分享加密见解,解锁 $2,000 创作奖励与专属流量扶持!
🌟 参与攻略:
活动期间,通过活动表单报名,随后在 Gate.io 动态发布帖子即成功参与。
立即参与👉️ https://www.gate.io/questionnaire/6550
📌 任何与加密相关内容均可参与,创作者们请尽情发帖!
🎁活动奖励:
🔹榜单 Top40 及新人 Top10 可赢茶具套装、国际米兰保温杯、Gate.io纪念章、合约体验券等超$2,000好礼!
🔹上榜创作者还将解锁AMA访谈、荣誉海报、V5标识、精选推荐、动态大使等流量扶持,助你提升社区影响力!
活动时间:2025年4月18日12:00 - 5月6日00:00 (UTC+8)
活动详情:https://www.gate.io/announcements/article/44513
创作者们,快来秀出你的加密观点,赢奖励、拿流量,登上创作榜!
杨立昆:单靠LLM想实现AGI是胡说八道,AI未来需要JEPA世界模型(GTC大会万字访谈)
本文整理 Meta 首席 AI 科学家、图灵奖得主杨立昆(Yann LeCun)与 NVIDIA 首席科学家 Bill Dally 的公开对谈逐字稿。LeCun 解释为何他认为大型语言模型 (LLM) 永远无法真的实现 AGI? (前情提要:OpenAI 发布 o3 与 o4-mini 最强推理模型:能思考图片、自动选用工具,数学、编码性能再突破) (背景补充:OpenAI 传秘密打造「自家社群平台」,剑指死对头马斯克的 X) 当大型语言模型 (LLM) 正在加速推动世界拥抱 AI 的当下,被誉为卷积神经网路之父、现任 Meta 首席 AI 科学家的杨立昆(Yann LeCun)近期却语出惊人地表示,他对 LLM 的兴趣已减退,甚至认为已接近 LLM 发展瓶颈。 在人工智慧社群引发广大讨论, 上个月在一场与 NVIDIA 首席科学家 Bill Dally 的深度对谈中,LeCun 详述了他对 AI 未来发展方向的独到见解,强调理解物理世界、持久记忆、推理与规划能力,以及开源生态的重要性,才是引领下一波 AI 革命的关键,下文为您做重点整理。 Bill Dally: Yann,过去一年 AI 领域发生了很多有趣的事情。在你看来,过去一年最令人兴奋的发展是什么? Yann LeCun: 多到数不清,但我告诉你一件事,可能会让你们中的一些人感到惊讶。我对大型语言模型(LLM)不再那么感兴趣了。 LLM 已经有点步入尾端,它们掌握在产业的产品人员手中,只是在边际层面上进行改进,试图获取更多数据、更多计算能力、生成合成数据。我认为在四个领域有更有趣的问题: 如何让机器理解物理世界、如何让它们拥有持久性记忆,这一点没有太多人谈论、最后两个是,如何让它们进行推理和规划。 当然,有一些努力让 LLM 进行推理,但在我看来,这是一种非常简化的看待推理的方式。我认为可能有更好的方法来做到这一点。所以,我对那些科技社群中的很多人可能五年后才会感到兴奋的事情感到雀跃。但现在,它们看起来不那么令人兴奋,因为它们是一些晦涩的学术论文。 世界模型与物理世界的理解 Bill Dally: 但如果不是 LLM 在推理物理世界、拥有持久性记忆和规划,那会是什么呢?底层模型会是什么? Yann LeCun: 所以,很多人正在研究世界模型。什么是世界模型? 我们所有人的脑海中都有世界模型。这基本上是让我们能够操纵思想的东西。我们有一个关于当前世界的模型。你知道如果我从上面推这个瓶子,它很可能会翻倒,但如果我从底部推它,它会滑动。如果我压得太用力,它可能会爆开。 Yann LeCun 受访截图 我们拥有关于物理世界的模型,这是在我们生命的最初几个月获得的,这使我们能够应对真实世界。应对真实世界比应对语言要困难得多。我们需要的系统架构,要能够真正处理真实世界的系统,与我们目前处理的完全不同。LLM 预测 token,但 token 可以是任何东西。我们的自动驾驶汽车模型使用来自感测器的 token,并产生驱动车辆的 token。在某种意义上,它是在推理物理世界,至少是关于哪里开车安全以及你不会撞到柱子。 Bill Dally: 为什么 token 不是表示物理世界的正确方式? Yann LeCun: Token 是离散的。当我们谈论 token 时,我们通常指的是一个有限的可能性集合。在典型的 LLM 中,可能的 token 数量大约在 10 万左右。当你训练一个系统来预测 token 时,你永远无法训练它预测出文本序列中确切跟随的 token。 你可以产生一个关于你字典中所有可能 token 的机率分布,这只是一个包含 10 万个介于零和一之间且总和为一的数字的长向量。我们知道如何做到这一点,但我们不知道如何处理影片,处理那些高维度且连续的自然数据。每一次试图让系统理解世界或建立世界的心理模型,通过训练它预测像素级别的影片,基本上都失败了。 即使是训练一个像某种神经网路的系统来学习图像的良好表示,所有通过从损坏或转换过的版本重建图像的技术都失败了。它们有点效果,但不如我们称之为联合嵌入(joint embedding)的替代架构效果好,后者基本上不试图在像素级别进行重建。它们试图学习图像、影片或正在训练的自然讯号的抽象表示,以便你可以在该抽象表示空间中进行预测。 Yann LeCun: 我经常使用的例子是,如果我拍摄这个房间的影片,移动摄影机并停在这里,然后要求系统预测该影片的后续内容,它可能会预测这是一个房间,里面坐着人等等。它无法预测你们每个人长什么样子。这从影片的初始片段来看是完全不可预测的。 世界上有很多事情就是无法预测的。如果你训练一个系统在像素级别进行预测,它会把所有资源都花在试图找出它根本无法发明的细节上。这完全是浪费资源。我们尝试过的每一次,而且我已经研究这个 20 年了,通过预测影片来使用自我监督学习训练系统都行不通。只有在表示层面进行才有效。这意味着那些架构不是生成式的。 Bill Dally: 如果你基本上是说 transformer 没有这个能力,但是人们有 vision transformer 并且得到了很好的结果。 Yann LeCun: 我不是这个意思,因为你可以为此使用 transformer。你可以在那些架构中放入 transformer。只是我谈论的那种架构被称为联合嵌入预测架构(joint embedding predictive architecture)。所以,取一段影片或一张图片或其他什么,通过一个编码器运行它,你得到一个表示,然后取该文本、影片或图像的转换版本的后续部分,也通过一个编码器运行它,现在尝试在那个表示空间中进行预测,而不是在输入空间中进行。 你可以使用相同的训练方法,即填空,但你是在这个潜在空间(latent space)而不是在原始表示中进行。 Yann LeCun: 困难点在于,如果你不小心并且不使用聪明的技术,系统会崩溃。它会完全忽略输入,只产生一个恒定的、对输入资讯量不...