2017 年,谷歌的八位机器学习研究员发表了一篇具有开创性的研究论文《Attention Is All You Need》,首次提出了 Transformer AI 架构。这一架构现在已经成了几乎所有主流生成式 AI 模型的基础。
Transformer 是现代 AI 热潮的一个关键组成部分,它通过使用神经网络将输入数据块(被称为 “Token”)转换成另一种所需的输出形式。各种 Transformer 架构的变体为语言模型(如 GPT-4 和 ChatGPT)、音频合成模型(如谷歌的 NotebookLM 和 OpenAI 的高级语音模式)、视频合成模型(如 Sora)以及图像合成模型(如 Midjourney)提供了支持。
在今年 10 月的 TED AI 大会上,技术新闻资讯网站 Ars Technica 采访了《Attention Is All You Need》共同作者之一 Jakob Uszkoreit,采访过程中 Uszkoreit 介绍了关于 Transformer 的开发、谷歌早期大模型的研究工作以及他在生物计算领域的新创业项目。
在采访中,Uszkoreit 提到,虽然他在谷歌的团队对 Transformer 技术前景寄予厚望,但他们并未预料到它会在像 ChatGPT 这样的产品中会发挥如此重要的作用。
下面是采访内容。(下文中 Jakob Uszkoreit 简称 JU)
Ars:你在《Attention Is All You Need》这篇论文中的主要贡献是什么?
JU:论文脚注中有提到,我的主要贡献是提出用注意力机制(尤其是自注意力)来取代当时主流的序列转换模型中的循环神经网络(RNN)。我认为这不仅会提升效率,还会提高模型的效果。
Ars:在你发表那篇论文时,是否预见到它对行业的巨大影响?
JU:首先,我认为必须要记住,当我们做这件事时,我们是站在巨人肩膀上的。这不仅仅是那一篇论文的功劳。实际上,这是我们和许多其他人长期研究工作的成果。因此,如果认为仅仅那篇论文引发或创造了某些东西,这种看法更像是我们人类喜欢从叙事角度出发的观点,但不是对实际情况的准确描述。
我的团队在那篇论文发表之前,就已经研究和推动注意力模型发展了好几年。这是一个比想象中更漫长的过程,不仅是我的团队,许多其他人也在这一领域努力。我们确实对这项技术能够推动技术进步抱有很高的期望。
但是否认为它会在像 ChatGPT 这样的产品中起到关键作用,甚至像 “打开了一个开关” 一样让这些产品成为可能?我并不这么认为。确切地说,就 LLM 及其能力而言,即使在我们发表论文时,我们已经看到了非常令人震惊的现象。
我们没有将那些成果推向市场,部分原因是当时谷歌在产品开发方面或许存在某种保守观念。但即使有这些迹象,我们也无法完全确信技术本身会成为一个极具吸引力的产品。不过,我们确实对其未来抱有很高的期待。
Ars:既然你知道谷歌有 LLM 的研究,当 ChatGPT 取得成功时,你是什么感受?“该死,他们做到了,我们却没有?”
JU:当时确实有一种 “这本可以发生” 的感觉。但更像是,“哇,这本可以更早发生。” 并不是 “糟糕,他们抢先了” 这样的情绪。更重要的是,当我看到人们对这项技术的使用如此迅速且富有创意时,我特别震惊。
Ars:那时你已经离开谷歌了,对吧?
JU:是的。当时我已经离开谷歌了。可以说,我的离开部分是因为觉得谷歌不是实现我目标的最佳公司。我离开更多是因为觉得在其他地方可以做更重要的事情,于是创立了 Inceptive。
其实,这不仅仅是一个巨大的机会,更是一种道德上的责任感。在外面可以设计出更好的药物,并对人们的生活产生直接的积极影响。
Ars:有趣的是,在 ChatGPT 推出前,我已经使用过 GPT-3 了。因此,对一些熟悉这项技术的人来说,ChatGPT 的发布并不算是大事件。
JU:没错。如果你之前用过这些技术,你就能看到其进步,并能推测出它的发展趋势。当 OpenAI 开发最早的 GPT 模型时,我们虽然身处不同公司,但也会讨论这些进展。尽管如此,我认为没有人真正预料到 ChatGPT 产品能够在如此短时间内获得如此广泛的认可。
Ars:我在报道 ChatGPT 时也没有预料到。当时觉得,“哦,这不过是用 GPT-3 搞了个聊天机器人。” 我并没有认为它会是一个突破性的时刻,但它确实很有趣。
JU:突破有很多不同的形式。这次并不是技术上的突破,而是在某种实用性层面上的一个突破。
此外,这种突破也得益于用户实际使用我们所创造工具的方式。你无法预料用户会如何创造性地使用这些工具以及它们的应用范围有多广。这也是为何保持实验精神和接受失败至关重要的原因。因为大多数情况下,你的尝试不会成功,但在极少数情况下,它会非常成功,就像 ChatGPT 那样。
Ars:必须冒险。而谷歌当时不愿冒险?
JU:确实如此。但如果你回头看,这其实很有趣。谷歌翻译的开发也有类似经历。我在那个项目上工作了很多年。我们最早推出的谷歌翻译,顶多算是个派对上的笑料。但在不太长的时间里,我们将它发展成了一个真正有用的工具。在此期间,它有时会输出一些非常尴尬的内容,但谷歌还在坚持做,因为那是值得尝试的方向。而那是在 2008 到 2010 年间。
Ars:你记得 AltaVista 推出的在线翻译工具 Babel Fish 吗?
JU:当然记得。
Ars:那个产品刚推出时让我大开眼界。我和弟弟会来回翻译文本,把它搞得一团糟。
JU:是的,翻译越多越糟糕。确实如此。
在离开谷歌后,Uszkoreit 与人联合创立了 Inceptive,致力于将深度学习应用于生物化学领域。该公司正在开发一种被称为 “生物软件” 的新技术,利用 AI 编译器将指定的行为转化为 RNA 序列。这些 RNA 序列被引入生物系统后,能够执行预设的功能。
Ars:你最近在忙些什么?
JU:2021 年,我们共同创立了 Inceptive,旨在结合深度学习和高通量生物化学实验,设计出能够真正编程的更优质药物。我们将这一方向视为迈向 “生物软件” 概念的第一步。
“生物软件” 与计算机软件有些类似。它通过对某种行为的规格描述,由编译器将其转化为一段在计算机上运行、展现特定功能的软件程序。
在生物软件中,我们可以指定生物程序的一部分,通过 AI 学习编译器将其编译成分子。当这些分子被引入生物系统时,它们会表现出预设的功能。
Ars:这听起来与 mRNA COVID 疫苗的原理类似?
JU:一个非常简单的例子是 mRNA COVID 疫苗。它的 “程序” 指示我们的细胞制造一种修饰过的病毒抗原蛋白。但你可以想象,这些分子可以拥有更加复杂的功能。如果想了解这些分子能有多复杂,可以看看 RNA 病毒的行为。它们仅仅是一条 RNA 分子,但在进入生物体后,可以表现出极其复杂的行为,比如在生物体内传播、全球范围内传播、只在某些特定细胞中起作用等。
因此,如果我们能够设计出具备这种功能的一小部分分子,并将目标从让人致病转向使人更健康,那将真正变革医学。
Ars:如何确保不会意外地创造出有破坏性的 RNA 序列?
JU:医学在很长时间里在某种意义上一直游离于科学之外。我们并不能总是完全理解药物的实际作用机制。
因此,人类制定了各种安全保障措施,例如临床试验。这些安全系统自现代医学诞生以来就存在。我们会继续使用这些系统,并且遵循必要的严格规范。我们从单个细胞实验开始,逐步扩大规模,严格按照医学长期以来的既定协议进行,以确保这些分子的安全性。
原文阅读:
AI大模型实验室:https://mp.weixin.qq.com/s/gyVSL0Makrs8OQBe3VGGlQ