该文章由ChatGPT辅助进行翻译,个别术语可能有误差
原文链接:https://www.semianalysis.com/p/google-we-have-no-moat-and-neither
我们一直在密切关注OpenAI。谁将迈过下一个里程碑?下一步该怎么办?
但令人不安的事实是,我们没有赢得这场竞争的优势,OpenAI也没有。而在我们争吵不休的时候,第三方悄悄地取而代之。
当然,我指的是开源社区。坦率地说,他们正在超越我们。我们认为是“重大问题”的事情,现在已经被解决了并且已经被所有人掌握。举几个例子:
- 手机上的LLMs:人们在Pixel 6上以每秒5个token的速度运行基础模型。
- 可扩展的个人AI:你可以在笔记本电脑上微调个性化的AI,一个晚上就能完成。
- 负责任的发布:这个问题可能不是被“解决”了而是被“消除”了。现在有网站整个都充满了没有任何限制的艺术模型,而在文本领域这种网站的出现也不远了
- 多模态:最新的多模态模型ScienceQA SOTA是在一个小时内训练出来的。
虽然我们的模型在质量上仍然稍微领先,但差距也在迅速缩小。开源模型更快、更可定制、更私人,而且以体量来看更有能力。他们用100美元和130亿参数做出了我们花费1000万美元和5400亿参数才能实现的事情。而且他们能在几周内完成,而不是几个月。这对我们会产生深远的影响:
- 我们没有秘密配方。我们最好的可能性是向Google之外的其他人学习并合作。我们应该优先考虑促进第三方整合。
- 当有质量相当的免费、无限制的替代品时,人们不会为受限制的模型付费。我们应该考虑我们真正的增值点在哪里。
- 巨型模型正在拖慢我们的步伐。从长远来看,最好的模型是那些可以快速迭代的模型。既然我们已经知道在小于200亿参数的范围内有可能实现什么,我们应该把小的模型变种视为重点,而不仅仅是事后的补救措施。
发生了什么
在三月初,开源社区获得了他们第一个真正有能力的基础模型,因为Meta的LLaMA泄露了。它没有指引或对话调整机制,也没有RLHF。尽管如此,社区立即意识到他们所得到的东西的重要性。
紧随其后的是大量的创新,主要的进展仅仅在几天内就发生了(详见时间线以获取完整细节)。现在,仅仅一个月过去了,就已经出现了带有指导调整、量化、质量改进、人工评估、多模态、RLHF等等的变体。其中很多是相互建立在彼此之上的。
最重要的是,他们已经解决了规模化问题,以至于任何人都可以进行调整。许多新的想法都来自普通人。进行训练和实验的门槛已经从一个研究机构共同产出降低到了一个人、一个晚上和一台强大的笔记本电脑。
为什么我们本应该预见到这一点
在很多方面,这对任何人来说都不应该是一个意外。开源LLM当前的繁荣复兴紧跟在开源图像生成领域的复兴之后。社区对此有着清晰的认识,许多人称之为LLM的“Stable Diffusion时刻”。
在这两个场景中,低成本的公众参与都是由于一种称为低秩适应(LoRA)的微调机制和规模上的重大突破(图像合成领域的latent diffusion,LLM的Chinchilla)的结合。在这两个场景中,都是足够高质量的模型的获得,引发了来自世界各地的个人和机构一连串想法和迭代。在这两个场景中,这种个人和小型机构的参与很快就超过了大型参与者。
这些贡献对于图像生成领域来说至关重要,使得“Stable Diffusion”与Dall-E的发展路径大相径庭。拥有一个开放的模型导致了产品整合、市场、用户界面和创新,这些都没有在Dall-E中发生。
这个效应是非常显著的:在文化影响方面,Stable Diffusion与OpenAI的解决方案(Dall-E)相比迅速占据主导地位,而后者变得越来越无关紧要。关于LLM是否会发生同样的情况还有待观察,但场景中的基本组成部分是相同的。
我们忽视的事实
开源最近取得成功的创新直接解决了我们仍在努力应对的问题。更多关注他们的工作可能有助于避免重复造轮子。
LoRA是一种非常强大的技术,我们可能应该更加关注它
LoRA通过将模型更新表示为低秩因子分解,将更新矩阵的大小减小了数千倍。这样就可以以较低的成本和时间对模型进行微调。在消费级硬件上能够在几小时内个性化一个语言模型是一件大事,特别是对于那些涉及近实时融入新的多样化知识的愿景而言。尽管这项技术直接影响了我们一些最雄心勃勃的项目,但谷歌内部对其的利用还不足。
从头开始重新训练模型是一条艰难的道路
LoRA之所以如此有效的一部分原因是,就像其他形式的微调一样,它是可以叠加的。像instruction tuning这样的改进可以被利用,并在其他贡献者添加新的对话、推理或工具使用时进行进一步改进。虽然各个微调是低秩的,但它们的总和不必是低秩的,这允许模型进行全秩的更新,并随着时间的推移逐渐累积。
这意味着,随着新的和更好的数据集和任务的出现,可以廉价地使模型保持最新状态,而无需支付完整训练的成本。
相比之下,从头开始训练巨型模型不仅会丢弃预训练的成果,还会丢失在其上进行的任何迭代改进。在开源世界中,不久之后,这些改进就会占据主导地位,使得完全重新训练的成本极高。
我们应该深思熟虑,每个新的应用或想法是否真的需要一个全新的模型。如果我们确实有重大的架构改进,无法直接重用模型权重,那么我们应该选择更激进的模型蒸馏形式,以尽可能保留前一代模型的能力。
如果我们可以更快地在小型模型上进行迭代,那么大型模型在长期内并不更有优势
对于最受欢迎的模型大小而言,LoRA更新非常廉价(约100美元)。这意味着几乎任何有想法的人都可以生成并发布一个模型。训练时间不到一天已成常态。以这样的速度,不久之后,所有这些微调的累积效果就会克服起始时的规模劣势。事实上,从工程师的工时角度来看,这些模型的改进速度远远超过我们在最大型的模型变种上所能做到的,而且其中的最佳模型已经与ChatGPT几乎无法区分。实际上,将重点放在维护一些全球最大型的模型上会使我们处于劣势。
数据质量比数据大小更具规模优势
许多这些项目通过在小型、经过精心策划的数据集上进行训练来节省时间。这表明数据的规模扩展法则具有一定的灵活性。这些数据集的存在符合《数据并不是按你所想的那样起作用》一文中的思路,并且它们正在迅速成为在谷歌之外进行训练的标准方式。这些数据集使用合成的方式构建(例如从现有模型中筛选出最佳回答)或者从其他项目中获取数据,而这两种方法在谷歌并不占主导地位。幸运的是,这些高质量的数据集是开源的,因此可以免费使用。
与开源直接竞争是一种失败的提议
当前开源社区的这一进展对我们的业务战略有直接、即时的影响。如果存在一个无限制的免费高质量替代品,谁会为具有使用限制的谷歌产品付费呢?
而且我们不应该指望能够迎头赶上。现代互联网之所以运行在开源软件上,是有原因的。开源软件具有一些我们无法复制的重要优势。
我们需要他们要多于他们需要我们
保守我们的技术秘密一直是一项脆弱的提议。谷歌的研究人员会定期离职,并就职其他公司,所以我们可以假设他们知道我们知道的一切,并且只要这条渠道一直存在,他们也将会继续了解。
但是现在随着前沿的LLM研究变得更加可负担,保持在技术上的竞争优势变得更加困难。世界各地的研究机构在彼此的工作基础上进行建设,以广度优先的方式探索解决方案空间,这远远超过了我们自身的能力。我们可以试图紧紧捂住我们的秘密,但外部创新则会持续削弱它们的价值,亦或者我们可以试图相互学习。
对个人的约束不如企业严格
许多创新是在Meta泄漏的模型权重基础上进行的。虽然随着真正开放的模型变得更好,这种情况必然会发生变化,但重点在于他们不必等待。由于“个人用途”的法律保护和追究个人责任的不切实际性,个人可以在这些技术火热时就获得访问权限。
成为自己的客户意味着你要深入理解场景
纵览在图像生成领域被创造出来的大量模型,我们可以看到无尽的创意涌现,从动漫生成器到HDR景观图生成。这些模型被是被那些深入研究自己所在的垂直领域应用场景的人创建并且使用的,这带来了我们无法匹敌的知识深度和共鸣。
拥有生态系统:让开源为我们工作
具有讽刺意味的是,在这一切的发展中,唯一的明显赢家是Meta。因为泄漏的模型是他们的,他们实际上获得了整个地球上的免费劳动力。由于大多数开源创新是在他们的架构之上进行的,没有任何东西能阻止他们将其直接纳入产品中。
拥有生态系统的价值不可低估。谷歌本身在其开源产品(如Chrome和Android)中成功使用了这种范式。作为创新平台所有者,谷歌将自己塑造为为思想领袖和方向设定者的角色,获得了塑造超越自身的思想的能力。
我们控制模型的程度越高,开放性的替代选择就越具吸引力。谷歌和OpenAI都采取了防御性的发布模式,以便对其模型的使用保持严格控制。但是,这种控制是虚幻的。任何试图将LLMs用于未经授权用途的人都可以随意选择免费可用的模型。
谷歌应该在开源社区中确立自己的领导地位,通过与广泛的对话进行合作,而不是忽视它。这可能意味着采取一些不舒服的步骤,例如发布小型ULM变体的模型权重。这必然意味着放弃对模型的某些控制。但是这种妥协是不可避免的。我们不能指望既推动创新又控制创新。
结语:OpenAI怎么办?
在谈论开源时,考虑到OpenAI当前的政策,我们可能会感觉不公平。如果他们不愿分享,为什么我们要分享呢?但事实是,我们已经通过稳定的高级研究人员流失向他们分享了一切。在我们有能力阻止这种流失之前,保密实际上是无关紧要的。
而且到最后,OpenAI可能并不重要。他们在与开源的态度上犯了与我们相同的错误,他们保持竞争优势的能力必然会受到质疑。除非他们改变立场,否则开源替代品最终将超越他们。至少在这方面,我们可以先行一步。
时间线
2023年2月24日 – LLaMA发布
Meta发布了LLaMA,开源了代码,但没有公开模型权重。此时,LLaMA还没有经过指令或对话调优。与许多当前的模型一样,它是一个相对较小的模型(可用于7B、13B、33B和65B参数),经过相对较长时间的训练,因此相对于其大小而言非常强大。
2023年3月3日 – 不可避免的事情发生了
不到一周的时间,LLaMA的模型权重泄露了出来。这对社区的影响不可低估。现有的许可证阻止其用于商业目的,但突然间任何人都能进行实验。从这一点开始,创新呈现出爆发式的增长。
2023年3月12日 – 烤面包机上的语言模型
一周多一点时间后,Artem Andreenko将该模型成功运行在树莓派上。此时,模型的运行速度过慢,不实用,因为需要将权重从内存中分页进出。尽管如此,这为大规模缩小模型的努力铺平了道路。
2023年3月13日 – 笔记本电脑上的微调
接下来的一天,斯坦福发布了Alpaca,将指令调优添加到LLaMA中。然而,比实际权重更重要的是Eric Wang的alpaca-lora项目,该项目“在单个RTX 4090上的几小时内”进行了训练。
突然间,任何人都可以对模型进行微调以执行任何任务,引发了低预算微调项目的竞争。各种论文都开始自豪地描述它们仅花费几百美元进行训练。而且,低秩更新可以轻松地与原始权重分开分发,使它们与Meta的原始许可证无关。任何人都可以分享和应用这些更新。
2023年3月18日 – 现在速度更快了
Georgi Gerganov使用4位量化在MacBook CPU上运行LLaMA。这是第一个速度足够快以实用的“无需GPU”解决方案。
2023年3月19日 – 一个13B模型达到了与Bard的“同等水平”
第二天,一项跨大学的合作项目发布了Vicuna,并使用GPT-4提供了模型输出的定性比较。尽管评估方法令人怀疑,但该模型比之前的变体要好得多。训练成本:300美元。
值得注意的是,尽管在API中有严格的限制,他们还是获取到了来自ChatGPT的训练数据。他们只是轻易去类似于“ShareGPT”这样的网站中,采样了那些被分享出来的优秀ChatGPT对话。
2023年3月25日 – 选择你的模型
Nomic创建了GPT4All,这既是一个模型,更重要的是一个生态系统。首次看到多个模型(包括Vicuna)汇集到一个地方。训练成本:100美元。
2023年3月28日 – 开源GPT-3
Cerebras(与我们自己的Cerebra不要混淆)使用由Chinchilla实现的最佳计算调度和μ参数化实现的最佳扩展训练了GPT-3架构。这超过了现有的GPT-3克隆模型很多,也是μ参数化在实际应用中的首次确认。这些模型是从头开始训练的,意味着社区不再依赖LLaMA。
2023年3月28日 – 一个小时内的多模态训练
使用一种新颖的参数高效微调(PEFT)技术,LLaMA-Adapter在一小时的训练中引入了指令调优和多模态功能。令人印象深刻的是,他们仅使用了1.2M个可学习参数来实现这一点。该模型在多模态科学问答(ScienceQA)方面实现了新的SOTA。
2023年4月3日 – 真人无法区分13B开源模型和ChatGPT
伯克利发布了Koala,这是一个完全使用可自由获取的数据训练的对话模型。
他们采取了关键步骤,通过实际测量人们对他们的模型和ChatGPT的偏好。尽管ChatGPT仍略胜一筹,但超过50%的时间,用户要么更喜欢Koala,要么没有偏好。训练成本:100美元。
2023年4月15日 – 开源RLHF达到ChatGPT水平
Open Assistant推出了一个模型,更重要的是,推出了一个用于通过RLHF实现对齐的数据集。他们的模型在人类偏好方面与ChatGPT接近(48.3%对51.7%)。除了LLaMA,他们还展示了该数据集可以应用于Pythia-12B,使人们有了使用完全开源堆栈来运行模型的选择。而且,由于数据集是公开的,对于小型实验者来说,通过RLHF实现从不可实现到廉价且简单变得可能。