开源GPT模型时间线
微wx笑 2023-06-04【人工智能】 0 0关键字: GPT
2023 年 2 月 24 日 - LLaMA 启动Meta 推出 LLaMA ,开源代码,但不开源权重。在这一点上,LLaMA 没有调整指令或对话。与当前的许多模型一样,它是一个相对较小的模型(可用于 7B、13
2023 年 2 月 24 日 - LLaMA 启动
Meta 推出 LLaMA ,开源代码,但不开源权重。在这一点上,LLaMA 没有调整指令或对话。与当前的许多模型一样,它是一个相对较小的模型(可用于 7B、13B、33B 和 65B 参数),已经训练了相对较长的时间,因此相对于它的大小来说相当有能力。
2023 年 3 月 3 日 - 不可避免的事情发生了
一周之内,LLaMA 就被泄露给了公众。对社区的影响不容小觑。现有许可证禁止将其用于商业目的,但突然之间任何人都可以进行试验。从这一点开始,创新来势汹汹。
2023 年 3 月 12 日 - 烤面包机上的语言模型
一个多星期后,Artem Andreenko让模型在 Raspberry Pi 上运行。此时模型运行速度太慢而不实用,因为权重必须分页进出内存。尽管如此,这为小型化的冲击奠定了基础。
2023 年 3 月 13 日 - 在笔记本电脑上微调
第二天,斯坦福发布了Alpaca ,它为 LLaMA 添加了指令调优。然而,比实际重量更重要的是 Eric Wang 的alpaca-lora存储库,它使用低阶微调“在单个 RTX 4090 上数小时内”完成了此训练。
突然之间,任何人都可以微调模型来做任何事情,从而在低预算的微调项目中拉开了一场逐底竞争的序幕。论文自豪地描述了他们总共花费了几百美元。更重要的是,低等级更新可以轻松地与原始权重分开分发,从而使它们独立于 Meta 的原始许可。任何人都可以分享和应用它们。
2023 年 3 月 18 日 - 现在快了
Georgi Gerganov使用 4 位量化在 MacBook CPU 上运行 LLaMA。它是第一个速度足够实用的“无 GPU”解决方案。
2023 年 3 月 19 日 - 13B 型号与 Bard 实现“平价”
第二天,跨大学合作发布了Vicuna ,并使用 GPT-4 驱动的 eval 来提供模型输出的定性比较。虽然评估方法值得怀疑,但该模型实际上比早期变体更好。培训费用:300 美元。
值得注意的是,他们能够使用来自 ChatGPT 的数据,同时绕过对其 API 的限制——他们只是对发布在ShareGPT等网站上的“令人印象深刻的”ChatGPT 对话示例进行了采样。
2023 年 3 月 25 日 - 选择您自己的模型
Nomic 创建了GPT4All ,它既是一个模型,更重要的是一个生态系统。我们第一次看到模型(包括 Vicuna)聚集在一个地方。培训费用:100 美元。
2023 年 3 月 28 日——开源 GPT-3
Cerebras(不要与我们自己的 Cerebra 混淆)使用 Chinchilla 隐含的最佳计算计划和μ 参数化隐含的最佳缩放来训练 GPT-3 架构。这大大优于现有的 GPT-3 克隆,并且代表了“在野外”首次确认使用 μ 参数化。这些模型是从头开始训练的,这意味着社区不再依赖 LLaMA。
2023 年 3 月 28 日 - 一小时多模式培训
LLaMA-Adapter使用一种新颖的参数高效微调 (PEFT) 技术,在一小时的训练中引入了指令调优和多模态。令人印象深刻的是,他们仅使用 120 万个可学习参数就可以做到这一点。该模型在多模态 ScienceQA 上实现了新的 SOTA。
2023 年 4 月 3 日——真人无法区分 13B 开放模型和 ChatGPT
伯克利推出了Koala ,这是一种完全使用免费数据训练的对话模型。
他们采取了关键步骤来衡量他们的模型和 ChatGPT 之间的真实人类偏好。虽然 ChatGPT 仍然略有优势,但超过 50% 的用户要么更喜欢 Koala,要么没有偏好。培训费用:100 美元。
2023 年 4 月 15 日 - ChatGPT 级别的开源 RLHF
Open Assistant启动了一个模型,更重要的是,启动了一个用于通过 RLHF 对齐的数据集。他们的模型在人类偏好方面与 ChatGPT 接近(48.3% 对 51.7%)。除了 LLaMA,他们还展示了这个数据集可以应用于 Pythia-12B,让人们可以选择使用完全开放的堆栈来运行模型。此外,由于数据集是公开可用的,因此对于小型实验者而言,RLHF 从无法实现变为廉价且容易。
本文为转载文章,版权归原作者所有,不代表本站立场和观点。