开源GPT模型时间线

微wx笑 2023-06-04【人工智能】56 0 0关键字： GPT

2023 年 2 月 24 日 - LLaMA 启动Meta 推出 LLaMA ，开源代码，但不开源权重。在这一点上，LLaMA 没有调整指令或对话。与当前的许多模型一样，它是一个相对较小的模型（可用于 7B、13

2023 年 2 月 24 日 - LLaMA 启动

Meta 推出 LLaMA ，开源代码，但不开源权重。在这一点上，LLaMA 没有调整指令或对话。与当前的许多模型一样，它是一个相对较小的模型（可用于 7B、13B、33B 和 65B 参数），已经训练了相对较长的时间，因此相对于它的大小来说相当有能力。WQe无知

2023 年 3 月 3 日 - 不可避免的事情发生了

一周之内，LLaMA 就被泄露给了公众。对社区的影响不容小觑。现有许可证禁止将其用于商业目的，但突然之间任何人都可以进行试验。从这一点开始，创新来势汹汹。WQe无知

2023 年 3 月 12 日 - 烤面包机上的语言模型

一个多星期后，Artem Andreenko让模型在 Raspberry Pi 上运行。此时模型运行速度太慢而不实用，因为权重必须分页进出内存。尽管如此，这为小型化的冲击奠定了基础。WQe无知

2023 年 3 月 13 日 - 在笔记本电脑上微调

第二天，斯坦福发布了Alpaca ，它为 LLaMA 添加了指令调优。然而，比实际重量更重要的是 Eric Wang 的alpaca-lora存储库，它使用低阶微调“在单个 RTX 4090 上数小时内”完成了此训练。WQe无知

突然之间，任何人都可以微调模型来做任何事情，从而在低预算的微调项目中拉开了一场逐底竞争的序幕。论文自豪地描述了他们总共花费了几百美元。更重要的是，低等级更新可以轻松地与原始权重分开分发，从而使它们独立于 Meta 的原始许可。任何人都可以分享和应用它们。WQe无知

2023 年 3 月 18 日 - 现在快了

Georgi Gerganov使用 4 位量化在 MacBook CPU 上运行 LLaMA。它是第一个速度足够实用的“无 GPU”解决方案。WQe无知

2023 年 3 月 19 日 - 13B 型号与 Bard 实现“平价”

第二天，跨大学合作发布了Vicuna ，并使用 GPT-4 驱动的 eval 来提供模型输出的定性比较。虽然评估方法值得怀疑，但该模型实际上比早期变体更好。培训费用：300 美元。WQe无知

值得注意的是，他们能够使用来自 ChatGPT 的数据，同时绕过对其 API 的限制——他们只是对发布在ShareGPT等网站上的“令人印象深刻的”ChatGPT 对话示例进行了采样。WQe无知

2023 年 3 月 25 日 - 选择您自己的模型

Nomic 创建了GPT4All ，它既是一个模型，更重要的是一个生态系统。我们第一次看到模型（包括 Vicuna）聚集在一个地方。培训费用：100 美元。WQe无知

2023 年 3 月 28 日——开源 GPT-3

Cerebras（不要与我们自己的 Cerebra 混淆）使用 Chinchilla 隐含的最佳计算计划和μ 参数化隐含的最佳缩放来训练 GPT-3 架构。这大大优于现有的 GPT-3 克隆，并且代表了“在野外”首次确认使用 μ 参数化。这些模型是从头开始训练的，这意味着社区不再依赖 LLaMA。WQe无知

2023 年 3 月 28 日 - 一小时多模式培训

LLaMA-Adapter使用一种新颖的参数高效微调 (PEFT) 技术，在一小时的训练中引入了指令调优和多模态。令人印象深刻的是，他们仅使用 120 万个可学习参数就可以做到这一点。该模型在多模态 ScienceQA 上实现了新的 SOTA。WQe无知

2023 年 4 月 3 日——真人无法区分 13B 开放模型和 ChatGPT

伯克利推出了Koala ，这是一种完全使用免费数据训练的对话模型。WQe无知

他们采取了关键步骤来衡量他们的模型和 ChatGPT 之间的真实人类偏好。虽然 ChatGPT 仍然略有优势，但超过 50% 的用户要么更喜欢 Koala，要么没有偏好。培训费用：100 美元。WQe无知

2023 年 4 月 15 日 - ChatGPT 级别的开源 RLHF

Open Assistant启动了一个模型，更重要的是，启动了一个用于通过 RLHF 对齐的数据集。他们的模型在人类偏好方面与 ChatGPT 接近（48.3% 对 51.7%）。除了 LLaMA，他们还展示了这个数据集可以应用于 Pythia-12B，让人们可以选择使用完全开放的堆栈来运行模型。此外，由于数据集是公开可用的，因此对于小型实验者而言，RLHF 从无法实现变为廉价且容易。WQe无知

WQe无知

本文为转载文章，版权归原作者所有，不代表本站立场和观点。

很赞哦！ (1) 赏有话说 (0)

上一篇：Koala：学术研究的对话模型

下一篇：stable-diffusion-videos 用图片生成视频开源解决方案

人工智能您现在的位置是：首页 > 博客日志 > 人工智能

开源GPT模型时间线

2023 年 2 月 24 日 - LLaMA 启动

2023 年 3 月 3 日 - 不可避免的事情发生了

2023 年 3 月 12 日 - 烤面包机上的语言模型

2023 年 3 月 13 日 - 在笔记本电脑上微调

2023 年 3 月 18 日 - 现在快了

2023 年 3 月 19 日 - 13B 型号与 Bard 实现“平价”

2023 年 3 月 25 日 - 选择您自己的模型

2023 年 3 月 28 日——开源 GPT-3

2023 年 3 月 28 日 - 一小时多模式培训

2023 年 4 月 3 日——真人无法区分 13B 开放模型和 ChatGPT

2023 年 4 月 15 日 - ChatGPT 级别的开源 RLHF

相关文章

文章评论

点击排行

标签云

猜你喜欢

人工智能您现在的位置是：首页 > 博客日志 > 人工智能

开源GPT模型时间线

2023 年 2 月 24 日 - LLaMA 启动

2023 年 3 月 3 日 - 不可避免的事情发生了

2023 年 3 月 12 日 - 烤面包机上的语言模型

2023 年 3 月 13 日 - 在笔记本电脑上微调

2023 年 3 月 18 日 - 现在快了

2023 年 3 月 19 日 - 13B 型号与 Bard 实现“平价”

2023 年 3 月 25 日 - 选择您自己的模型

2023 年 3 月 28 日——开源 GPT-3

2023 年 3 月 28 日 - 一小时多模式培训

2023 年 4 月 3 日——真人无法区分 13B 开放模型和 ChatGPT

2023 年 4 月 15 日 - ChatGPT 级别的开源 RLHF

相关文章

文章评论

点击排行

推荐阅读

标签云

猜你喜欢