什么是大型语言模型，它是如何工作的？

微wx笑 2023-04-26【人工智能】76 0 0关键字：语言模型 LLM

大型语言模型是最近人工智能进步的基础技术，如ChatGPT。随着ChatGPT和其他人工智能驱动技术的出现，人们一直在讨论这项技术将如何把我们带入一个新的时代--一个可能同时摧毁职

大型语言模型是最近人工智能进步的基础技术，如ChatGPT。
iU5无知

随着ChatGPT和其他人工智能驱动技术的出现，人们一直在讨论这项技术将如何把我们带入一个新的时代--一个可能同时摧毁职业和打开新机会的大门的时代。然而，关于支撑人工智能创新的技术的讨论较少：大型语言模型（简称LLMs）。iU5无知

以下是关于LLMs如何工作的快速指南。iU5无知

什么是大型语言模型？

LLMs是机器学习模型，利用深度学习算法来处理和理解语言。它们用大量的数据进行训练，以学习语言模式，从而可以执行任务。这些任务的范围可以从翻译文本到在聊天机器人对话中作出回应--基本上是任何需要某种语言分析的任务。iU5无知

LLMs最著名的例子是ChatGPT，用户可以通过它进行对话或提出与语言有关的具体任务。另一个流行的例子： BERT，即变形金刚的双向编码器表示法，它是由谷歌开发的，可以理解问题，形成有意义的回答。iU5无知

LLMs由多层神经网络组成，它们共同分析文本并预测输出。它们还接受了从左到右或双向转化器的训练，其作用是最大限度地提高上下文中后面和前面的单词的概率--就像人类可以合理地预测句子中接下来可能出现的内容。iU5无知

LLMs还有一个注意力机制，使它们能够有选择地关注文本的某些部分，以便为摘要等确定最相关的部分。iU5无知

训练LLM的费用可能高得惊人。2020年的一项研究估计，训练一个有15亿个参数的模型的成本可高达160万美元。然而，近年来软件和硬件的进步使这些成本下降。iU5无知

一般来说，训练LLM包括确定一个数据集，为了让它像人一样执行功能，数据集可能需要很大，确定网络层配置，使用监督学习来学习数据集中的信息，最后进行微调，或根据性能或动机增加具体的调整。iU5无知

对于特定任务的训练，这是一个反复的过程，要弄清楚你需要什么没有反映出来，以及如何实现这个最终目标。然而，训练LLM可能相当困难：你需要分布式软件，而且训练时间很长，此外还需要训练模型所需的技术知识。iU5无知

iU5无知