什么是大型语言模型,它是如何工作的?
微wx笑 2023-04-26【人工智能】 0 0关键字: 语言模型 LLM
大型语言模型是最近人工智能进步的基础技术,如ChatGPT。随着ChatGPT和其他人工智能驱动技术的出现,人们一直在讨论这项技术将如何把我们带入一个新的时代--一个可能同时摧毁职
大型语言模型是最近人工智能进步的基础技术,如ChatGPT。
随着ChatGPT和其他人工智能驱动技术的出现,人们一直在讨论这项技术将如何把我们带入一个新的时代--一个可能同时摧毁职业和打开新机会的大门的时代。然而,关于支撑人工智能创新的技术的讨论较少:大型语言模型(简称LLMs)。
以下是关于LLMs如何工作的快速指南。
什么是大型语言模型?
LLMs是机器学习模型,利用深度学习算法来处理和理解语言。它们用大量的数据进行训练,以学习语言模式,从而可以执行任务。这些任务的范围可以从翻译文本到在聊天机器人对话中作出回应--基本上是任何需要某种语言分析的任务。
LLMs最著名的例子是ChatGPT,用户可以通过它进行对话或提出与语言有关的具体任务。另一个流行的例子: BERT,即变形金刚的双向编码器表示法,它是由谷歌开发的,可以理解问题,形成有意义的回答。
大型语言模型如何工作?
LLMs由多层神经网络组成,它们共同分析文本并预测输出。它们还接受了从左到右或双向转化器的训练,其作用是最大限度地提高上下文中后面和前面的单词的概率--就像人类可以合理地预测句子中接下来可能出现的内容。
LLMs还有一个注意力机制,使它们能够有选择地关注文本的某些部分,以便为摘要等确定最相关的部分。
你如何训练LLM?
训练LLM的费用可能高得惊人。2020年的一项研究估计,训练一个有15亿个参数的模型的成本可高达160万美元。然而,近年来软件和硬件的进步使这些成本下降。
一般来说,训练LLM包括确定一个数据集,为了让它像人一样执行功能,数据集可能需要很大,确定网络层配置,使用监督学习来学习数据集中的信息,最后进行微调,或根据性能或动机增加具体的调整。
对于特定任务的训练,这是一个反复的过程,要弄清楚你需要什么没有反映出来,以及如何实现这个最终目标。然而,训练LLM可能相当困难:你需要分布式软件,而且训练时间很长,此外还需要训练模型所需的技术知识。
原文:https://www.fastcompany.com/90884581/what-is-a-large-language-model
本文由 微wx笑 创作,采用 署名-非商业性使用-相同方式共享 4.0 许可协议,转载请附上原文出处链接及本声明。
原文链接:https://www.ivu4e.cn/blog/ai/2023-04-26/1869.html