正在加载图片...
前言 2022年底,ChatGPT震撼上线,大语言模型技术迅速“席卷”了整个社会,人 工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,我们不禁要 问:支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的 思考焦点。 必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语 言模型、神经网络语言模型、预训练语言模型等多个发展阶段,每一步的发展都凝 结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者,OpenAI 公司引领了本次技术变革,让我们再次回顾其针对大模型技术的研发历程。2015 年,OpenAI公司正式创立,开始探素通用人工智能的技术路线。早期的OpenAI 团队围绕强化学习、多模态、语言模型等几个重要方向进行了深入研究。其中,由 lya Sutskever领导的团队主要关注语言模型的研究。当谷歌2017年推出基于注意 力机制的Transformer模型后,OpenAI团队迅速洞察到了其潜在的优越性,认为这 种模型可能是一种大规模可扩展训练的理想架构。基于此,OpCn团队开始构建 GPT系列模型,并于2018年推出了第一代GPT模型一GPT1,能够通过“通用文 本训练-特定任务微调”的范式去解决下游任务。接下来,GPT-2和GPT-3模型通 过扩大预训练数据和模型参数规模,显著提升了模型性能,并且确立了基于自然 语言形式的通用任务解决路径。在GPT-3的基础上,OpenAI又通过代码训练、人 类对齐、工具使用等技术对于模型性能不断升级,推出了功能强大的GPT-3.5系 列模型。2022年11月,ChatGPT正式上线,能够以对话形式解决多种任务,使得 用户能够通过网络API体验到语言模型的强大功能。2023年3月,OpenAI推出了 标志性的GPT4模型,将模型能力提升至全新高度,并将其扩展至拥有多模态功 能的GPT4V模型。 反观GPT系列模型的发展历程,有两点令人印象深刻。第一点是可拓展的训 练架构与学习范式:Transformer架构能够拓展到百亿、千亿甚至万亿参数规模,并 且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量 与数据规模的重视:不同于BERT时代的预训练语言模型,这次大语言模型的成 功与数据有着更为紧密的关系,高质量数据、超大规模数据成为大语言模型的关 键基础。上述的思路看似简单,但能够从早期众多的技术路线中寻找到这条路线,前 言 2022 年底,ChatGPT 震撼上线,大语言模型技术迅速“席卷”了整个社会,人 工智能技术因此迎来了一次重要进展。面对大语言模型的强大性能,我们不禁要 问:支撑这些模型的背后技术究竟是什么?这一问题无疑成为了众多科研人员的 思考焦点。 必须指出的是,大模型技术并不是一蹴而就,其发展历程中先后经历了统计语 言模型、神经网络语言模型、预训练语言模型等多个发展阶段,每一步的发展都凝 结了众多科研工作者的心血与成果。作为大语言模型技术的重要推动者,OpenAI 公司引领了本次技术变革,让我们再次回顾其针对大模型技术的研发历程。2015 年,OpenAI 公司正式创立,开始探索通用人工智能的技术路线。早期的 OpenAI 团队围绕强化学习、多模态、语言模型等几个重要方向进行了深入研究。其中,由 Ilya Sutskever 领导的团队主要关注语言模型的研究。当谷歌 2017 年推出基于注意 力机制的 Transformer 模型后,OpenAI 团队迅速洞察到了其潜在的优越性,认为这 种模型可能是一种大规模可扩展训练的理想架构。基于此,OpenAI 团队开始构建 GPT 系列模型,并于 2018 年推出了第一代 GPT 模型—GPT-1,能够通过“通用文 本训练-特定任务微调”的范式去解决下游任务。接下来,GPT-2 和 GPT-3 模型通 过扩大预训练数据和模型参数规模,显著提升了模型性能,并且确立了基于自然 语言形式的通用任务解决路径。在 GPT-3 的基础上,OpenAI 又通过代码训练、人 类对齐、工具使用等技术对于模型性能不断升级,推出了功能强大的 GPT-3.5 系 列模型。2022 年 11 月,ChatGPT 正式上线,能够以对话形式解决多种任务,使得 用户能够通过网络 API 体验到语言模型的强大功能。2023 年 3 月,OpenAI 推出了 标志性的 GPT-4 模型,将模型能力提升至全新高度,并将其扩展至拥有多模态功 能的 GPT-4V 模型。 反观 GPT 系列模型的发展历程,有两点令人印象深刻。第一点是可拓展的训 练架构与学习范式:Transformer 架构能够拓展到百亿、千亿甚至万亿参数规模,并 且将预训练任务统一为预测下一个词这一通用学习范式;第二点是对于数据质量 与数据规模的重视:不同于 BERT 时代的预训练语言模型,这次大语言模型的成 功与数据有着更为紧密的关系,高质量数据、超大规模数据成为大语言模型的关 键基础。上述的思路看似简单,但能够从早期众多的技术路线中寻找到这条路线
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有