首页人工智能大模型入门基础-基本概念介绍

大模型入门基础-基本概念介绍

作者：banana · 分类：人工智能 · 2024年12月 · 标签： aigc 人工智能大模型

1.背景介绍

1.1 奇点到来：ChatGPT引爆AIGC

2022年末，ChatGPT一经推出即火爆全球，作为一款自然语言处理(Natural Language Processing，NLP)大模型，ChatGPT在意图理解和内容生成上，表现出了令人惊叹的性能。

2023年初，ChatGPT的升级版GPT-4引入了对图片、语音的支持等多模态能力，多项考试分数已经超越了大部分人类。

2024年初，OpenAI发布文生视频大模型Sora，在全球视频大模型领域取得里程碑式进展。

如果说2016年AlphaGo在围棋上战胜人类棋王，是AI在专业领域战胜人类的起点，那么以ChatGPT为代表的大模型的发布，则标志着泛化能力更强，通用任务处理更出色的生成式人工智能(AIGC: Artificial Intelligence Generated Content)的奇点来临。

1.2 全球热潮：全球AI市场预计将于2030年达到1万亿美元

2024 年全球人工智能 50 强

AI对各类工作的影响

1.3 AGI看到希望

1.4 高估的短期与低估的长期

2023年大众对AI的看法 : 这是啥->好像也没那么厉害->和我没太大关系

短期:AGI并没有马上催生出大量”明星APP“和“变现机器”。只有ChatGPT，Charactor.ai等少数App实现了用户突破。大量上层应用APP就像韭菜一样:不仅昙花一现，迅速被OpenAI官方所取代,而且还无法做到成本打平。于是，投资人极端谨慎，公众也渐渐对于AI麻木。
长期:技术的稳定的、加速度的选代。23年3月预测的众多技术到现在都有了长足进步:视频生成、音频生成、代理Agent、记忆能力、模型小型化…………它们距离商用可能还有各种各样的问题，但捅破这层窗户纸只是时间问题。

人间一日，AI十年，技术加速迭代已是常态，大模型技术浪潮是我们切身经历的这个时代最显著的技术变革，目前还没有看到阻止AGI出现的硬性限制，且我们距离AGI只有几年距离，各位实施线同事要饱含热情投入进来。

1.5 为什么大语言模型开启了迈向通用人工智能之路？

认知智能是智能的终极体现，人机同频的交流是智能被实现的象征，无论一个人工智能算法有多强大的能力。只要它不能普适性地理解人类、不能让人类理解、不能与人类顺畅交流，它终归是无法融入人类和商业社会的（残酷的是，一个真人也是一样）。人工智能的终极评判标准，就是人机同频交流。

在“人机同频交流”的大目标下，自然语言处理这一领域的关键性不言而喻。人类90%的信息获取与交流都依赖于语言，人类所有的逻辑、情感、知识、智慧、甚至社会的构建、文明的传承依赖于对语言的理解和表达。因此，计算机想要具备“看人类所看，想人类所想，与人类同频”的能力，就必须理解人类所使用的自然语言，而自然语言处理（Natural Langurage Process）正是研究如何让计算机认知人类语言、理解人类语言、生成人类语言、甚至依赖这些语言与人进行交流、完成特定语言任务的关键学科。豪不夸张的说，人工智能能否真正“智能”，很大程度上都依赖于自然语言处理领域的发展。也正因如此，ChatGPT在人类语言领域的成功，很大程度上给出了通向通用人工智能的希望。

1.6 只是预测下一个“词”而已？

1.7 引爆新一轮技术革命的真实原因：涌现能力

1）大语言模型的训练目标是什么?

通常来说，大语言模型的原始训练目标都是为了生成自然、连贯的文本，这也就是为什么GPT-3模型最早是被用来编写新闻稿件、写小说、编写产品介绍文案、诗歌等；

由于模型本身接受了大量的文本进行预训练，因此根据提示补全和创造文本可以看成是模型的原生技能；

2）引爆新一轮技术革命的真实原因：大语言模型的涌现能力

不过，仅仅能进行文本创造，并不足以让大语言模型掀起新的一轮技术革命。人们真正看好大语言模型技术的根本在于当模型足够大(参数足够大&训练数据足够多)时模型展示出了“涌现能力”;

所谓涌现能力(Emergent Capabilities),指的是模型在没有针对特定任务进行训练的情况下，仍然能够在合理提示下处理这些任务的能力；有时也可以将涌现能力理解为模型潜力；巨大的技术潜力，才是LLM爆火的根本原因；

3）大语言模型的涌现能力具体有哪些?

·对话能力：很难想象的是，对话能力其实也是大语言模型的涌现能力；对于大语言模型(例如Completion模型)来说，本身并未接受对话语料训练，因此对话能力并不属于模型的原生能力；

·翻译能力、摘要提取能力、编程能力、推理能力、语意理解能力等，也都属于大语言模型的涌现能力；

4）大语言模型到底能做什么?

·原生能力范畴一一文本创造：写稿件、邮件、小说、新闻、诗歌…

·涌现能力范畴一一对话、编程、翻译、推理(包括逻辑推理、自然科学类推理、NLP自然语言推理等),以及其他各类NLP任务，如文本分类、情感识别、推荐排序等…

2.重点概念解析

2.1 模型

在人工智能（AI）领域，一个“模型”通常是指一个用于对现实世界数据进行理解、预测和解决问题的算法框架，模型可以是一个数学公式，也可以是一个复杂的神经网络。AI模型基于数据学习，其目的是从提供的训练数据中检测出模式和关系，然后在新数据上应用这些学习到的规则来做出决策或推断。AI模型的类型包括决策树、支持向量机、神经网络等，具体取决于所要解决的问题和所使用的技术或方法。

2.2 大语言模型

1）什么是语言模型

语言模型是一种函数，或者是一种用于学习这种函数的算法，它可以捕捉自然语言中单词序列分布的显著统计特征，通常允许人们根据前面的单词对下一个单词做出概率预测。

2）什么是大语言模型？

大语言模型（LLM），也是一种神经网络模型，通常是具有大规模参数和计算能力，GPT由128层网络和1750亿参数组成，并使用45TB数据进行训练。

2.3 自然语言处理

大语言模型不是一蹴而就的，是经过了漫长的发展历史，大语言模型是自然语言处理领域的重要成果。自然语言处理是人工智能 (AI)的一个分支，专注于计算机与自然语言之间的交互。

自然语言处理（NLP）的发展历程可分为早期、中期以及现代（后期）三个阶段：

早期（1950s-1980s）：早期的NLP主要由基于规则的系统构成。这些系统依据语言学家编写的复杂规则来处理语言。

机器翻译：NLP的早期研究主要关注机器翻译，如1950s的Georgetown-IBM实验，它使用了一组简单的俄语到英语翻译规则。

句法分析：70年代见证了句法分析器的开发，它们依靠编码的语法规则来解析文本。

专家系统：1980年代，出现了基于专家知识的系统，如SHRDLU等，处理特定领域的自然语言理解问题。

中期（1980s-2000s）：在这个阶段，与基于规则的系统相比，统计方法开始变得流行。

统计模型：1990年代起，统计模型在NLP中变得主流，尤其是隐马尔可夫模型（HMMs）和概率上下文无关文法（PCFGs）被用于语音识别和句法分析。

数据驱动学习：大规模语料库的建立使得基于数据的机器学习方法发展迅速。

机器翻译的进步：90年代后期，基于数据的机器翻译方法变得势不可挡，尤其是基于短语的统计翻译模型。

现代（2000s-至今）：现代NLP几乎完全依赖于机器学习模型，尤其是深度学习方法，它们在性能上取得了质的飞跃。

Word2Vec和深度学习：2010年代初，Word2Vec词嵌入方法的发明以及卷积神经网络（CNNs）和循环神经网络（RNNs）在NLP的应用推动了深度学习的爆发。

注意力机制和Transformer模型：2017年，注意力机制和Transformer模型的出现彻底改变了NLP领域，这导致了BERT、GPT等预训练语言模型的开发。

预训练语言模型：预训练语言模型利用大量未标注文本数据学习语言表示，通过微调可适用于多种NLP任务，显著提升了下游应用的表现。

2.4 什么是token

人类的语言是由文字构成，语言的含义也是由单词构成的，即单词是含义的最小单位。因此，为了让计算机理解自然语言，寻找数字表示的方法是第一步。

2.5 什么是词嵌入（word embedding）

⾃然语⾔是⽤来表达⼈脑思维的复杂系统。在这个系统中，词是意义的基本单元。顾名思义，词向量是⽤于表⽰单词意义的向量，并且还可以被认为是单词的特征向量或表⽰。将单词映射到实向量的技术称为词嵌⼊。

2.6 什么是预训练？

在大型语言模型（LLM）的场景中，预训练是使用大规模文本语料库来学习语法结构、单词上下文和语言模式的一种方法，预训练过程：

1.选择一个大规模的文本数据集：数据集的选择依赖于模型的预训练目标，通常使用网站、书籍或其他文本资源收集的未标记文本数据。

2.定义预训练任务：任务可能包括语言模型预测、掩码语言模型、句子关系预测等。具体的任务取决于预训练模型的设计。

3.训练模型：使用选择的数据集和任务来训练模型，这个过程可能持续数日至数月不等，需要大量计算资源。

4.提取知识：预训练完成后，模型内部的权重编码了对语言的广泛理解，这些知识可以迁移到下游任务中。

2.7 什么是微调？

感性理解：大模型微调指的是“喂”给模型更多信息，对模型的特定功能进行“调教”,即通过输入特定领域的数据集，让其学习这个领域的知识，从而让大模型能够更好的完成特定领域的NLP任务，例如情感分析、命名实体识别、文本分类、对话聊天等；

从模型本身角度而言：微调阶段相当于是进一步进行训练，该过程会修改模型参数，并最终使模型“记住”了这些额外信息；让大模型永久记住信息的唯一方法就是修改参数；

有监督微调：supervised fine-tuning,简称SFT;

数据标注：高质量的有标签数据集在微调过程中必不可少，数据标注工作则是用于创建这些有标签的数据集；伴随着大模型发展，人们也在尝试使用大模型来完成很多数据标注工作；

2.8 什么是提示工程？

在人工智能和自然语言处理领域，特别是在使用大型语言模型（如GPT系列）时，prompt是指输入给模型的文本，用于引导模型生成特定的输出。Prompt可以是一个简单的问题、一段描述或是一段指令，它告诉模型应该做什么以及如何生成所需的输出。也就说，Prompt 是与大模型对话的语言，是大模型应用的核心。

2.9 什么是增强检索（RAG）？

检索增强生成（Retrieval-Augmented Generation，简称RAG）是一种人工智能技术，该技术通过检索信息库中的相关事实，以提高大型语言模型（LLMs）的准确性和可靠性。RAG结构是由Facebook AI于2020年提出的，旨在改善机器理解和生成自然语言的能力。RAG是一种结构或设计方法，结合了信息检索技术和文本生成模型，在 LLM 本就强大的功能基础上，RAG 将其扩展为能访问特定领域或组织的内部知识库，所有这些都无需重新训练模型。这是一种经济高效地改进 LLM 输出的方法。

2.10 什么是知识库？

基于RAG（Retrieval-Augmented Generation）的知识库是一种结合了信息检索（Retrieval）和生成模型（Generation）能力的人工智能系统。这种系统旨在通过检索相关信息丰富其回答，同时利用生成模型按照检索到的信息自动生成文本回答或解决方案。

2.11 什么是智能体（Agents）？

Agent：AI Agent本质上是⼀个基于⼤语⾔模型的智能应⽤，也就是说Agent是⼤模型的上层应⽤。所谓Agent（代理⼈），指的是这个应⽤不仅仅停留在聊天对话的层⾯，更能接⼊外部⼯具帮你直接完成⼀些事项。

ChatGPT 能教你如何写 SQL 查询代码；

Agent 能帮你直接从数据库中提取数据。

2.12 什么是GPTs？

GPTs 是OpenAI 开发的一个工具，无需任何编程知识，通过简单聊天的交互方式就能创建数学、论文、创意设计等不同任务的专属GPT。是一种让使用者将指令、额外知识和任何技能组合搭配起来 AI 助理的工具。从某种程度来说，也是智能体（Agent）的代名词。可以上架至GPT Store。

GPT Store 是由OpenAI推出的一个平台，在这个平台上，开发者和社区可以创建、分享以及发现各种基于GPT的应用。在GPTs商店中提供搜索及分类排行榜，能为制作者提供收益，鼓励用户制作与分享工具。截止到2024-3-10，GPTs的创建数量已经超过400万。