🎯一、模型基础与类型 🧠🧠LLM (Large Language Model,大语言模型) 指在海量文本上训练、参数规模巨大的语言模型,如GPT - 4、文心一言、通义千问等,是大模型最核心的概念。 🌟🌟多模态大模型 能同时处理文本、图像、音频、视频等多种数据形式的大模型,如GPT - 4o、Gemini、文心一言的多模态版本。 ✨✨生成式AI 能创造新内容(文字、图片、代码、音乐等)的AI技术,大模型是当前其核心驱动力。 🔍二、核心架构与原理 ⚙⚙Transformer 当前几乎所有大模型的底层架构。通过自注意力机制并行处理序列数据,取代了传统的RNN 🧐🧐自注意力机制 Transformer的核心,让模型在处理每个词时,都能关注到输入序列中的所有词,从而捕捉长距离依赖关系。 📄📄Token 模型处理文本的最小单元。一个单词可能被切分成一个或多个token,计费和算力都按token计算。 🪟🪟上下文窗口 模型一次能处理的最大token数量。窗口越大,模型“记忆”和处理的对话/文档长度就越长,比如32K、128K,甚至百万级token。 📊📊Embedding (嵌入向量) 将文本、图像等信息映射为高维空间中的数值向量,让模型能进行数学运算,捕捉语义相似度。 💪三、训练技术 📚📚预训练 在海量通用数据上,用无监督或自监督方式让模型学习语言的普遍规律,耗时耗算力最大。 🔧🔧微调 在预训练模型基础上,用特定场景的少量标注数据继续训练,让模型适配下游任务。 👨🏫👨🏫知识蒸馏 用一个大的“教师模型”来教导一个小的“学生模型”,在保持效果的同时压缩模型规模。 🔢🔢量化 将模型的参数精度从高比特(如FP16)降到低比特(如INT8/INT4),以减小模型体积、加快推理速度,几乎不损失效果。 💻四、推理与使用 💡💡提示工程 设计、优化输入给大模型的指令(Prompt),以引导模型生成符合预期的输出,是使用大模型的关键技能。 📖📖上下文学习 不更新模型权重,仅在提示中提供少量示例,模型就能临时学会执行新任务,通常被称为 few - shot prompting。 👻👻幻觉 模型生成的内容看似合理,但事实错误或与源信息不符,是“一本正经地胡说八道”。 #网络热词 #名词解释 #AI大模型 #黑马程序员 #黑马程序员广州校区 #我在黑马学AI大模型