大模型使用与训练

SFT 模型预训练 -----transformer

RLHF 针对输出偏好 ----如符合人类价值观的的训练、纠正

大模型特点

规模大、参数大

适应性强、灵活

广泛数据集的预训练 --资源珍贵、需成百上千的知识数据进行训练

计算资源需求大

大模型分类

大语言模型

专注于处理NLP,处理语言、文章、自然语言基于深度学习矿建(transfomer)

deepseek openai grok qwen

多模态模型

视觉 、音频

大模型工作流程

分词化(Tokenization)

将段落句子分为更小的分词(token)

词粒度 English

字符粒度 中文

字词粒度分词 分的更细处理网络用语、专有名词

词表映射

分词之后会给到tokenid 供计算机使用

生成文本过程

根据提示token,预测下一个最有可能的token,加入到输入序列中输入大模型

大模型应用

知识问答、智能助手、、、、、