大模型使用与训练
SFT 模型预训练 -----transformer
RLHF 针对输出偏好 ----如符合人类价值观的的训练、纠正
大模型特点
规模大、参数大
适应性强、灵活
广泛数据集的预训练 --资源珍贵、需成百上千的知识数据进行训练
计算资源需求大
大模型分类
大语言模型
专注于处理NLP,处理语言、文章、自然语言基于深度学习矿建(transfomer)
deepseek openai grok qwen
多模态模型
视觉 、音频
大模型工作流程
分词化(Tokenization)
将段落句子分为更小的分词(token)
词粒度 English
字符粒度 中文
字词粒度分词 分的更细处理网络用语、专有名词
词表映射
分词之后会给到tokenid 供计算机使用
生成文本过程
根据提示token,预测下一个最有可能的token,加入到输入序列中输入大模型
大模型应用
知识问答、智能助手、、、、、