当前位置: 首页 > news >正文

做网站都需要学什么语言前端培训找不到工作的多吗

做网站都需要学什么语言,前端培训找不到工作的多吗,wordpress 赚钱,萧江做网站这里写目录标题 LLM调研1. 外挂知识库2. 微调数据prompting和fine-tuning的对比 3. NLP的发展4. 大语言模型的涌现能力5. 大模型的几个关键技术6. 数据预处理7. 主流架构8. 模型训练9. 大模型的微调10. 大模型的使用11. 大模型的评估 LLM调研 大模型的不足#xff1a;在特定的… 这里写目录标题 LLM调研1. 外挂知识库2. 微调数据prompting和fine-tuning的对比 3. NLP的发展4. 大语言模型的涌现能力5. 大模型的几个关键技术6. 数据预处理7. 主流架构8. 模型训练9. 大模型的微调10. 大模型的使用11. 大模型的评估 LLM调研 大模型的不足在特定的专属知识领域表现不尽人意 改进 外挂知识库向模型提问时额外给他一些专用知识的相关信息让他找到正确答案。优点快速实现。不涉及模型训练。缺点效果上限较低大模型垂直领域训练在专用知识上训练大模型效果上限高灵活性强针对不同领域的知识做定制化训练和优化 微调的几种方法 Freeze冻结原有模型的大部分参数只对小部分参数进行训练LORA在原有模型上新增额外的参数原有参数冻结仅训练新增的参数 RLHF基于人类反馈的强化学习 通过精细设置的海量例题引导模型做出更符合我们期望的回答 teacher-student训练一个teacher模型为student模型打分student模型就是我们需要的精炼模型 具体做法 数据标注准备一些问题然学生模型给出多个答案由标注员对这些答案排序打分模型训练将问题和人工标注的答案排序输入给模型让模型对各个答案打分目标时让各个答案的分数排序和人工排序的一致student模型训练给student输入海量问题让其作答教师模型对答案评分让学生模型根据教师模型的反馈进行自我更新、迭代 大模型训练的三个阶段 预训练成百上千的数据预训练微调针对专用领域或任务的少量数据进行训练RLHF通过精细准备的例题让模型的回答更符合人类期望 垂直领域的数据较少可以选择开源模型继续进行微调实现较快但是原有模型的通用能力会下降垂直领域的数据较多可以在base模型上继续预训练微调 1. 外挂知识库 从知识库中挑选问题相关的内容涉及对文档的加载切分向量化相似度对比等操作挑选出与问答内容相关的知识内容输入给大模型涉及prompt的编写 具体流程 知识库文件转换为文本格式文本分割文本向量化将分割好的文本转化为数值向量方便计算文本相似度TF-IDF word2vec语言模型文本存储文本向量化后存储到数据库中常见的有pincone, qdrant, waviate, milvus, chroma问句向量化采用知识库文本相同的向量化处理方式将查询问题转化为语义向量用于问题和知识库文本之间的相似度计算从知识库文本中挑选top k个相关文本信息检索的核心通过余弦相似度、欧氏距离等计算方法找出与问题向量最接近的文本向量找到top k个相关文本挑选的文本与问题合成为prompt输入给语言模型 具体的方案实现 模型的选择开源or闭源 Baichuan2 ChatGLM2 LLaMA2模型应用开发工具langchain langchain把大模型开发应用的功能进行模块化的封装提升开发效率 data augmented generation额外信息的封装llms and prompts封装对不同模型的管理和调用提示词部分定义、封装了不同的提示词模板memeory记忆模块保存与模型交互时的上下文状态处理长期记忆获得更加准确的结果chain针对不同应用场景封装了对模型和多个组件的一系列调用agents代理执行任务的具体对象调用上述组件完成任务 闻达LLM调用平台目标为针对特定环境的高效内容生成。 Quivr专门面向知识库问答的开源解决方案可以本地部署开箱即用 2. 微调数据 两种形式单轮对话或多轮对话 参数微调全量参数微调(FFT FULL FINE TUNING)、部分参数训练PEFT Parameter-Efficient Fine Tuning: LORA/QLORA、P-TuningV2 FFT的问题训练成本高容易导致灾难性遗忘微调注入的领域表现变好但是原来表现好的领域可能效果变差 监督式微调SFT 人类反馈的强化学习微调RLHF 基于AI反馈的强化学习微调RLAIF 微调平台 LLaMA-Efficient-Tuning. LLaMA Factory ChatGLM2-6B 微调完整的代码地址为 https://github.com/SpongebBob/Finetune-ChatGLM2-6B LoRA微调框架是alpaca-lora 先验知识 可以使用huggingface的Trainer API进行模型微调例如 Fine-tune a pretrained model (huggingface.co) 使用自己的数据集使用huggingface的Trainer API进行微调的步骤 https://zhuanlan.zhihu.com/p/66 一些开源微调模型 Chinese-LLaMA-Alpaca prompting和fine-tuning的对比 首先有一点很重要的是普通的prompt可能造成吞吐量很高比如你只是说了一句“please think step by step and you may ask yourself some subquestions to solve this math word problem”它就会输出很长一段文本但是你知道调用GPT-4是按照token数计数的它会很烧钱。。。而fine-tuning则不一样只要你准备好了微调的训练数据后期只需要让chatGPT生成数学题的答案即可而不需要很多中间推理过程省了很多钱。。。其次chatGPT直接进行prompt的话它有时候会忘记你的数据或提示词可能会胡乱地给你一些东西它更适合一些泛化的任务而fine-tuning则不一样它可以很稳定地在你自己的数据集或任务上进行稳定的输出只要你的微调训练数据是高质量的微调非常适合用于特定领域的任务求解比如math word problems 一些有趣的问题大模型的微调多少个epoch不会过拟合 大模型的微调一般训练多少epoch不会过拟合 百万数据量1个epoch 几千上完的数据量1-3个epoch 结合验证集的loss来做early stop 微调出效果的关键是在数据上可能95%的效果取决于你得数据剩下的5%在于你不要用错误的参数来破坏数据如果不是为了刷榜没必要去追求一个最优的参数组合。你可能觉着你得训练数据里面只有几条脏数据对大模型来说根本无所谓但是可能就因为这些少量的脏数据影响了整个模型的效果。不必追求完美的学习率因为它并不存在。只需要朝着正确的方向努力如果数据集好的话大部分时间你都能达到预期的效果。 你无法在13b上微调出100%可靠的微调模型。你会接近最优解但是它时不时的就会给你一些胡说八道的结果。33b则会好很多不幸的是在家用显卡上训练33b并没有多大意义因为你必须量化来进行推理但是这样基本上是在破坏模型。至少需要48GB的内存才能训练33b并进行适当的微调。在能够处理多个batch梯度累积可能会降低质量可能存在某个最佳点。当然bs大小为1且梯度累积为32时会比bs大小为1且梯度累积为1时效果更好。数据集的大小在对基础模型进行微调时很重要但在对已经进行过良好微调的模型(chat版)进行微调时重要性较小。实际上有时候较小的数据集效果更好否则可能会破坏之前的微调效果。alpha 2x rank似乎没有太多意义它只是乘以权重而已常用的是warmup预热1个epoch然后余弦下降到下一个1- x个epoch。rank实际上就是可训练参数的数量不需要试图找到其他含义风格vs知识。就像使用100万像素和1600万像素拍摄的照片一样你总是可以看到整个画面但在100万像素的照片上细节非常模糊。 3. NLP的发展 统计语言模型SLM基于马尔科夫假设建立词预测模型遭遇维度灾难当词较多时独热编码的维度会非常大使得模型难以训练神经语言模型NLM通过引入分布式词向量来表征单词。word2vec通过一个浅层的神经网络分为CBOW和Skip-gram两种方式来学习分布式单词的表示。从而在向量空间中可以通过语义的叠加和删减从一个单词得到另外一个单词比如皇后-女性国王预训练模型PLM由于transformer架构的出现其优越的并行能力和注意力机制ELMOBERT的预训练-微调范式在下游的分类头或其他适配器上进行参数训练极大的提高了模型在各类NLP任务中的性能。大语言模型LLM随着模型参数的疯狂扩大基于decoder的GPT-3.5开始在复杂任务上展现了优越的性能涌现能力。同时上下文学习ICL和思维链COT的特点使得大模型在更多未知的复杂任务上表现出色 4. 大语言模型的涌现能力 上下文学习ICL能力具体来说就是为LLM提供特定的指令和几个任务实例LLM就可以通过完成输入文本的单词预测来完成上下文场景中的任务指令遵循通过prompt使得模型具有完成新任务的能力逐步推理COT能力最早发现在prompt中加上”think step by step“则模型的复杂推理能力比如数学应用题则会有改善 5. 大模型的几个关键技术 模型的扩展更大的模型更多数据更强大的能力。高质量的预训练数据集attention的计算方法模型的训练在可行的时间内成功的训练模型。分布式并行训练混合精度训练模型的能力引导设计合适的prompt和ICL使得模型在特定任务上表现更好模型的对齐微调RLHF/RLAIF通过对齐微调使得模型的输入符合人类的期望过滤屏蔽掉有害的输出模型的工具使用instructGPT利用外部工具比如计算器网络搜索工具等弥补大语言模型的缺陷多模态大模型的构建使得模型能够识别其他模态的含义并做出相应操作图像语音视频 6. 数据预处理 适当的对话文本数据可以增强LLM的对话能力。过度的对话文本数据会导致陈述性指令和疑问句的输入被认为是对话的开始使得指令有效性下降。 数据的质量过滤使用高质量数据集作为正样本采样候选样本数据作为负样本来训练二元分类器衡量数据的分数进行数据的过滤 数据的分词使用专门为预训练语料库设计的分词器会效果更好 高质量的数据是模型训练能否成功的重中之重 7. 主流架构 encoderGLM PaLM decoderGPT encoder-decoderT5 BART 标准化LN的位置前置LN可以实现更稳定的训练但是会带来一定的性能损失。Sandwich-LN, RMS Norm, DeepNorm激活函数广泛使用GeLU作为激活函数。其变体SwiGLU, GeGLU在实践中可以获得更好的性能位置编码RoPE中键和查询之间的分数可以使用相对位置信息计算有利于建模长序列被应用于新LLM中注意力机制稀疏注意力机制分解注意力复杂度更低 建议采用前置的RMS进行层标准化、选择SwiGLU或GeGLU作为激活函数。位置编码采用RoPE或ALiBi长序列中表现更好 8. 模型训练 对于预训练而言 batch_size尽量大2048-成千上万 学习率先预热warm-up再衰减decay 优化器Adam/AdamW优化器 为了学习稳定会广泛使用权重衰减衰减率设置为0.1和梯度裁剪阈值设置1.0 三种并行方式 数据并行适用于模型较小单卡可以训练的情况下提升训练效率将模型参数和优化器状态复制到多个GPU上数据划分后并行的放到每个GPU上进行前向计算和反向传播。各GPU中计算的梯度统一传输到一个GPU上进行梯度的聚合和更新并复制更新的参数到每个GPU的模型中。模型并行适用于模型较大单卡无法放下整个模型的情况GPU利用效率可能降低将模型不同层放在不同GPU上使得多卡可以训练一个较大的模型。张量并行将参数矩阵分解为子矩阵使得LLM可以在多个GPU上加载 加快训练速度的方法 ZeRO技术DeepSpeed库提出专注于解决数据并行中的内存冗余问题。混合精度训练全精度和半精度混合可以大大提高训练效率 9. 大模型的微调 指令微调和对齐微调前者为了增强大模型的能力后者为了规范大模型的输出 指令微调PromptSource众包平台指令的多样化比实例数量更加重要。重用现有的格式化的数据集利用LLM来自动构建指令 指令的微调策略可以视为一个有监督的训练过程但是和预训练不同其损失函数序列到序列的损失优化参数更小的批次和学习率。常常我们会混合几个数据集的数据后按比例来采样指令实例使得其多样性更好。 对齐微调为了规范大模型的行为大模型的幻觉编写虚假信息产生有害的或者误导性有偏见的表达。但是对齐微调可能会损害大模型的通用能力。常用的方法是RLHFRLAIF。 一些微调的方法 适配器微调在transformer模块中引入适配器小型的神经网络模块一般包含非线性变换一般放在注意力层和前馈层的后面微调时冻结原有的参数仅仅训练并更新适配器的参数提示微调P-Tuning主要是在输入层加入可训练的提示向量前缀微调在每个transformer模块前添加可学习的连续向量使得其具有任务的特异性低秩微调LoRA通过添加低秩约束来近似每层的更新矩阵。将参数的更新抽象成近似参数更新矩阵先缩小再放大从而大大节省存储成本 10. 大模型的使用 主要是通过设计合理的prompt来激活LLM解决各类问题的能力 当前研究的主流能力为上下文学习和思维链提示 ICLin-content-learningprompt task description true instance task instance基于任务范式LLM可以在没有显示梯度更新的情况下执行新任务。示范instance的选择、格式、顺序倾向于重复示范结尾的答案都是ICL能否成功的关键COTchain-of-thought: 将相似问题的解决的步骤给出使得LLM获得复杂问题的推理能力。分为few-shot和zero-shot 11. 大模型的评估 语言生成 语言建模关注基本的语言理解和生成能力。perplexity困惑度是重要的衡量指标用于评估零样本情况下模型的性能条件文本生成在给定条件任务下生成满足需求的文本。包括机器翻译、文本摘要等任务。通常使用自动化指标包括准确率、BLEU ROUGE和人类评分来评价LLM的生成结果 知识利用 闭卷回答从预训练得到的知识基于给定的上下文回答问题开卷回答可以基于外接知识库或者搜索引擎来回答问题知识补全类似完型填空来补全句子使其符合事实或者逻辑 复杂推理 知识推理符号推理数学推理 参考文献RUC赵老师组的大模型综述中英双版非常nice推荐阅读
http://www.zqtcl.cn/news/62162/

相关文章:

  • 手机管理wordpress站wordpress设置使用旧版编辑器
  • 网站建设基本功能阿里巴巴组织调整
  • 织梦做的网站被黑了打开百度网站建设
  • 做的好的网站营销微信公众号wordpress编辑优化
  • 做一个模板网站多少钱怎么注册软件平台
  • 深圳网站建设哪家专业无锡朝阳网站推广
  • 网站开发网站设计的标准wap浏览器电脑版
  • 绍兴公司网站建设wordpress如何加入点赞
  • 人才网站建设策划书青岛做网站公
  • 简答题网站建设步骤企业营销策略
  • 诏安县建设局网站手机网页游戏开发
  • 建设部网站城乡规划资质标准最近三天的国内新闻
  • 单页网站案例分析自学网站官网
  • 怎么建自己的手机网站阳江问政平台投诉平台
  • 去了哪找网站建设公司外网资源
  • 旅游网站开发内容北京私人做网站
  • 现在还有企业做网站吗荆门市网站建设
  • 江阴网站的建设wordpress 文章相册
  • 好素材网站英文网站设计方案
  • 潍坊网络建站模板网站开发实践教程
  • 网站后台有安全狗仿励志一生lz13网站整站源码
  • 网站app免费制作软件江苏品牌网站建设
  • cms做企业网站6漳州北京网站建设公司
  • 软件网站开发市场前景网站优化宝
  • 门户网站是啥如何让广域网访问利用公网ip和本地服务器建设的网站
  • 做的比较好看的国内网站泰安市大众人才网
  • 小型购物网站开发WordPress怎么上传头像
  • 阿里云主机网站开发甘肃兰州天气预报15天
  • 企业的网站如何建立的网站 创意 方案
  • 广告网站建设网站排名优化常州网站建设方案书