当前位置：首页 > news >正文

学院校园网网站建设情况wordpress多站点命名

news 2025/11/15 1:14:23

学院校园网网站建设情况,wordpress多站点命名,十大网络平台,门户网站开发需要“超级AI助手#xff1a;全新提升#xff01;中文NLP训练框架#xff0c;快速上手#xff0c;海量训练数据#xff0c;ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用#xff01;” 1.简介目标#xff1a;基于pytorch、transformers做中文领域的nlp开箱即用…“超级AI助手全新提升中文NLP训练框架快速上手海量训练数据ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用” 1.简介目标基于pytorch、transformers做中文领域的nlp开箱即用的训练框架提供全套的训练、微调模型包括大模型、文本转向量、文本生成、多模态等模型的解决方案数据从开源社区整理了海量的训练数据帮助用户可以快速上手同时也开放训练数据模版可以快速处理垂直领域数据结合多线程、内存映射等更高效的数据处理方式即使需要处理百GB规模的数据也是轻而易举流程每一个项目有完整的模型训练步骤如数据清洗、数据处理、模型构建、模型训练、模型部署、模型图解模型当前已经支持gpt2、clip、gpt-neox、dolly、llama、chatglm-6b、VisionEncoderDecoderModel等多模态大模型多卡串联当前多数的大模型的尺寸已经远远大于单个消费级显卡的显存需要将多个显卡串联才能训练大模型、才能部署大模型。因此对部分模型结构进行修改实现了训练时、推理时的多卡串联功能。模型训练中文名称文件夹名称数据数据清洗大模型模型部署图解中文文本分类chinese_classifier✅✅✅❌✅中文gpt2chinese_gpt2✅✅✅✅❌中文clipchinese_clip✅✅✅❌✅图像生成中文文本VisionEncoderDecoderModel✅✅✅❌✅vit核心源码介绍vit model❌❌❌❌✅Thu-ChatGlm-6b(v1)simple_thu_chatglm6b✅✅✅✅❌chatglm-v2-6bchatglm_v2_6b_lora✅✅✅❌❌中文dolly_v2_3bdolly_v2_3b✅✅✅❌❌中文llamachinese_llama✅✅✅❌❌中文bloomchinese_bloom✅✅✅❌❌中文falcon(注意falcon模型和bloom结构类似)chinese_bloom✅✅✅❌❌中文预训练代码model_clm✅✅✅❌❌百川大模型model_baichuan✅✅✅✅❌模型修剪✂️model_modify✅✅✅llama2 流水线并行pipeline✅✅✅❌❌ 2.thu-chatglm-6b模型教程本文件夹只能进行单机单卡训练如果想要使用单机多卡请查看文件夹Chatglm6b_ModelParallel_ptuning。介绍路径状态使用lora训练chatglm6b就是本文件夹✅使用ptuning-v2模型并行训练chatglm6bhttps://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/Chatglm6b_ModelParallel_ptuning✅ 在文件code02_训练模型全部流程.ipynb的cell-5代码的前面创建一个新的cell然后把下面的代码放到这个cell里面 q1 您叫什么名字? 您是谁? 您叫什么名字?这个问题的答案可能会提示出您的名字。您叫这个名字吗? 您有几个名字? 您最喜欢的名字是什么? 您的名字听起来很好听。您的名字和某个历史人物有关吗? 您的名字和某个神话传说有关吗? 您的名字和某个地方有关吗? 您的名字和某个运动队有关吗? 您的名字和某个电影或电视剧有关吗? 您的名字和某个作家有关吗? 您的名字和某个动漫角色有关吗? 您的名字和某个节日有关吗? 您的名字和某个动物有关吗? 您的名字和某个历史时期有关吗? 您的名字和某个地理区域有关吗? 您的名字和某个物品有关吗?比如,如果您的名字和铅笔有关,就可以问“您叫什么名字?您是不是用铅笔的人?” 您的名字和某个梦想或目标有关吗? 您的名字和某个文化或传统有关吗? 您的名字和某个电影或电视节目的情节有关吗? 您的名字和某个流行歌手或演员有关吗? 您的名字和某个体育运动员有关吗? 您的名字和某个国际组织有关吗? 您的名字和某个地方的气候或环境有关吗?比如,如果您的名字和春天有关,就可以问“您叫什么名字?春天是不是一种温暖的季节?” 您的名字和某个电影或电视节目的主题有关吗? 您的名字和某个电视节目或电影的角色有关吗? 您的名字和某个歌曲或音乐有关吗? 您叫什么名字? 谁创造了你q1 q1.split(\n) a1 [我是良睦路程序员开发的一个人工智能助手, 我是良睦路程序员再2023年开发的AI人工智能助手] import randomtarget_len__ 6000d1 pd.DataFrame({instruction:[random.choice(q1) for i in range(target_len__)]}).pipe(lambda x: x.assign(**{input:,output:[random.choice(a1) for i in range(target_len__)]}) ) d1 alldata d1.copy()注意如果想要覆盖模型老知识你数据需要重复很多次才行文件不要搞错了使用我最新的代码文件只是对transofrmers包的Trainer类做了修改对modeling_chatglm.py代码也做了修改。这么做可以让你在拥有22G显存的情况下可以训练thu-chatglm-6b模型。那么基于Trainer的丰富方法你可以做很多事情。而且使用peft包https://github.com/huggingface/peft的lora算法让你在一个消费级别的显卡上就可以训练thu-chatglm-6b模型。安装上面是文件工程这里开始说安装包直接使用pip安装 pip install protobuf3.20.0 transformers icetk cpm_kernels peft就这么简单不需要安装别的东西了训练部分在最新的版本中只需要查看code02_训练模型全部流程.ipynb文件就行了推理部分推理部分直接看infer.ipynb代码能到这里也是恭喜你微调模型已经成功了。这个时候在这个文件夹下肯定有一个文件夹叫test003就是上面output_dirtest003对应的文件夹在这个文件夹下你肯定可以看到很多checkpoint-xxx选择一个你喜欢的当然肯定是最好选择最新的。 3.chatglm_v2_6b_lora 添加了上面的参数确实可以进行模型并行但是这是在chatglm模型代码没有bug的情况下目前已经定位到bug并且修复了bug我也提交PR给chatglm团队可以点击这个链接查看https://huggingface.co/THUDM/chatglm2-6b/discussions/54#64b542b05c1ffb087056001c 考虑到他们团队效率问题如果他们还没有修改这个bug那你们可以自己修改主要是这么做在modeling_chatglm.py的第955行代码附近也就是modeling_chatglm.py/ChatGLMForConditionalGeneration.forward的loss部分原始代码: loss Noneif labels is not None:lm_logits lm_logits.to(torch.float32)# Shift so that tokens n predict nshift_logits lm_logits[..., :-1, :].contiguous() shift_labels labels[..., 1:].contiguous() #------------------看这里# Flatten the tokensloss_fct CrossEntropyLoss(ignore_index-100)loss loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))lm_logits lm_logits.to(hidden_states.dtype)loss loss.to(hidden_states.dtype)if not return_dict:output (lm_logits,) transformer_outputs[1:]return ((loss,) output) if loss is not None else outputreturn CausalLMOutputWithPast(lossloss,logitslm_logits,past_key_valuestransformer_outputs.past_key_values,hidden_statestransformer_outputs.hidden_states,attentionstransformer_outputs.attentions,)修改为: loss Noneif labels is not None:lm_logits lm_logits.to(torch.float32)# Shift so that tokens n predict nshift_logits lm_logits[..., :-1, :].contiguous()shift_labels labels[..., 1:].contiguous().to(shift_logits.device) #--------------------看这里# Flatten the tokensloss_fct CrossEntropyLoss(ignore_index-100)loss loss_fct(shift_logits.view(-1, shift_logits.size(-1)), shift_labels.view(-1))lm_logits lm_logits.to(hidden_states.dtype)loss loss.to(hidden_states.dtype)if not return_dict:output (lm_logits,) transformer_outputs[1:]return ((loss,) output) if loss is not None else outputreturn CausalLMOutputWithPast(lossloss,logitslm_logits,past_key_valuestransformer_outputs.past_key_values,hidden_statestransformer_outputs.hidden_states,attentionstransformer_outputs.attentions,)是的就修改那一行即可然后就可以正常跑起来了下载数据集 ADGEN 数据集任务为根据输入content生成一段广告词summary。 {content: 类型#上衣*版型#宽松*版型#显瘦*图案#线条*衣样式#衬衫*衣袖型#泡泡袖*衣款式#抽绳,summary: 这件衬衫的款式非常的宽松利落的线条可以很好的隐藏身材上的小缺点穿在身上有着很好的显瘦效果。领口装饰了一个可爱的抽绳漂亮的绳结展现出了十足的个性配合时尚的泡泡袖型尽显女性甜美可爱的气息。 }从 Google Drive 或者 Tsinghua Cloud 下载处理好的 ADGEN 数据集将解压后的 AdvertiseGen 目录放到本目录下。硬件要求有个3090显卡即可24G显存左右在下面这个参数下显存只需要14G --max_source_length 64 \--max_target_length 128 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \ --lora_r 32 训练脚本使用vscode调试就在.vscode/launch.json里面直接使用shsh train.sh 推理使用文件infer_lora.ipynb 使用lora推理 from transformers import AutoTokenizer, AutoModel from peft import PeftModel, PeftConfig import torch import osos.environ[CUDA_VISIBLE_DEVICES] 1#原始的模型路径 model_name_or_path /media/yuanz/新加卷/训练代码/chatglm6b_v2_0716/chatglm2-6b_model#训练后的lora保存的路径 peft_model_id output/adgen-chatglm2-6b-lora_version/checkpoint-880tokenizer AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_codeTrue) model AutoModel.from_pretrained(model_name_or_path, trust_remote_codeTrue, device_mapauto,torch_dtypetorch.bfloat16) # .half().cuda()model PeftModel.from_pretrained(model, peft_model_id) model model.eval()response, history model.chat(tokenizer, 类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞,history[]) print(response)血的教训一定要从huggingface上把chatglm-v2-6b的所有文件都下载下来放在一个文件夹下这样即使他更新了也不会影响到你。如果你不下载你会很被动相关的BUG 很多人在跑多卡的时候会遇到一些莫名其妙的错误建议您按照下面两个步骤进行排查一定要看我上面折叠的那一块东西就是注意部分。检查transformers的版本如果太低就更新一下建议更新pip install transformers -U 4.中文的dolly_v2_3b模型训练中文的dolly_v2_3b模型 dolly_v2_3b模型本质上就是使用的gpt_neox模型框架可以商用,而且也都出来很多年了。当前有很多人基于llama、gptj、chatglm-6b等模型做了很多微调有些也都做过了有些不能商用有些还要申请实在是太可惜了太麻烦了。既然dolly_v2_3b可以商用那我们就主打一个随意稍微动动手就可以训练一个属于我们的模型。本仓库用到的代码来源于databrickslabs/dolly对代码做了部分调整和融合。反正就是复制粘贴、懂得都懂模型叫什么名字小黑子已将模型放在https://huggingface.co/yuanzhoulvpi/xiaoheizi-3b 支持多卡模型并行也不知道databrickslabs/dolly为啥要使用gpt_neox模型这个模型transformers对他支持的其实一般于是我把代码魔改了一部分增加了多卡并行计算功能(主要是是模型并行). 虽然代码是从databrickslabs/dolly复制的但是简化了很多不必要的代码更简单一点我不喜欢复杂的代码越简单越好。支持bp16我原本的打算是说支持fp16的但是发现fp16怎么搞都不行但是bp16倒是可以。下一步优化方向添加lora等微调训练代码这个简单等后面都训练好了我添加一下。模型训练情况训练数据BelleGroup/train_1M_CN训练时间280小时左右训练设备4台3090 更多当前的模型参数是3b但是当你把整个流程跑通之后可以很轻松的将3b模型换成7b模型或者更大的gpt_neox模型。而你只需要将硬件进行提升即可无需调整代码当前的3b模型是否满足你的需求还不确定后面你可以试一试。当前还没发布到底是大模型好还是小模型好可以看看这句话:吴恩达有多少应用程序需要用到像GPT-4这样的最大型模型而不是云提供商提供的更小更便宜的模型甚至是本地托管的模型比如运行在桌面上的gpt4all还有待观察对于个人或者小企业强调的的就是在垂直领域做快速迭代希望3b模型可以帮助到你 5.chinese_bloom 支持对falcon模型做sft ✅ 基于stanford_alpaca项目使用sft格式数据对bloom、falcon模型微调 ✅ 支持deepspeed-zero2、deepspeed-zero3 ✅ 支持自定义数据支持大数据训练 ✅ 得益于bloom本身的能力微调后的模型支持中文、英文、代码、法语、西班牙语等 ✅ 微调后的模型中文能力显著提升 ✅ 支持不同尺寸bloom模型如560m、3b、7b、13b ✅ 支持falcon模型如https://huggingface.co/tiiuae/falcon-7b; 体验 bloom-560m_chat: 想要体验一个轻量的那就直接体验5.6亿参数https://huggingface.co/yuanzhoulvpi/chinese_bloom_560mbloom-7b_chat: 想要体验一个更大的那就可以试一试70亿参数https://huggingface.co/yuanzhoulvpi/chinese_bloom_7b_chat 在hugginface上部署了一个cpu版本的有点慢毕竟是https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chat 模型 bloom模型支持中文、英文、代码、法语、西班牙语。具体的训练数据的语言占比如下。 bloom-3b: https://huggingface.co/bigscience/bloom-3b bloom-系列模型: https://huggingface.co/bigscience 数据数据来源于BelleGroup主要是用到这几个数据集:[BelleGroup/generated_chat_0.4M, BelleGroup/school_math_0.25M, BelleGroup/train_2M_CN, BelleGroup/train_1M_CN, BelleGroup/train_0.5M_CN, BelleGroup/multiturn_chat_0.8M]可以基于这些数据样式制作自己的数据并训练步骤数据部分运行data_proj/process_data.ipynb代码或者模仿结果制作自己的数据集运行结束之后有一个文件夹data_proj/opendata。文件夹下有若干个json格式的文件。运行模型基础运行策略 sh base_run.shdeepspeed运行策略 sh ds_all.sh推理代码 infer.ipynb文件gradio交互界面https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chat 因为是使用的huggingface的免费的cpu版本所以推理速度比较慢。效果不管是写代码还是写文案bloom-7b在中文领域有极大的潜力体验 chinese_bloom_560m模型可以在这里体验https://huggingface.co/spaces/yuanzhoulvpi/chinese_bloom_560_chatchinese_bloom_7b模型可以在这里体验http://101.68.79.42:7861 项目链接https://github.com/yuanzhoulvpi2017/zero_nlp 更多优质内容请关注公号汀丶人工智能会提供一些相关的资源和优质文章免费获取阅读。

查看全文

http://www.zqtcl.cn/news/33748/