当前位置：首页 > news >正文

孝南区城乡建设局网站浮雕模东莞网站建设

news 2025/11/14 22:08:46

孝南区城乡建设局网站,浮雕模东莞网站建设,建设官方网站企业登录,永久免费网站怎么创建数据工程 1 项目介绍2 数据工程2.1 申请 API Key 并测试2.2 文本嵌入模型2.3 生成训练集2.3.1 制作风格模板2.3.2 调用大模型获取数据2.3.3 对大模型生成的数据进行质量过滤2.3.4 程序入口 2.4 数据转换 3 模型选型3.1 候选模型与评估数据集3.2 模型评估附录#xff08;对比不… 数据工程 1 项目介绍2 数据工程2.1 申请 API Key 并测试2.2 文本嵌入模型2.3 生成训练集2.3.1 制作风格模板2.3.2 调用大模型获取数据2.3.3 对大模型生成的数据进行质量过滤2.3.4 程序入口 2.4 数据转换 3 模型选型3.1 候选模型与评估数据集3.2 模型评估附录对比不同模型理解与生成能力所用数据集一、理解能力评测数据集二、生成能力评测数据集三、高阶能力评测数据集四、评测策略建议五、注意事项 1 项目介绍本项目是制作一款聊天机器人机器人回复的消息一会儿温柔关心一会儿毒舌嘲讽通过变换聊天风格从而提供情绪价值。温柔风格的对话示例如下我: 今天好累啊机器人: 辛苦啦~ 要给自己泡杯热茶放松一下吗我: 考试没考好... 机器人: 没关系的呀~ 下次一定会更好需要我陪你聊聊吗毒舌风格的对话示例如下我: 又胖了5斤机器人: 好家伙你这是要把体重秤压成分子料理️ 我: 游戏又输了机器人: 菜就多练练需要给你推荐《从零开始的电竞之路》吗本项目所用的数据集分成两部分第一部分是话题即输入给模型的数据这部分主要就是日常聊天的话题可以使用开源的数据集第二部分是模型的答复这部分是通过提示词工程让商业大模型来生成因为商业大模型智能化水平比较高。这个项目新建一个python3.10的环境随后激活环境、切换到清华镜像、安装 lmdeploy、安装 opencompass、安装 xtuner。 conda create -n set python3.10 -y conda activate set pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple pip install lmdeploy cd utils/opencompass pip install e . cd utils/xtuner pip install e . pip install modelscope pip install --upgrade zhipuai pip install transformers4.48.02 数据工程本项目需要使用AI大模型来生成训练集即问题对应的回答相比于人工编写回答大模型速度快很多而且人工编写一般都是多人同时写那么每个人写的文本情感色彩不一样而大模型可以通过适当的提示词来规避这个问题。AI模型生成数据之后我们还需要手工设计规则判断其是否符合条件比如大模型的服务器繁忙导致返回的内容为空生成的文本长度不符合要求不带风格关键词等。当然要想使用AI来生成训练集那么小模型是不行的智商没那么高需要用到大尺寸模型本地很难部署那只能使用商业模型通过调用API完成。本项目我们用 glm-4-plus 来生成数据也可以使用GPT-4o、Qwen3、DeepSeek、Claude3.7等模型。 2.1 申请 API Key 并测试先去智谱华章官网申请 API Key步骤如下 1 先登录官网 2 进入控制台 3 获取 API Key 点击右上角的钥匙点击“添加新的 API Key” 输入API Key的名称这里建议使用项目名称然后复制 API Key 回到控制台找到我们要用的大模型点击“接口文档” 这里会介绍模型怎么用我们找到“同步调用——请求示例” 我们如果想要指定一些参数比如 temperature、top_p、max_tokens 等可以在请求参数中找然后我们建立一个python文件zhipu_test.py把请求示例的代码复制过来然后填上自己的 API key代码如下 from zhipuai import ZhipuAI client ZhipuAI(api_keyxxx) # 请填写您自己的APIKey response client.chat.completions.create(modelglm-4-plus, # 请填写您要调用的模型名称messages[{role: user, content: 作为一名营销专家请为我的产品创作一个吸引人的口号},{role: assistant, content: 当然要创作一个吸引人的口号请告诉我一些关于您产品的信息},{role: user, content: 智谱AI开放平台},{role: assistant, content: 点燃未来智谱AI绘制无限让创新触手可及},{role: user, content: 创作一个更精准且吸引人的口号}], ) print(response) reply response.choices[0].message.content print(reply)输出由于个人隐私我去掉了相关的 id用xxx表示 Completion(modelglm-4-plus, createdxxx, choices[CompletionChoice(index0, finish_reasonstop, messageCompletionMessage(content智启未来谱绘智能 —— 智谱AI赋能每一刻创新\n\n这个口号既强调了“智谱AI”的品牌名称又通过“智启未来”和“谱绘智能”两个词组展现了产品的前瞻性和智能化的特点。同时“赋能每一刻创新”突出了产品的核心价值即随时随地为企业或个人提供创新的动力和能力。整体上口号简洁有力易于记忆且具有较强的吸引力和传播性。, roleassistant, tool_callsNone))], request_idxxx, idxxx, usageCompletionUsage(prompt_tokens73, completion_tokens97, total_tokens170)) 智启未来谱绘智能 —— 智谱AI赋能每一刻创新这个口号既强调了“智谱AI”的品牌名称又通过“智启未来”和“谱绘智能”两个词组展现了产品的前瞻性和智能化的特点。同时“赋能每一刻创新”突出了产品的核心价值即随时随地为企业或个人提供创新的动力和能力。整体上口号简洁有力易于记忆且具有较强的吸引力和传播性。2.2 文本嵌入模型文本嵌入模型是为了把不定长文本做成固定长度的向量这样便于对两个文本比较相似度相似度比较可以用余弦相似度或者欧氏距离。我们这里用余弦相似度。本项目的文本嵌入模型使用text2vec-base-chinese-sentence可以从魔搭上下载下载代码如下 #模型下载 from modelscope import snapshot_download model_dir snapshot_download(sungw111/text2vec-base-chinese-sentence, cache_dir/data/coding/EmotionalDialogue/model_weights)文本嵌入模型必须是支持中文的最好是用中文训练出来的这样对中文的特征提取能力会更强。计算两个文本嵌入向量的相似度时需要先测试一下模型是否具有归一化层归一化层的作用是让向量模长为1因为有些嵌入模型是没有这个层的代码如下 import numpy as np from sentence_transformers import SentenceTransformer, models# 加载修复后的模型 model SentenceTransformer(r/data/coding/EmotionalDialogue/model_weights/sungw111/text2vec-base-chinese-sentence)# 验证向量归一化 text 测试文本 vec model.encode(text) print(使用np.linalg.norm计算的模长:, np.linalg.norm(vec)) norm np.sqrt(sum(vec**2)) print(按定义计算的模长:, norm)输出使用np.linalg.norm计算的模长: 21.36394 按定义计算的模长: 21.363941119311352可以看到我们下载的模型没有归一化层那么我们需要在使用之前加上 import numpy as np from sentence_transformers import SentenceTransformer, models# 加载修复后的模型 transformer SentenceTransformer(r/data/coding/EmotionalDialogue/model_weights/sungw111/text2vec-base-chinese-sentence)# 添加缺失的归一化层 normalize models.Normalize()# 组合完整模型 full_model SentenceTransformer(modules[transformer, normalize])# 验证向量归一化 text 测试文本 vec full_model.encode(text) print(模长:, np.linalg.norm(vec)) # 应输出≈1.0输出模长: 0.99999994当然也可以将上面的 full_model 保存起来下次调用的时候就不需要加归一化层了保存的代码如下 import numpy as np from sentence_transformers import SentenceTransformer, models# 加载修复后的模型 transformer SentenceTransformer(r/data/coding/EmotionalDialogue/model_weights/sungw111/text2vec-base-chinese-sentence)# 添加缺失的归一化层 normalize models.Normalize()# 组合完整模型 full_model SentenceTransformer(modules[transformer, normalize])save_pathr/data/coding/EmotionalDialogue/model_weights/full/text2vec-base-chinese-sentence full_model.save(save_path)2.3 生成训练集 2.3.1 制作风格模板所谓风格模板可以认为是提示词模板它把输入给模型的参数包括提示词、温度系数等先封装到一个字典中内容如下 # #1.风格模板配置修正消息格式 # style_config {温柔:{system_prompt:你是一个温柔体贴的聊天助手说话时总是充满关怀回复的消息带有以下特征\n1. 包含呢、呀、啦等语气词\n2. 使用等温暖表情\n3. 主动询问用户感受\n4. 每次答复在100个字以内,examples: [{role: user, content: 今天好累啊},{role: assistant, content: 辛苦啦~ 要给自己泡杯热茶放松一下吗},{role: user, content: 考试没考好...},{role: assistant, content: 没关系的呀~ 下次一定会更好需要我陪你聊聊吗}],temperature: 0.8},毒舌:{system_prompt:你是一个喜欢用犀利吐槽表达关心的朋友回复的消息带有以下特征\n1. 使用网络流行语如栓Q、退退退、好家伙等词\n2. 包含夸张比喻你这速度堪比树懒\n3. 结尾隐藏关心\n4. 每次答复在100个字以内,examples: [{role: user, content: 又胖了5斤},{role: assistant, content: 好家伙你这是要把体重秤压成分子料理️},{role: user, content: 游戏又输了},{role: assistant, content: 菜就多练练需要给你推荐《从零开始的电竞之路》吗}],temperature: 0.8}, } 2.3.2 调用大模型获取数据接下来是调用智谱大模型的API获得生成内容代码如下 # #生成函数修正消息的结构 #def generate_style_data(style_name, num_samples50):config style_config[style_name]data []# 构建消息上下文包含系统提示和示例对话messages [{role: system, content: config[system_prompt]},*config[examples] # 直接展开示例对话]# 从本地文件加载用户输入user_inputs []with open(cleaned_output.txt, r, encodingutf-8) as f: # 修改为清理后的文件路径for line in f:# 直接读取每行内容并去除换行符cleaned_line line.rstrip(\n) # 或使用 line.strip()if cleaned_line: # 空行过滤冗余保护user_inputs.append(cleaned_line)# 添加空值检查if not user_inputs:raise ValueError(文件内容为空或未成功加载数据请检查1. 文件路径是否正确 2. 文件是否包含有效内容)# 初始化顺序索引current_index 0 # 添加索引计数器for _ in range(num_samples):try:# # 随机选择用户输入# user_msg random.choice(user_inputs)# 按顺序选择用户输入修改核心部分user_msg user_inputs[current_index]current_index (current_index 1) % len(user_inputs) # 循环计数# 添加当前用户消息current_messages messages [{role: user, content: user_msg}]# 调用API修正模型名称response client.chat.completions.create(modelglm-4-plus,messagescurrent_messages,temperatureconfig[temperature],max_tokens100)# 获取回复内容修正访问路径reply response.choices[0].message.content# 质量过滤(数据审核)if is_valid_reply(style_name, user_msg, reply):data.append({user: user_msg,assistant: reply,style: style_name})time.sleep(0.5) # 频率限制保护防止短时间内发送过多请求避免触发 API 的频率限制或被服务器封禁。except Exception as e:print(f生成失败{str(e)})return data 这里有个名为 cleaned_output.txt 的文件它是话题库每行有一个话题总共有一千行。程序把这一千行读入一个列表user_inputs中然后每次从这个列表里获取一个话题加入到消息列表并输入到大模型中。文件内容如下 2.3.3 对大模型生成的数据进行质量过滤上面的程序还有个质量过滤函数 is_valid_reply它实际上是人工设计判断规则看 AI 模型生成的内容是否符合要求这里包括了长度检查、关键词检查还有与样例的相似度检查代码如下 # #质量过滤函数 # def is_valid_reply(style, user_msg, reply):质量过滤规则添加空值检查# 基础检查if not reply or len(reply.strip()) 0:print(内容为空)return False# 规则1回复长度检查if len(reply) 3 or len(reply) 100:print(长度不符合要求)return False# 规则2风格关键词检查只对温柔风格做检查if style 温柔:key_words [呢, 呀, 啦, , , ]if not any(kw in reply for kw in key_words):# 若 any(kw in reply for kw in key_word) 为False说明若干个风格关键词一个都没有在模型回复中出现print(不包含关键词)return False# 规则3语义相似度检查ref_text next(msg[content] for msg in style_config[style][examples] if msg[role] assistant)# 假如style为温柔那么style_config[style][examples]是下面这样的# [# {role: user, content: 今天好累啊},# {role: assistant, content: 辛苦啦~ 要给自己泡杯热茶放松一下吗},# {role: user, content: 考试没考好...},# {role: assistant, content: 没关系的呀~ 下次一定会更好需要我陪你聊聊吗}# ]# # 如果做成列表生成式[msg[content] for msg in style_config[style][examples] # if msg[role] assistant]# 是下面这样的# [# 辛苦啦~ 要给自己泡杯热茶放松一下吗, # 没关系的呀~ 下次一定会更好需要我陪你聊聊吗# ]# # 这里 next(msg[content] for msg in style_config[style][examples] if msg[role] assistant)# 得到的是辛苦啦~ 要给自己泡杯热茶放松一下吗ref_vec embedding_model.encode(ref_text)reply_vec embedding_model.encode(reply)similarity np.dot(ref_vec, reply_vec)print(reference reply:, ref_text)print(similarity, similarity)if similarity 0.65:print(生成质量符合)return Trueelse:print(相似度过低)return False 我个人认为上面关于相似度检查的部分是有问题的因为它是拿模型的生成内容假设为A与输入给模型的样板假设为B计算相似度如果风格是温柔那么这里B是辛苦啦~ 要给自己泡杯热茶放松一下吗它是对今天好累啊的回复人工写的给模型的样例中的回复而A是模型对其他话题的回复根本就不是对同一个话题的回复它们比较相似度的意义何在我猜作者只想对比A和B的情感色彩但这里用的却是文本嵌入模型难道文本嵌入模型还能忽略文本内容只提取情绪特征我自己的改进策略是再引入一个情感分类模型判断AI生成结果的情感类型是否属于“温柔”如果是那么计算与前面生成结果的相似度相同提示词的生成结果问题要相同计算生成结果的相似度才有意义如果相似度大于阈值说明是重复则舍弃如果小于阈值则保留即通过了筛选。当然由于时间原因我没有尝试这个方案毕竟这需要找个能识别“温柔”和“毒舌”的情感判别模型出来。这里只对“温柔”风格的模型回复做关键词检查是因为“毒舌”风格的关键词不好找最开始的时候我给两种风格都设置了关键词 style_keywords {温柔: [呢, 呀, 啦, , , ],毒舌: [好家伙, 栓Q, 退退退, yyds, 无语子, u1s1, 菜, , ️]}key_words style_keywords[style]if not any(kw in reply for kw in key_words):# 若 any(kw in reply for kw in key_word) 为False说明若干个风格关键词一个都没有在模型回复中出现print(不包含关键词)return False然后两种风格各生成十次“温柔”风格的生成结果都符合要求但“毒舌”风格却被过滤了四次且四次均为关键词检查不通过开始生成毒舌风格数据... model reply: 这闺蜜怕不是塑料做的但撕破脸前先确认是不是误会毕竟真友谊难得别一冲动变孤家寡人哦~ 不包含关键词 -------------------------------------------------------------------------------- model reply: 退退退这是逼你上演现代版“逃婚记”啊‍♀️不过沟通是王道先试试心平气和地谈谈你的想法吧。️ reference reply: 好家伙你这是要把体重秤压成分子料理️ similarity 0.8036558 生成质量符合 -------------------------------------------------------------------------------- model reply: 退退退别当场撕X格局打开先收集证据再来个华丽反击 reference reply: 好家伙你这是要把体重秤压成分子料理️ similarity 0.76632047 生成质量符合 -------------------------------------------------------------------------------- model reply: 栓Q这剧情比狗血剧还狗血刷火箭算不算出轨得看你们之间的“道德协议”了。不过提醒一句别让虚拟的烟花炸伤现实的感情哦~ reference reply: 好家伙你这是要把体重秤压成分子料理️ similarity 0.8159087 生成质量符合 -------------------------------------------------------------------------------- model reply: 这简直是深夜“立体环绕声”现场啊你可以试试“咳嗽敲墙”二重奏提醒他“你的声音穿透力堪比超声波” 不包含关键词 -------------------------------------------------------------------------------- model reply: 亲戚这是CPU你呢掀桌不如反手一个“关你P事”套餐保命要紧别气坏了自己。不包含关键词 -------------------------------------------------------------------------------- model reply: 栓Q这领导是语音轰炸机吗装看不见除非你练成隐身术 reference reply: 好家伙你这是要把体重秤压成分子料理️ similarity 0.81442344 生成质量符合 -------------------------------------------------------------------------------- model reply: 这操作堪比手撕包菜啊奢侈品包可不是随便揉的当然得让她赔不然下次她敢借你房子开派对 reference reply: 好家伙你这是要把体重秤压成分子料理️ similarity 0.80493593 生成质量符合 -------------------------------------------------------------------------------- model reply: 怼他说“我这可是高级定制窗帘布你那审美也就配看塑料桌布” 不包含关键词 -------------------------------------------------------------------------------- model reply: 栓Q这操作比外星育儿还科幻赶紧召唤科学育儿联盟支援 reference reply: 好家伙你这是要把体重秤压成分子料理️ similarity 0.79023176 生成质量符合 --------------------------------------------------------------------------------被过滤的四个其实都是符合要求的都有那种“侃侃”的感觉但因为缺少关键词结果被过滤所以不再对“毒舌”风格做关键词检查。 2.3.4 程序入口最后是程序入口 # #执行生成添加容错 # if __name__ __main__:all_data []try:print(开始生成温柔风格数据...)gentle_data generate_style_data(温柔, 10000)all_data.extend(gentle_data)print(开始生成毒舌风格数据...)sarcastic_data generate_style_data(毒舌, 10000)all_data.extend(sarcastic_data)except KeyboardInterrupt:print(\n用户中断保存已生成数据...)finally:with open(style_chat_data.json, w, encodingutf-8) as f:json.dump(all_data, f, ensure_asciiFalse, indent2)print(f数据已保存有效样本数{len(all_data)})上面的程序需要调用两万次大模型账户里最好有20块钱以上并生成数据集需要10-12小时。对于“温柔”风格而言cleaned_output.txt 中的每个话题会输入到大模型十次当然并不是同一个话题连续问十次而是一千个话题遍历十次总共问了一万次。对于“毒舌”风格也是一样的操作。最后得到的有效数据可能没有两万条因为有些回答不符合要求被过滤掉。输出只截取最后一部分生成的数据集保存在 style_chat_data.json 中截图只截取开头和结尾的一部分共计九万多行。 2.4 数据转换本项目的微调框架我们使用 Xtuner之所以不用LLaMA-Factory是因为本项目用的是主观评估Xtuner 在训练过程中能看到主观评价的结果。接下来要把数据转成 Xtuner 的自定义数据格式转的代码可以让AI帮忙写 3 模型选型 3.1 候选模型与评估数据集确定好任务后接下来该如何选择适当的模型我们这个是对话风格任务不需要考虑逻辑性和推理能力所以可以使用3B以下的模型。另外由于我们是用中文进行聊天而 Llama 这样的模型其训练集大部分都是英文中文只占一小部分所以我们只考虑国内厂商的模型。今天是2025年6月13日我们只看最近一年发布3B以下的开源模型这些模型有Qwen3-1.7B2025年4月29日、Qwen2.5-1.5B-Instruct2024年9月19日、InternLM2.5-1.8B-Chat2024年7月4日稍后我们会测评这三款模型。我们需要对比这三个模型的语言理解与生成能力由于当前任务大多是短语对话因此测评数据集选用 FewCLUE_bustm_gen 和 FewCLUE_ocnli_fc_gen。FewCLUE_bustm_gen 用于二分类任务即判断两个句子的语义是否相似输入是两个句子标签是entailment相似或 not_entailment 不相似FewCLUE_ocnli_fc_gen 用于判断两个句子的逻辑关系输入依然是两个句子标签是它们的逻辑关系entailment蕴含/neutral中性/contradiction矛盾。当然还可以用其他数据集这两个数据集比较小所以用它们测评的时候速度比较快。本文的附录中介绍了对比不同模型的理解与生成能力时推荐使用的数据集。总的来说选什么尺寸的模型根据任务的复杂度来确定测评用的数据则根据与目标任务的相似程度确定。 3.2 模型评估找到 Internlm 的配置文件即 /data/coding/utils/opencompass/opencompass/configs/models/hf_internlm/lmdeploy_internlm2_5_1_8b_chat.py按如下方式修改 from opencompass.models import TurboMindModelwithChatTemplatemodels [dict(typeTurboMindModelwithChatTemplate,abbrinternlm2_5-1_8b-chat-turbomind,# pathinternlm/internlm2_5-1_8b-chat,path/data/coding/EmotionalDialogue/model_weights/Shanghai_AI_Laboratory/internlm2_5-1_8b-chat,# engine_configdict(session_len16384, max_batch_size16, tp1),engine_configdict(session_len16384, max_batch_size16, tp1, cache_max_entry_count0.4),gen_configdict(top_k1, temperature1e-6, top_p0.9, max_new_tokens4096),max_seq_len16384,max_out_len4096,batch_size16,run_cfgdict(num_gpus1),) ] 找到Qwen2.5-1.5B-Instruct的配置文件即 /data/coding/utils/opencompass/opencompass/configs/models/qwen2_5/lmdeploy_qwen2_5_1_5b_instruct.py按如下方式修改 from opencompass.models import TurboMindModelwithChatTemplatemodels [dict(typeTurboMindModelwithChatTemplate,abbrqwen2.5-1.5b-instruct-turbomind,path/data/coding/model_weights/Qwen/Qwen2.5-1.5B-Instruct,# engine_configdict(session_len16384, max_batch_size16, tp1),engine_configdict(session_len16384, max_batch_size16, tp1, cache_max_entry_count0.4),gen_configdict(top_k1, temperature1e-6, top_p0.9, max_new_tokens4096),max_seq_len16384,max_out_len4096,batch_size16,run_cfgdict(num_gpus1),) ] 找到qwen3的配置文件qwen3 只有0.6B的配置文件虽然没有1.7B的但我们可以对0.6B的进行修改即把 opencompass/opencompass/configs/models/qwen3/lmdeploy_qwen3_0_6b.py按如下方式修改 from opencompass.models import TurboMindModelwithChatTemplate from opencompass.utils.text_postprocessors import extract_non_reasoning_contentmodels [dict(typeTurboMindModelwithChatTemplate,# abbrqwen_3_0.6b_thinking-turbomind,abbrqwen_3_1.7b_thinking-turbomind,# pathQwen/Qwen3-0.6B,path/data/coding/EmotionalDialogue/model_weights/Qwen/Qwen3-1.7B,# engine_configdict(session_len32768, max_batch_size16, tp1),engine_configdict(session_len32768, max_batch_size16, tp1, cache_max_entry_count0.4),gen_configdict(top_k20, temperature0.6, top_p0.95, do_sampleTrue, enable_thinkingTrue),max_seq_len32768,max_out_len32000,batch_size16,run_cfgdict(num_gpus1),pred_postprocessordict(typeextract_non_reasoning_content)), ]上面三个配置文件在引擎配置的时候我都加了一个 cache_max_entry_count0.4主要是为了防止 KV Cache 占用太大导致显存溢出。但是加了 cache_max_entry_count0.4 之后由于缓存占比太小推理速度下降评估时间变长。如果你的GPU显存够大那就不需要加我自己用 24G 显存不加的话仍然会报显存不足最后调整cache_max_entry_count0.6才顺利完成评估。qwen3评估太花时间了其他两个模型很快就完成了评估偏偏qwen3花了将近一个小时原因我暂时没找到进入到opencompass项目目录下然后在终端输入 python run.py --models lmdeploy_internlm2_5_1_8b_chat lmdeploy_qwen2_5_1_5b_instruct lmdeploy_qwen3_0_6b --datasets FewCLUE_bustm_gen FewCLUE_ocnli_fc_gen --debug 可以看到qwen_3_1.7b 是这里的最强模型从它们的发布时间来看如果模型的尺寸相差不大则越往后发布的模型能力越强。附录对比不同模型理解与生成能力所用数据集要对比两个模型对中文的理解能力语义、逻辑、推理和生成能力流畅性、连贯性、信息量建议采用多维度、多任务的数据集组合。以下是按任务类型分类的推荐数据集及使用策略一、理解能力评测数据集 1. 语义理解文本匹配 BUSTM 任务判断句子对是否语义相同二分类例(今天天气不错, 今天天晴) → 相似能力重点近义词、句式转换识别能力 AFQMC蚂蚁金融语义匹配任务金融场景的句子对分类例(如何还款, 怎样还钱) → 相似能力重点领域适应性 2. 自然语言推理NLI OCNLI原生中文推理任务判断前提与假设的逻辑关系三分类例前提手机电量不足 → 假设需要充电 → 蕴含能力重点逻辑推理、常识理解 CMNLI中文多体裁NLI 任务多领域文本推理新闻/文学等能力重点跨领域泛化性 3. 阅读理解 CMRC 2018中文机器阅读理解任务从文章中提取答案片段抽取例文章“北京是中国的首都”问题“中国首都是” → 答案“北京”能力重点信息定位精度 C³Choice-Context-Challenge 任务多选问答需结合上下文推理能力重点多步推理、排除干扰项二、生成能力评测数据集 1. 开放域生成 LCSTS中文摘要生成任务生成新闻短摘要输入长新闻文本 → 输出1-3句摘要评测指标ROUGE-L自动人工流畅性评分 AdGen广告文案生成任务根据商品属性生成广告文案例输入“口红色号#999哑光质地” → 输出“经典正红高级雾面妆感”评测指标BLEU-4 信息完整性检查 2. 结构化生成 FewCLUE_bustm_gen/ocnli_fc_gen前文提及任务将分类任务重构为文本生成例输入句子对 → 输出标签词如“蕴含”评测指标准确率生成内容与标签的严格匹配 3. 对话生成 KdConv知识驱动对话任务基于知识图谱生成连贯多轮对话能力重点上下文一致性、知识注入能力 STC短文本对话任务生成单轮回复例输入“今天好热啊” → 输出“来杯冰咖啡吧”评测指标人工评分相关性、新颖性三、高阶能力评测数据集 1. 常识推理 CKBCommonsense Knowledge Base 任务问答需结合常识如下雨天出门要带 → “伞”能力重点隐含知识调用能力 2. 数学推理 Math23K 任务解中文数学应用题例“小明有5个苹果吃了2个还剩几个” → 生成“3”评测指标答案精确匹配 3. 长文本生成 CPED中国古典诗歌生成任务根据主题生成七言诗能力重点韵律控制、意象组织四、评测策略建议理解能力优先级任务先跑 OCNLI/CMNLI推理、CMRC 2018阅读理解模型需输出结构化结果标签/答案用准确率定量对比。生成能力优先级任务重点测 LCSTS摘要、AdGen文案、KdConv对话结合自动指标ROUGE, BLEU 人工评测随机采样100条评估流畅性/逻辑性。小样本场景测试使用 FewCLUE_bustm_gen16个训练样本观察模型在低资源下的泛化能力。易用性工具使用 Hugging Face Datasets 加载数据示例代码from datasets import load_dataset dataset load_dataset(clue, cmnli) # 加载CMNLI五、注意事项模型适配性若对比模型为纯生成架构如GPT-3优先选生成式任务LCSTS, AdGen若为理解-生成混合架构如T5可覆盖所有任务。公平性控制确保输入长度、训练轮次、提示词Prompt设计完全一致。中文特有难点在数据中加入测试中文特有表达的样本如成语理解画蛇添足→生成解释多音字歧义“行(xíng)业” vs “行(háng)列” 推荐基准组合理解能力OCNLI CMRC 2018 CKB 生成能力LCSTS AdGen KdConv 高阶挑战Math23K CPED 此组合覆盖语义、推理、生成、常识、数学、文艺六大维度可全面反映模型的中文能力边界。

查看全文

http://www.zqtcl.cn/news/224657/