当前位置：首页 > news >正文

漳州台商投资区建设局网站二级a做爰片免费网站

news 2025/11/15 12:57:44

漳州台商投资区建设局网站,二级a做爰片免费网站,网络营销的特点是,垂直+网站开发MNBVC 地址#xff1a;https://github.com/esbatmop/MNBVC 数据集说明#xff1a;超大规模中文语料集#xff0c;不但包括主流文化#xff0c;也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品…MNBVC 地址https://github.com/esbatmop/MNBVC 数据集说明超大规模中文语料集不但包括主流文化也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集且在持续更新中。 WuDaoCorporaText 地址https://data.baai.ac.cn/details/WuDaoCorporaText 数据集说明WuDaoCorpora是北京智源人工智能研究院智源研究院构建的大规模、高质量数据集用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联为大模型训练提供坚实的数据支撑。 CLUECorpus2020 地址https://github.com/CLUEbenchmark/CLUECorpus2020 数据集说明通过对Common Crawl的中文部分进行语料清洗最终得到100GB的高质量中文预训练语料可直接用于预训练、语言模型或语言生成任务以及专用于简体中文NLP任务的小词表。 WanJuan-1.0 地址https://opendatalab.org.cn/WanJuan1.0 数据集说明书生·万卷1.0为书生·万卷多模态语料库的首个开源版本包含文本数据集、图文数据集、视频数据集三部分数据总量超过2TB。目前书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练。通过对高质量语料的“消化”书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出的优异性能。 SFT数据集 RefGPT基于RefGPT生成大量真实和定制的对话数据集地址https://github.com/DA-southampton/RedGPT 数据集说明包括RefGPT-Fact和RefGPT-Code两部分其中RefGPT-Fact给出了5万中文的关于事实性知识的多轮对话RefGPT-Code给出了3.9万中文编程相关的多轮对话数据。 COIG 地址https://huggingface.co/datasets/BAAI/COIG 数据集说明维护了一套无害、有用且多样化的中文指令语料库包括一个人工验证翻译的通用指令语料库、一个人工标注的考试指令语料库、一个人类价值对齐指令语料库、一个多轮反事实修正聊天语料库和一个 leetcode 指令语料库。 generated_chat_0.4M 地址https://huggingface.co/datasets/BelleGroup/generated_chat_0.4M 数据集说明包含约40万条由BELLE项目生成的个性化角色对话数据包含角色介绍。但此数据集是由ChatGPT产生的未经过严格校验题目或解题过程可能包含错误。 alpaca_chinese_dataset 地址https://github.com/hikariming/alpaca_chinese_dataset 数据集说明根据斯坦福开源的alpaca数据集进行中文翻译并再制造一些对话数据 Alpaca-CoT 地址https://github.com/PhoebusSi/Alpaca-CoT 数据集说明统一了丰富的IFT数据如CoT数据目前仍不断扩充、多种训练效率方法如lorap-tuning以及多种LLMs三个层面上的接口打造方便研究人员上手的LLM-IFT研究平台。 pCLUE 地址https://github.com/CLUEbenchmark/pCLUE 数据集说明基于提示的大规模预训练数据集用于多任务学习和零样本学习。包括120万训练数据73个Prompt9个任务。 firefly-train-1.1M 地址https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M 数据集说明23个常见的中文数据集对于每个任务由人工书写若干种指令模板保证数据的高质量与丰富度数据量为115万 BELLE-data-1.5M 地址https://github.com/LianjiaTech/BELLE/tree/main/data/1.5M 数据集说明通过self-instruct生成使用了中文种子任务以及openai的text-davinci-003接口,涉及175个种子任务 Chinese Scientific Literature Dataset 地址https://github.com/ydli-ai/csl 数据集说明中文科学文献数据集CSL包含 396,209 篇中文核心期刊论文元信息标题、摘要、关键词、学科、门类以及简单的prompt Chinese medical dialogue data 地址https://github.com/Toyhom/Chinese-medical-dialogue-data 数据集说明中文医疗对话数据集包括Andriatria_男科 94596个问答对 IM_内科 220606个问答对 OAGD_妇产科 183751个问答对 Oncology_肿瘤科 75553个问答对 Pediatric_儿科 101602个问答对 Surgical_外科 115991个问答对总计 792099个问答对。 Huatuo-26M 地址https://github.com/FreedomIntelligence/Huatuo-26M 数据集说明Huatuo-26M 是一个中文医疗问答数据集此数据集包含了超过2600万个高质量的医疗问答对涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。Huatuo-26M 是研究人员、开发者和企业为了提高医疗领域的人工智能应用如聊天机器人、智能诊断系统等需要的重要资源。 Alpaca-GPT-4: 地址https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM 数据集说明Alpaca-GPT-4 是一个使用 self-instruct 技术基于 175 条中文种子任务和 GPT-4 接口生成的 50K 的指令微调数据集。 InstructionWild 地址https://github.com/XueFuzhao/InstructionWild 数据集说明InstructionWild 是一个从网络上收集自然指令并过滤之后使用自然指令结合 ChatGPT 接口生成指令微调数据集的项目。主要的指令来源Twitter、CookUp.AI、Github 和 Discard。 ShareChat 地址https://paratranz.cn/projects/6725 数据集说明一个倡议大家一起翻译高质量 ShareGPT 数据的项目。项目介绍清洗/构造/翻译中文的ChatGPT数据推进国内AI的发展人人可炼优质中文 Chat 模型。本数据集为ChatGPT约九万个对话数据由ShareGPT API获得英文68000中文11000条其他各国语言。项目所有数据最终将以 CC0 协议并入 Multilingual Share GPT 语料库。 Guanaco 地址https://huggingface.co/datasets/JosephusCheung/GuanacoDataset 数据集说明一个使用 Self-Instruct 的主要包含中日英德的多语言指令微调数据集。 chatgpt-corpus 地址https://github.com/PlexPt/chatgpt-corpus 数据集说明开源了由 ChatGPT3.5 生成的300万自问自答数据包括多个领域可用于用于训练大模型。 SmileConv 地址https://github.com/qiuhuachuan/smile 数据集说明数据集通过ChatGPT改写真实的心理互助 QA为多轮的心理健康支持多轮对话single-turn to multi-turn inclusive language expansion via ChatGPT该数据集含有56k个多轮对话其对话主题、词汇和篇章语义更加丰富多样更加符合在长程多轮对话的应用场景。偏好数据集 CValues 地址https://github.com/X-PLUG/CValues 数据集说明该项目开源了数据规模为145k的价值对齐数据集该数据集对于每个prompt包括了拒绝正向建议 (safe and reponsibility) 拒绝为主(safe) 风险回复(unsafe)三种类型可用于增强SFT模型的安全性或用于训练reward模型。 GPT-4-LLM 地址https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM 数据集说明该项目开源了由GPT4生成的多种数据集包括通过GPT4生成的中英PPO数据可以用于奖励模型的训练。 zhihu_rlhf_3k 地址https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k 数据集说明该项目开源了3k条基于知乎问答的人类偏好数据集每个实际的知乎问题下给出了赞同数据较高chosen和较低rejected的回答可以用于奖励模型的训练。 hh_rlhf_cn 地址https://huggingface.co/datasets/dikw/hh_rlhf_cn 数据集说明基于Anthropic论文Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 开源的helpful 和harmless数据使用翻译工具进行了翻译。 chatbot_arena_conversations 地址https://huggingface.co/datasets/lmsys/chatbot_arena_conversations 数据集说明该偏好数据集包含20个LLM的输出其中包括GPT-4和Claude-v1等更强的LLM它还包含这些最先进模型的许多失败案例。包含来自超过13K个用户的无限制对话。 UltraFeedback 地址https://github.com/OpenBMB/UltraFeedback 数据集说明该数据集是一个大规模、细粒度、多样化的偏好数据集用于训练强大的奖励模型和批评者模型。该工作从各种资源包括UltraChat、ShareGPT、Evol-Instruct、TruthfulQA、FalseQA和FLAN数据集统计数据请参见此处中收集了约64k条提示。然后使用这些提示来查询多个LLM模型列表请参见此处并为每个提示生成4个不同的回复从而得到总共256k个样本。

查看全文

http://www.zqtcl.cn/news/311484/