当前位置：首页 > news >正文

APP网站建设什么用处教育网站制作视频

news 2025/11/14 16:54:44

APP网站建设什么用处,教育网站制作视频,各大免费推广网站,网络公司排名榜前言我带队的整个大模型项目团队超过40人了#xff0c;分六个项目组#xff0c;每个项目组都是全职带兼职#xff0c;且都会每周确定任务/目标/计划#xff0c;然后各项目组各自做任务拆解#xff0c;有时同组内任务多时则2-4人一组方便并行和讨论#xff0c;每周文档…前言我带队的整个大模型项目团队超过40人了分六个项目组每个项目组都是全职带兼职且都会每周确定任务/目标/计划然后各项目组各自做任务拆解有时同组内任务多时则2-4人一组方便并行和讨论每周文档记录当周工作内容平时群内随时讨论 1-2周一次语音会最后通过相关课程不断招募各项目组成员比如在我司审稿项目之前的工作中我们依次想尽各种办法微调以下模型(我之外包括且不限于阿荀、朝阳、三太子、文弱、鸿飞、apple、不染、贾斯丁等) 七月论文审稿GPT第1版通过3万多篇paper和10多万的review数据微调RWKV七月论文审稿GPT第2版用一万多条paper-review数据集微调LLaMA2 7B最终反超GPT4七月论文审稿GPT第2.5和第3版分别微调GPT3.5、Llama2 13B以扩大对GPT4的优势七月论文审稿GPT第3.2版和第3.5版通过paper-review数据集分别微调Mistral、gemma七月论文审稿GPT第4版通过paper-review数据集微调Mixtral-8x7b对GPT4胜率超过80% 如上文文末回复一读者的评论所说“近期我们一方面等llama2 70b的结果一方面准备提高下数据的质量了”故有了本文而如何提高数据质量呢便是我和我司审稿项目组在3月底登杜甫江阁时所确定的一个是提高review的质量(从而考虑到可以提高GPT对一篇篇paper的多个review做多聚一摘要出来的大review的质量由于是设计prompt从而让GPT做多聚一的摘要操作故可以优化下该prompt)一个是看有没办法可以拿到review出来之前更早期的论文版本总之对于4月和整个Q2而言除了RAG 2.0版(含通用文档理解)、机器人、两个agent项目之外论文项目组也有9个事待并行推进 1 70b的微调2 清洗prompt的优化3 论文早期版本的爬取4 review特异性的增强5 论文评分6 审稿新数据爬取7 金融审稿模型的微调8 论文翻译9 论文检索 idea提炼第一部分提升七月论文审稿模型效果的三大要素 1.1 让GPT对Review做多聚一操作的摘要prompt的优化如本文开头所说当我们把各种模型都微调一遍之后发现最终还是得回归到我司爬的数据上在针对review做多聚一之前只是经过简单初筛(比如去除过短的review)后的总paper数-30186份 2023Q4(含全部会议2018-2023)-23176份 2024Q1(含全部会议2017-2024)-7010份这里面ICLR、NeurIPS这两个会议的总数是24210份「相当于ICLR(2017-2024从某paperreview网页访问可以访问到2013-2016的iclr但相关的详细数据接口没有暴露这部分年份的数据所以只能取到2017-2024的iclr)和NIPS(2019-2023)的量还是很大的当然这个数据量是在多聚一之前的(也就是只去除了Review过短项后的)后续还会根据是否有对应paper、去除无效内容等进一步过滤还会再少一截」其中包含 2023Q4爬到的(含ICLR 2018-2023共14424份、NeurIPS 2019-2022共6347份)-20571份 2024Q1爬到的(含ICLR 2017/2021/2024共1653份、NeurIPS 2019/2021/2022/2023共1986份)-3639份让鸿飞爬取NIPS官方源的review数据共爬取有2485篇(2014-2020)初步去掉与上面30186份中重叠的18篇最终剩余2467篇那怎么提高数据质量呢其中一个便是提高review的质量在我们之前的一系列工作中我们针对一篇篇论文的多个review做多聚一且摘要出多个要点从而一篇paper 一条review最后就可以弄成qa对去微调开源模型而之前5k 15k条paper-review数据对中的review就是根据旧prompt 通过GPT3.5 16K摘要出来的但之前的旧prompt 比较简单就4个点重要性和新颖性可能被接收的原因可能被拒绝的原因其他改进建议现在想把review摘要的更好些好提高微调效果说白了如果摘要出来的review质量不够高会非常影响咱们微调模型的效果总之咱们的核心目标还是不断逼近顶会审稿人的视角以一针见血指出论文的问题、闪光点从而侧面帮助作者修订论文在经过反复看一系列论文的review意见之后我个人的反复琢磨以及七月平台上一系列顶会审稿人对审稿的意见外加和审稿项目组阿荀、朝阳等人的反复讨论之后暂定把摘要prompt优化如下(至于完整的prompt设计见七月官网的大模型商用项目之审稿GPT实战) ** How to evaluate the idea of the paper **, ** Compared to previous similar works, what are the essential differences **, ** How to evaluate the experimental results in the paper **, ** Possible reasons for its acceptance **, ** Possible reasons for its rejection **, ** Other suggestions for improving the quality of the paper **, and ** Other important review comments **. 总的思路就是对于一篇paper先看它的重要性、新颖性以及与众不同之处接着看实验是否充分有说服力然后总结闪光点、不足最后看如果改进看往哪几个方面做改进 1.2 论文早期版本的爬取我们之前爬的paper-review数据中paper大部分都是根据某个或某几个review意见而修改后的版本相当于paper是新paper可review还是旧review相当于没法做到paper与review的100%匹配这个问题曾一度困扰我们包括来自厦门大学NLP实验室的这篇论文《MOPRD: A multidisciplinary open peer review dataset其对应数据地址为dataset》也提到了这个问题 “大多数提供公开访问同行评审数据的期刊只呈现其论文的已发表版本而原始手稿通常是保密的。没有原始手稿许多与开放同行评审相关的研究将变得不可能。例如基于修订来研究审稿意见将毫无意义。毕竟在修订中已经采纳了审稿意见并解决了原始手稿中的相关问题。总之如果没有可靠地与原始手稿进行比较将无法充分理解审稿意见的有效性对于开放同行评审的研究审稿意见将变得不太有效” 顺带意外收获了一个可以获取各个学科审稿意见的网站即PeerJ 4.3日我又开始反复琢磨之前阿荀爬下来的review数据结果那晚在反复琢磨review数据时发现可爬到review对应的论文早期版本从而也就解决了审稿项目的这个大问题毕竟我们要的就是这种论文所对应的最早的审稿版本这样和review的匹配程度才能更高(至于如何具体爬取见七月官网的大模型商用项目之审稿GPT实战) 1.3 训练策略增强review特异性什么叫做特异性比如最左侧的review便是特异性而最右侧的review则丧失了特异性对于作者而言最希望看到的就是这种的放之四海而皆准的review // 待更自从我司于23年7月开始涉足论文审稿领域之后在业界的影响力越来越大所以身边朋友如发现业界有相似的工作一般都会第一时间发给我比如本文第二部分之康奈尔大学的reviewer2 当然我自己也会各种看类似工作的论文毕竟在大模型时代一个技术人保持竞争力的最佳方式就两点保持对最新技术/paper的跟踪每天各种大量实践/折腾/实验对于一个组织也是如此通过项目(整个小组 2-4人的小队伍双重协作)是提高组织战斗力的最佳方式不然各自为战比如本文第二部分的Reviewer2和第三部分的PeerRead同行之间的工作一定会互相借鉴的包括我们会学他们他们看到我们的工作后自然也会受到不小的启发第二部分康奈尔大学之论文审稿工作Reviewer2特异性很强对于论文审稿我司的思路是通过一系列paper-review对去微调一系列开源模型而对于review数据的处理更多是把一篇篇paper的多个review做多聚一的摘要操作且从中梳理出来4或7个要点然后基于这4-7个要点让微调后的模型去自动生成一篇篇新paper的review 而这4-7个要点就显得比较重要一方面要尽可能涵盖所有论文的核心特征这叫通用性比如斯坦福那篇论文让GPT4当审稿人梳理出来4个方面的要点重要性新颖性、可能被接收的原因、可能被拒绝的原因、其他重要改进建议二方面又要尽可能抓住每一篇具体paper的各自特色这叫特异性比如马上要介绍的康奈尔大学的reviewer2 总之这两方面在一定程度上是有点矛盾的所以需要想尽办法做好平衡。接下来咱们来具体看下康奈尔大学的reviewer2 2.1 REVIEWER2的整体训练流程与推理流程 2.1.1 REVIEWER2的整体训练流程 24年2月康奈尔大学通过此篇论文《Reviewer2: Optimizing Review Generation Through Prompt Generation》也提出了一个论文审稿模型Reviewer2其整体流程为(注意表示review的prompt表示review本身表示论文) 用PGE方法从人工review中生成预设问题数据(相当于从review当中提炼审稿人针对一篇篇paper所对应的关注问题点)相当于paper 》人工review 》通过PGE即llama2 70B提炼预设问题》预设问题然后使用 [paper, 预设问题] 数据训练得到一个能根据不同paper提出不同预设问题的模型相当于让模型A学会根据不同的paper提问(毕竟每篇review的预设问题不太一样)毕竟提问是门艺术即to produce a set of aspect prompts x1, ...xk for paper p that cover the aspects that a reviewer may comment on for this paper这里有比较重要的一点是可能会有读者疑问这个prompt到底是根据paper生成还是根据review去生成实际上可以这么理解即prompt的ground true是基于PGE方法从人工review当中生成的prompt而训练模型的时候(当然更包括推理)是根据paper去预测prompt 可能又有读者疑问那为何不人工根据一些paper标注其对应的「ground true版的prompt」然后再训练模型去预测prompt呢这点请读者先自行思考^_^。至于什么是PGE下文2.2节会重点阐述使用 [paper 产生的预设问题, review] 训练模型a) 即先把不同的paper输入模型来产生对应的预设问题(好引导或提示模型去输出与paper息息相关的review)b) 然后再把paper和预设问题输入模型来得到reviewc) 最终和人工review对比词的叠度以不断迭代模型且类似七月审稿GPT其也基于longlora的S2-Attn和FlashAttention2把llama2 70B的上下文长度扩展到了32k 2.1.2 Reviewer2的推理流程推理的时候在为新的论文生成评论时我们首先查询以获取review prompt 。然后我们查询以为生成的方面提示生成review 2.2 PGE在上下文示例下基于Review生成ground true版prompt(含其评估) 为了给每个review生成相应的promptReviewer2提出了带有评估的提示生成(Prompt Generation with Evaluatio简称PGE)流程包括生成步骤和评估步骤具体来说给定篇论文和相应的人工review「其中是论文的review数量即一篇paper一般都会有多个review比如一篇论文5个review」该流程的目标是在上下文数百个review-prompt的示例下生成一组review的prompt其中一个prompt对应一个review比如5个review则有5个对应的prompt 即对于review生成步骤生成一个prompt然后对生成的prompt进行评估评估在上下文25个review-prompt-score的示例下且基于一个5分制度完成对生成的prompt的打分(比如1-5分)如果得分为5那么对便存储在集合中否则重新生成提示整个过程跟self-instruct还是有点类似的(至于什么是self-instruct详见此文的2.1.2 什么是self-instruct方式提示GPT3/GPT3.5/GPT4的API收集数据 )下面更加细致的逐一阐述上述三个步骤 2.2.1 Prompt的具体生成基于数百个示例为了更好的根据review生成prompt咱们总得有些示例是不那怎么构建review-prompt的示例呢先机器生成然后人工注释最后示例生成后便可以初始化具体而言首先使用Llama-2-70B-Chat以zero-shot的方式为随机选择的100个review生成prompt「To construct these examples, we use Llama-2-70B-Chat (Touvron et al., 2023) to generate prompts for a randomly selected subset of 100 reviews in a zero-shot fashion 」然后通过删除prompt中与review不相关的问题且添加在review中涵盖但prompt中遗漏的问题并以与实际review中蕴含问题的开放式格式对齐等这3种方式来手动优化review prompt(we manually refine the prompts by removing irrelevant questions, adding missing questions that are covered in the review, and refining to align with the open-ended format of review questions) 以下便是一个review-prompt对的示例这些示例将在prompt的生成过程中用作初始上下文示例「即We initialize S with human-annotated examples that will be used as initial in-context examples during generation说白了为了提高提示生成的性能作者团队在review prompt生成的过程运用了上下文学习(in-context learning简称ICL」其中有两个小细节由于上下文示例是从中随机抽样的。随着更多的prompt生成并保存到中可用示例的池也扩大了(一开始中虽然只有100个review-prompt示例但可以不断扩大到数百个示例)确保了prompt的多样性As more prompts are generated and saved to S, the pool of available examples also expands, ensuring the diversity of the prompts. 且总是在满足模型上下文长度约束的同时采样最大可能数量的上下文示例We always sample the maximum possible number of in-context examples while satisfying the context length constraint 2.2.2 Prompt的具体评估以25个人工review-prompt-score示例为参考基准与生成类似Reviewer2在评估步骤中也应用ICL 使用Llama-2-70B-Chat根据5分制评估review-prompt对每个分数从1到5都有五个上下文示例(相当于总计有25个评分示例)。注意此处的上下文示例是手动构建的并在所有评估中保持一致「We use Llama-2-70B-Chat to evaluate the review-prompt pair based on a 5-point scale with five in-context ex-amples for each score from 1 to 5. The in-context examples (shown in Appendix C) are manually constructed and remain consistent across all evalutions」以下便是一个最终对所生成的review prompt评分为3分的示例(可想而知这样评分为3分的示例有5个) 且受到思维链提示的启发还会提示LLM在生成最终分数之前为分数生成解释以鼓励更准确的评估 2.2.3 Prompt的再生基于人工评分基准评判下得分不够则重新生成为了确保生成的prompt的质量如果得分不是 5则会重新生成prompt 由于生成prompt时的上下文示例是随机抽样而不是固定集合重新生成步骤保证了与之前的生成相比必会生成不同的prompt从而减少冗余(Since the in-context examples for generation are randomly sampled rather than a fixed set, the regeneration step is guaranteed to generate a different prompt compared to the previ-ous generations, minimizing redundancy) 最终我们每个review限制生成prompt 5次并且如果超过限制则不再生成。超过 90%的prompt在3次或更少的生成次数内达到 5分(We use a limit of 5 generations per review, and the review is excluded from further generation if it exceeds the limit. More than 90% of the reviews take less than or equal to 3 generations to reach a score of 5) 2.3 Reviewer2数据集的详细信息如下图所示对于Reviewer2的数据集其来源于多个会议来自PeerRead的CONLL-16和ACL-17来自NLPeer的 COLING-20和 ARR-22来自openreview的ICLR papers from 2017 to 2023来自papers.neurips.cc的NeurIPS papers from 2016 to 2020来自openreview的NeurIPS papers 2021 to 2022 综合3 4 5则意味着包含了ICLR 17-23 and NeurIPS 16-22的paper 对于每篇论文的评论我们遵循之前数据集的格式尽可能保留参考文献和官方评审员的元评审和最终决策等元数据信息 // 待更第三部分 PeerRead根据review给paper的各方面要点打分昨晚在思考如何评判一篇论文是否是好论文或是否可以中稿顶会然后无意中看到这篇论文A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications 可以好好读一下 // 待更

查看全文

http://www.zqtcl.cn/news/597635/