当前位置：首页 > news >正文

自适应网站建设选哪家wordpress 获取链接

news 2025/11/15 0:07:44

自适应网站建设选哪家,wordpress 获取链接,网站建设存在的问题及解决办法,企业网络搭建与应用今天发烧睡了一天T^T#xff0c;睡醒后突然想起这个都快凉透的订阅号#xff0c;刷了刷知乎#xff0c;刷到了这个问题知乎#xff1a;如何打造高质量的机器学习数据集#xff1f; https://www.zhihu.com/question/333074061/answer/773825458于是就有了暖暖卖萌屋的冲动(… 今天发烧睡了一天T^T睡醒后突然想起这个都快凉透的订阅号刷了刷知乎刷到了这个问题知乎如何打造高质量的机器学习数据集 https://www.zhihu.com/question/333074061/answer/773825458于是就有了暖暖卖萌屋的冲动(∇)无论是做研究还是解决业务问题做数据集都是绕不开的问题。很多刚入行的同学觉得发布一个数据集是最容易灌水的了燃鹅如果你真的做过就会发现随意产生一个数据集很容易但是若以解决实际问题或让大家能在上面磕盐玩耍为目的来产生一个能用的、质量高的、难度适中的数据集一点都不容易超级费时费脑子甚至费钱好不好(╯°□°╯︵┻━┻虽然并没有刻意的研究数据集该怎么做不过因为项目或研究需要已经被赶鸭子上架的做了近10个数据集了不过只是在问答、对话和一些分类问题上做过所以像私信箱里“如何构建知识图谱”这类问题就请放过小夕吧╮(▽””)╭由于没有很刻意的研究过这个问题所以就分享几个个人觉得比较重要的点吧分别是什么是高质量基本工具数据与标签来源适可而止的预处理验证可用性尽早构造数据集迭代闭环关于复杂NLP任务什么是高质量刚入坑的一些小伙伴可能会以为“高质量”“超级干净”于是为了追求“高质量”而疯狂的预处理最后哭了╮(╯▽╰)╭。做数据集一般有两种动机。一种是为了research也就是为了造福广大研究人员以及推动领域的进步不得不说SQuAD的发布对NLP这一波研究热潮的推动作用还是蛮大的另一种就是为了使用数据驱动的方法来优化业务指标或解决项目中实实在在存在的问题。这两个看似不太相关的目的背后对“高质量”的定义确是非常相近的那就是解决问题只不过对后一种目的来说问题一般来源于线上系统一般来说在做数据集之前一般已经存在一套系统了为了让系统冷启动一般先开发一套规则驱动的系统系统上线后自然会产生日志分析其中的badcase便可以知道哪些问题是现有系统搞不定的这些问题就可以考虑使用数据驱动的方法来解决于是需要做数据集了。而解决这些问题就是你做数据集的第一目标啦。而对于前一种目的来说问题一般来源于学术界的研究现状现阶段的NLP研究多为数据驱动的甚至说数据集驱动的。虽然这不是一个好现象不过也不得不承认很大程度上推动了NLP的发展和研究热潮。当现有的数据集无法cover领域痛点或无法发挥数学工具潜力或已经被解决掉的时候就需要一个新的数据集更确切的说是新的benchmark了。换句话说还有哪些问题是行业痛点问题或可以进一步挖掘现阶段数学工具的潜力或现有数学工具的现发展阶段还没法很好的解决该问题这应该是做一个高质量数据集前首先要考虑的问题。想想2015年的SNLI[1]、2016年的SQuAD[2]、2018年的GLUE[3], CoQA[4]再到如今的SuperGLUE[5], MRQA(https://mrqa.github.io)都是问题驱动的当现有数据集不足以cover问题痛点或无法满足数学工具潜力或上一个问题已经被解决的差不多的时候就会有新的数据集冒出来解决下一个痛点问题。在明确要解决的问题后数据集的质量也就保障了一半剩下的一半就要看这个数据集怎么做啦。这里面最关键的问题是数据与标签来源的选择以及预处理程度的把握。除此之外迭代闭环的构建以及对复杂NLP任务的处理也会对问题解决的效率和质量产生非常重要的影响。下面开始依次介绍(~∇)-☆基本工具所谓工欲善其事必先利其器只要不是太着急在做数据集之前先掌握一些好用的工具和tricks可以大大减少无谓的重复和低效劳动提高迭代效率。github写爬虫和清洗最原始数据之前先在github找一下正则表达式文本清洗利器不解释Hadoop/Spark千万级以上的语料就别去为难你的小服务器了vim分析样本专用。数据集只有几万或一二十万的话vim性能一般还是够用的不过默认的vim配置是比较鸡肋和反人类的需要事先熟悉和配置好。要是跟vim过不去其他带正则搜索和高亮显示的性能别太差的编辑器也okawk,grep,cut,wc等命令行工具分析样本专用。数据集大了你的vim就罢工了当然你要是跟这些命令过不去也可以在ipython里玩只不过写代码效率更低而且分析结果保存起来更麻烦一些再就是别来open(file).readlines()这种神操作就好ipython screen/tmux在分析一些重要的数据集统计特性如样本长度分布时开个vim写python脚本会很低效数据集一大的话反复IO更是让人无法忍受的。因此开个ipython把数据集或采样的一部分数据集load进内存里再进行各种分析会高效的多。另外为了避免ssh断开后从头重来可以把ipython挂在screen或者tmux窗口里。当然啦load进来的数据比较多时记得时不时的del一下无用的中间结果以免把服务器内存撑爆。哦对记得了解一些常用的magic命令如%save可以很方便的对复杂操作进行备份。数据与标签来源对数据集质量产生第二关键影响的就是数据和标签来源的选择了。其中数据可以通过人工构造、撰写的方式来产生也可以从互联网上爬取或对公开数据集进行二次加工得到标签同样可以人工标注也可以远程监督的方式来获取。人工构造和标注最容易想到的方式就是数据和标签都来源于人工啦(∇)可惜小夕并没有资金去众包平台上帮你们积累经验( ́︿ ̀)对于很多相对简单的NLP任务数据一般在互联网上总能找到合适的但是也有一些任务的数据很难在互联网上接触到一般情况下只能人工精心构造比如自然语言推理任务型对话中的大部分子任务分词、NER、抽取等一些序列标注任务。如果有小伙伴想系统的学习标注小夕推荐一本之前在图书馆刷过一半的一本书叫《Natural Language Annotation》中文名貌似叫《自然语言标注用于机器学习》。这本书写的挺赞的还因此怼过一次不太会标注的PM小姐姐(//∇//)\希望她不会看我知乎hhhh还好对于大部分nlp任务而言基本都能从互联网上找到合适的数据源或在已有的公开数据集的基础上加以改造就可以产生。爬如果要自己爬英文语料的话可以通过国外的twitter、quora、wiki、reddit等网站按需爬取甚至直接下载官方提供的数据获取脚本满足不了需求的话可以在github上自己搜下基本总能找到一些奇奇怪怪的第三方爬虫绕过限制emmm怎么有种教别人犯罪的感觉。如果目标数据是中文当然国内也会有微博、贴吧、豆瓣、百度百科、知乎等网站坐等被爬啦。当然啦Twitter、微博、贴吧这类网站的缺点就是灌水内容太多爬完记得去github找相应的预处理脚本瘦瘦身。注意别用那些太过浮夸的脚本处理的太干净可能会有问题后面会讲原因噢改讲真自己爬数据真是dirty work超级超级多尤其是你要爬的数据量灰常大或者去爬一些不那么主流的网站的时候所以小夕更加推荐的还是先从现有的数据集想办法啦拿来现成的然后一顿改改改绝对可以省不少力其实很多数据集都是这样“偷懒”做成的比如早期Socher把只有1万样本的情感分类数据集MR[16]用parser将MR里的句子给分解为短语、子句等再分别标注于是就变成了20多万样本量、多粒度的SST[17]╮(▽””)╭最近也恰好刷到一篇做文本风格控制的paper[18]同样也是用了parser将Yelp情感分类数据集[19]拆解后疯狂加工变成了结构-文本的风格化文本生成数据集parser真是个造数据集的好东西。总之玩过一次就知道改比爬方便多啦╮(╯▽╰)╭远程监督在打标签方面最容易想到的当然还是花钱众包不用说了下一个方法。更加经济可用的方法就是远程监督了这方面的可玩性就非常大啦脑洞有多大标注质量就会有多高做好远程监督的前提就是提一个靠谱的假设比如“给定一个query-answer pair如果answer string在搜索引擎召回的某document出现那么该document可以回答该query”于是有了机器阅读理解数据集TriviaQA[6]、searchQA[7]再比如“一条Twitter中包含的emoji可以反映这条Twitter的细粒度情感”于是有了情感分类数据集TwitterSentiment[8]和情感可控对话生成数据集Mojitalk[9]。如果不放心的话自己采样一些样本粗略统计一下你提出的假设成立的样本占比只要大部分情况下成立就是有希望的而后再对假设增加一些细节性的约束比如TriviaQA里的answer必须在doc中高频出现mojitalk里的带多媒体信息的Twitter直接丢掉多emoji时只看最高频的emoji等在一个靠谱的假设下经过几番小迭代往往就可以一个能用的数据集啦。总之玩好远程监督也就是要掌握逆向思维忘掉“标注”这个词把思维改成“握着标签找数据“。好啦先休息五秒你懂滴(↓∇)↓适可而止的预处理其实在做数据集这个事情上有“洁癖”并不是一件好事尤其是当语料的lexical diversity semantic richness比较强的时候一条看似让数据集更干净的正则表达式很可能沙雕了一些跟类别标签相关的有效模式导致一些本来成立的X-Y的映射关系因此消失了减少了模型对抗噪声的学习机会你无法消除所有噪声但是却消除了很多模型识别噪声适应噪声的学习机会这方面小夕一把辛酸泪呀曾经花了半下午时间写了几十条清洗规则结果model更难收敛以及开发集表现更差了。最终发现数据量和模型都不是太小的情况下遵从最少预处理原则一般就够了除了一些常规操作比如滤掉HTML标签、URL、脱敏、去重、截断等小夕一般只对如下情况进行处理导致了“标签泄漏”这种情况容易发生在任务简单、标签典型的场合数据源比较多时尤其容易踩坑。比如你任务的目标是让模型通过文本语义判断情感那就不要对emoji、颜文字手下留情了严格控制它们在数据集中的比例。导致了样本过长比如连续100个相同的emoji、哈、啊等样本中出现了预留的功能词比如BERT中的[UNK],[PAD],[CLS],[SEP]之类的当然如果你的数据集是生成任务相关记得滤掉黄反内容,。对于一些高频错别字一堆点点点之类的让你觉得dirty的东西没特殊需求的话就放过它们吧。。。真想彻底消除它们的话就换数据源啊喂不要妄想以一人之力对抗广大人民群众产生的辣鸡验证可用性尽早构造数据集迭代闭环无论是人工标注的还是远程监督标注的数据集看起来做好了不代表就是可用的如果标注的噪声太大或者标签边界太过模糊大量标注错误或标注规则写的太松、太模糊导致人都分不清某几个类别之间的区别很可能再复杂的模型都在这份数据集上无法收敛反之如果数据集中有“标签泄漏”比如你用emoji远程监督构造了情感分类数据集最后却忘了滤掉emoji或标签与内容有非常直接的映射关系类别太过具体或标注规则写的太死那就会导致一个非常简单的模型都会轻易的把这个数据集刷到近乎满分那这个模型学到的知识基本是没有什么实际意义的换言之这么简单直接的任务其实几条规则几行代码就搞定了完全没必要做数据驱动的模型训练。因此绝对不要抱着将数据集一次做成的心态而是要尽早构造一个“生成数据集-跑baseline-badcase study-更新策略-重新生成数据集”的闭环。注意baseline别选的太麻烦那种对各种超参敏感的模型还是算了吧最好是已被普遍验证有效的、有开源代码的、上手轻松的、基本不用调参就效果还可以的模型比如BERT系列。这里要注意侧重点在迭代的早期让baseline能在你的数据集上正常收敛是第一目标中期则是关注baseline在开发集上的表现表现太好要留意标签泄漏或数据泄漏X中出现了Y或忘记去重表现太差调调参后期则是更多关注badcase了看看badcase中更多的是样本问题标注噪声还是真的模型能力不够。关于复杂NLP任务当然啦上面其实都说的比较宽泛其实在不同的NLP问题上做数据集可能会很不一样。像一些简单NLP任务如文本分类等基于上面的基本原则就差不多了但是一些复杂NLP任务如任务型对话、知识图谱相关哪怕完全人工产生和标注都不好做的。比如任务型对话相关的数据集很难使用远程监督这种偷懒的方式来构造样本和标签的产生可能都很难脱离人力标注。有兴趣的小伙伴可以参考MultiWOZ[10]这个数据集cover了DST、act-to-text generation和context-to-text generation这三个任务型对话中的子任务的paper里面对machine-machine如M2M[11]、machine-human如DSTC系列[12][13][14]、human-human如ATIS[15]WOZ系列[10]这三种协同构造任务型对话数据集的方式总结的很到位会让你感受到产出一个高质量的任务完成型对话数据集是一个很有挑战的工作自己从头摸索的话可能到头来只会收获一脸懵逼╮(▽””)╭所以面对一些比较复杂的NLP任务的时候一定一定要记得先精读一下最新最权威的数据集的paper这类数据集的构建经验可能整个微信和知乎也找不到几篇的噢╮(╯▽╰)╭参考文献[1] Bowman S R, Angeli G, Potts C, et al. A large annotated corpus for learning natural language inference[J]. arXiv preprint arXiv:1508.05326, 2015.[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000 questions for machine comprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.[3] Wang A, Singh A, Michael J, et al. Glue: A multi-task benchmark and analysis platform for natural language understanding[J]. arXiv preprint arXiv:1804.07461, 2018.[4] Reddy S, Chen D, Manning C D. Coqa: A conversational question answering challenge[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 249-266.[5] Wang A, Pruksachatkun Y, Nangia N, et al. Superglue: A stickier benchmark for general-purpose language understanding systems[J]. arXiv preprint arXiv:1905.00537, 2019.[6] Joshi M, Choi E, Weld D S, et al. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension[J]. arXiv preprint arXiv:1705.03551, 2017.[7] Dunn M, Sagun L, Higgins M, et al. Searchqa: A new qa dataset augmented with context from a search engine[J]. arXiv preprint arXiv:1704.05179, 2017.[8] Go A, Bhayani R, Huang L. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, Stanford, 2009, 1(12): 2009.[9] Zhou X, Wang W Y. Mojitalk: Generating emotional responses at scale[J]. arXiv preprint arXiv:1711.04090, 2017.[10] Budzianowski P, Wen T H, Tseng B H, et al. Multiwoz-a large-scale multi-domain wizard-of-oz dataset for task-oriented dialogue modelling[J]. arXiv preprint arXiv:1810.00278, 2018.[11] P Shah, D Hakkani-Tur, G Tur, A Rastogi, A Bapna, N Nayak, and L Heck. 2018. Building a conversational agent overnight with dialogue self-play. arXiv preprint arXiv:1801.04871.[12] Jason Williams, Antoine Raux, Deepak Ramachan- dran, and Alan Black. 2013. The dialog state track- ing challenge. In Proceedings of the SIGDIAL 2013 Conference, pages 404–413.[13] M. Henderson, B. Thomson, and S. J. Young. 2014b. Word-based Dialog State Tracking with Recurrent Neural Networks. In Proceedings of SIGdial.[14] Matthew Henderson, Blaise Thomson, and Jason D Williams. 2014c. The third dialog state tracking challenge. In Spoken Language Technology Work- shop (SLT), 2014 IEEE, pages 324–329. IEEE.[15] Charles T Hemphill, John J Godfrey, and George R Doddington. 1990. The atis spoken language sys- tems pilot corpus. In Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania[16] B. Pang, L. Lee. 2005. Seeing stars: Exploiting class relationships for sentiment categorization with re- spect to rating scales. In Proceedings of ACL 2005.[17] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. Manning, A. Ng, C. Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Tree- bank. In Proceedings of EMNLP 2013.[18] Oraby S, Harrison V, Ebrahimi A, et al. Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG[J]. arXiv preprint arXiv:1906.01334, 2019.[19] Zhang X, Zhao J, LeCun Y. Character-level convolutional networks for text classification[C]//Advances in neural information processing systems. 2015: 649-657.

查看全文

http://www.zqtcl.cn/news/28811/