廊坊市 广阳区城市建设局网站,郑州郑东新区,通化网站制作,网站过程文 | 白鹡鸰编 | 小轶从五月初到现在#xff0c;大约刷了八千篇Arxiv之后#xff0c;我发现我有毛病。当然#xff0c;这是读论文上头时的牢骚#xff0c;不是真心话#xff0c;只是说#xff0c;我在Arxiv上投入的精力的努力#xff0c;与我预计的收获不成正比。故事的… 文 | 白鹡鸰编 | 小轶从五月初到现在大约刷了八千篇Arxiv之后我发现我有毛病。当然这是读论文上头时的牢骚不是真心话只是说我在Arxiv上投入的精力的努力与我预计的收获不成正比。故事的起因是这样的作为一个博一的萌新学校和导师不会直接让你上手科研而是先上上课确保来自不同学校的同学们能够拥有相近的知识背景互相认识认识。但是当你的日常是上课的时候看着学长学姐们学术讨论实验跑得风生水起人总是会慌的。“天呐我已经是一个成熟的研究生了为什么每天还像本科生一样课课课我也要搞科研“然后想想除了课程和作业报告似乎确实没什么整块的时间可以静下心来研究最可行的只有每天看看论文了。下定决心的时候是5月由于各种课程的大作业开始陆续下发最终实际能干的事情就是通过RSS订阅[1]开始遍历Arxiv和一些领域相关Journal的论文。在开始做这件事情的时候我充满了干劲和对论文的美好期许“每天能够接触到所有研究者最新的idea和发现我就是时代的弄潮儿““那么多新发的方法研究与研究之间都是相通的可以把数理领域的前沿成果拿过来实现我们领域的研究问题这效果绝对杠杠的““顺带还可以练一练英语速读能力文科理科两手都抓太机智了“现在回头望去我就像个戏台上的老将军——浑身插满了Flag。Arxiv是北京时间每天上午九点更新美国时间的周末不更新。我订阅了CS领域下 人工智能 AI机器学习 ML计算机视觉 CV信息理论 IT 四个方向的论文。平均每天加起来这些领域会更新150篇上下周一会更多一点因此我每周大约会接收到800900篇论文推送。5月到7月中旬加起来推送的总量必然有8k以上。作为一个理智尚存的成年人我采取的策略是首先速览题目对于研究相关的、或者看起来很有意思的文章瞅一眼Abstract。如果Abstract挑不出毛病再打开原文更详细地阅读。综述类文章这类文章的价值是介绍一个方向的研究进展和前沿技术并总结研究难点痛点几乎不具有创新性。写得好的往往会直接投稿给期刊因此在Arxiv上出现频率不高。一篇好的综述除了方法更重要的是指出有待研究的空白。因此对于只是罗列方法总结不足的综述我都不会进一步阅读。理论/观点型文章显然这类文章最重要的就是它的观点和论证过程。一定要搞清楚文章的假设是哪些限制在哪如果不合理的话就不用看下去了。论证一般要么靠逻辑要么靠公式推导想很快把公式搞懂显然是不现实的但可以看看是基于哪些数学方法来决定是否值得细看。方法型文章这类文章的常见结果中包括“我们做到了xxx方面的SOTA”但是模型的评估指标有哪些和什么样的参考如何比较得出了这个SOTA往往暗藏玄机。所以看一眼模型构造如果不是眼熟的缝合怪再看一下实验实验没有太大问题再瞄一眼结果到底进步了多少有没有机理分析。这些全齐活了文章的具体方法才可能具有可信度。浏览方法是合理的实施过程是痛苦的。我看到了五花八门标题美丽开头让人心神荡漾实验结果或者方法一言难尽的文章。还有些投稿只描述了作者想达到的效果方法刚写了一小段实验还没跑导致我最终养成了开文章先看眼页数免得被画饼欺骗感情的好习惯。这两个月里各式各样的SOTA我见了上百篇近期的few-shotexplanable AI看起来都是研究热点。然而最终这大约8k篇的论文中我挑挑拣拣目前下载导入Mendeley打算好好研究的只有不到100篇。这样做的时间成本是多少呢假设每天我稳定读了150个标题这大约需要半个小时。这150个标题中有10篇能引起我的兴趣我花十五分钟过了一下它们的摘要。作为一个新手我对于摘要的判断能力还不是很强因此这10篇文章中我需要仔细地阅读58篇文章的introresultconclusion。这至少需要半个小时。最后由于我连续读了这么久文章我奖励自己就地躺平一刻钟。所以在Arxiv上刷文章我每天需要花一个半小时左右能够获取12篇可能有价值的文章。 而作为一个新手我的研究嗅觉未必足够灵敏也就是说在这些决定精读的这些文章中有50%以上的概率在继续阅读12小时之后我仍将一无所获。而 如果利用这些时间有目的地定向搜索特定领域的文章 参考文章的引用量我将更可能在同样的时间内了解更有价值的研究成果。在Arxiv上作为一个研究领域的新手面临的问题是选择太多了难以甄别有效信息。最初我试图从数理领域获得新的方法的设想并不成功。数理领域的breakthrough出现概率并不高而且想要将其他领域的方法迁移到自己的领域一方面获取方法的时间成本会成倍地增长另一方面踩雷的风险绝不低。作为一个能够流畅读写论文的研究生绝对不要指望用Arxiv能对英语水平有多少提升。 很简单因为Arxiv上的论文在没有经过会议和期刊对语言的筛选打磨时英语质量着实参差不齐。目前英语词汇量在1w左右的我感受到的瓶颈主要来自词汇的使用不够多样化导致的语言生硬以及做不到快速逐行阅读。而论文能让人锻炼快速阅读的部分并不多很多内容都是要边思考边看的。论文作者也未必是Native speaker很可能写文章的时候也词穷。对于这个个人问题最近摸索的结论是看CNN和BBC的新闻对语言的提升效果远好于读论文。总而言之Arxiv上良莠不齐对于研究领域的新手博一博二及以下来说并不应该以刷Arxiv作为信息获取的主要渠道。我的导师在听说我的计划的时候曾经劝阻过我“你现在不应该大量漫无目的地阅读文献。而是应该努力寻找可能给你提供新的研究灵感或者教会你研究方法的论文。“也就是说搜索特定词条下的论文和Tutorial对我这个阶段的研究生帮助会更大。Arxiv在现阶段更适合作为检索是否存在idea撞车的数据库而非图书馆。至于领域中的老手刷Arxiv的时间成本应该显著降低很多方法只要大致浏览就能理解但若要紧跟研究潮流每天12小时的阅读应该还是少不了的。具体细节就等我能看到他们眼中的风景时再来和各位分享吧。不过呢Arxiv上乐子还是不少的。可以这么说如果回到两个月前我不会开始刷Arxiv但在经历这么多痛苦逐渐摸索到一些门道之后的现在我还是打算继续刷下去的。希望接下去Arxiv能提升我甄别论文的能力此外我会对有价值的论文做一些笔记从而提升自己的理解概括能力。本文描述的读文献方式“导师见打”非搞笑人士请勿模仿萌屋作者白鹡鸰白鹡鸰jí líng是一种候鸟天性决定了会横跨很多领域。已在上海交大栖息四年进入了名为博士的换毛期。目前以图像语义为食但私下也对自然语言很感兴趣喜欢在卖萌屋轻松不失严谨的氛围里浪~~形~~飞~~翔~~知乎ID也是白鹡鸰欢迎造访。作品推荐NLP太卷我去研究蛋白质了~谷歌40人发表59页长文为何真实场景中ML模型表现不好学术工业界大佬联合打造ML产品落地流程指南寻求报道、约稿、文案投放添加微信xixiaoyao-1备注“商务合作”后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1].^RSS (Really Simple Syndication) 是一种消息来源的格式规范网站可以按照这种格式规范提供文章的标题、摘要、全文等信息给订阅用户用户可以通过订阅不同网站 RSS 链接的方式将不同的信息源进行聚合在一个工具里阅读这些内容。