无锡网站制作哪里有,招聘网站开发计划,合肥网站营销,沈阳seo网站管理一、背景
前段时间在搞毕业论文的选题#xff0c;最头疼的就是大量的文献检索和阅读#xff0c;从研究的角度上我们可以将文献分为四类#xff1a;
理论文献#xff1a;为研究提供理论的框架和基础的文献。这些文献可能并不会和所做的研究直接相关#xff0c;甚至由于理…一、背景
前段时间在搞毕业论文的选题最头疼的就是大量的文献检索和阅读从研究的角度上我们可以将文献分为四类
理论文献为研究提供理论的框架和基础的文献。这些文献可能并不会和所做的研究直接相关甚至由于理论发展过程等原因可能是属于另一个研究领域的文献并且由于很多学科理论和实践发展关系不一一些实证研究所依赖的理论都是较早的文献。背景文献帮助研究者更好地认识和理解所要研究的现实问题的文献与资料。这些文献未必与所要进行的研究直接相关但却是认识这一研究问题不可或缺的背景资料。这些内容可能涉及较多类型的文献媒介诸如政策文本、新闻、时事评论、研究综述等。方法论文献为研究工具、技术手段提供支持的文献。方法论文献在大多数期刊中已经被认为是独立于研究文章的一类文献主要用于陈述方法的技术基础、应用过程以及其应用价值等。核心文献即与要进行的研究在研究问题、研究框架上最相关的文献。一般而言就是文献综述部分对于主要研究问题的相关研究。
各种检索工具用了一遍之后整体感觉就是两大痛点不能兼顾 1、文献的覆盖率不能漏掉重要文献 2、文献的聚焦度不能大海捞针参杂太多无用结果。
很多研友推荐的connected papers这个工具确实有过人之处输入一篇论文的标题它会为你构建一个该领域类似论文的图谱。你可以从图谱中发现你感兴趣领域的趋势对领域内文献引用动态有一个真实的、可视化的理解并对最新发表的重要论文工作及时进行跟进。最关键的是检索出来的文献关联度非常非常高。
我就很好奇背后的原理闲暇时间利用MONGODB尝试建立类似项目欢迎 LIBRARIES S2 -Libraries S2是一个可视化工具可以帮助研究人员和应用科学家找到与其工作领域相关的学术论文。https://s2.libraries.cn/拿到授权key之后花了20多天时间把全部2.14亿篇文献数据库下载下来以后20TB的jsonl文件我整个人都懵逼了这不是一台消费级的机器可以伺候的规模啊。
二、如何低成本发布这些数据呢
海量数据平台基本分为两类查询型和分析型。分析型对计算资源没有查询型敏感可以想象每秒分析一次已经很变态了但是每秒10万次的查询稀松平常。
这次任务目的是本地化部署查询服务以替代官方API提升服务稳定性、突破限制和提高响应速度。
机器配置centos7.816核心、32GB内存
提到JSON 的数据处理大部分人想到的一定是MONGODB。提到MOGNODB 的特长必须提到JSON 在数据库处理的格式中我们大多习惯关系型的数据的表达方式而在除了数据关系型的二维表格的数据表达的方式以外更加简便的流行的数据格式的表达是 JSON JSON即JavaScript对象表示法是一种易于人类阅读的数据交换格式尽管JSON是基于JavaScript编程语言标准的一个子集但它完全独立于语言。
无论是ORACLE 还是 MYSQL 到POSTGRESQL 在JSON 的处理上都各有千秋但只要到实际的工作中我们大多不敢去用这些传统的数据库来处理JSON 或者说他们这些数据库无法给我们信任感。
1 量量是一个MOGNODB 的特点一个表可能有200万5000万1个亿 这些都是传统数据库可以处理的内容但是如果我告诉你10个亿呢100个亿呢此时传统数据库基本上就没有了声音留下的只有MONGODB 还可以对你这些要求进行支持。基于JSON 数据的特点要不很小要不很大尤其在一些第三方的信息传输或日志的记录中MOGNODB 存储的数据量非常大可能每秒就是几万条数据的进入而且是持续性的。很容易一个表就能达到成千上万的小CASE。
2 存在数据进来后如何能存得下这些数据是另一个能力数据被压缩的很小这是mongodb的另一个特性基于这个特性mongodb 通过以下方式来完成这个工作
使用BSON格式MongoDB存储数据时采用了BSONBinary JSON格式这是一种类似JSON的二进制序列化数据表示。BSON格式在保留JSON可读性的基础上提供了更紧凑的二进制表示有助于提高存储效率。
支持多种压缩算法MongoDB支持多种数据压缩算法如Snappy、zlib等。这些压缩算法能够有效降低磁盘空间占用提高存储的压缩比。
索引压缩MongoDB还对索引进行了压缩处理以减少索引所占用的磁盘空间。通过压缩索引可以提高查询效率并节省存储空间。
分片技术MongoDB使用分片技术将数据分布在多个服务器上。这不仅有助于水平扩展还可以优化存储空间的利用从而提高整体的压缩比
这些能力看似一般但是这些能力的组合让其他的数据库基本没有了声音因为他的确是实实在在的让你看到了结果。本次任务中与jsonl原文件相比导入MongoDB之后体积压缩到了60%左右这包括了索引。
3 快这单又是MONGODB的一个特点在传统数据库的慢查询都在1秒进行标定的时候 MONGODB 的慢查询基本在500ms也就是说mongodb 从未把自己的数据处理能力和 传统的那些数据库进行对标而是将自己的性能标定在 传统数据库 和 REDIS 缓存型数据库之间的一个标定人设。所以一般我们发现 MONGODB 的数据处理速度在 500毫秒以外的情况下优化就开始了。由于本次任务核心是海量数据的简单查询其实就是对paperId这个整型字段的匹配加索引后检索效率非常高2.14亿条数据基本上200毫秒左右就能搞定。
4 多元化的发展MongoDB Atlas 是MongoDB官方提供的一种托管式数据库服务。它让你可以方便地在主流云服务商如Amazon Web Services、Google Cloud Platform和Microsoft Azure上部署、管理和扩展MongoDB数据库。
MongoDB Atlas 提供了以下特点和优点
简化部署使用MongoDB Atlas你可以轻松地创建和部署MongoDB数据库。图形化界面使得配置和管理变得更加简单。自动化运维Atlas自动处理数据库日常运维任务如备份、修复、监控和性能调优等让开发者可以专注于应用程序本身而无需关心数据库管理细节。安全性Atlas提供多层次的数据库安全保障包括网络隔离、加密、用户认证和访问控制等。这有助于确保你的数据得到充分保护。弹性伸缩根据实际需要MongoDB Atlas可以轻松地进行水平和垂直扩展。你可以按需调整集群大小和性能以满足应用程序的要求。全球分布Atlas支持跨区域的数据分布以便最佳地部署你的应用程序。这有助于降低延迟提高数据冗余并确保高可用性。
5 更可靠和更智能的 HA 高可用和读写分离包括数据冗余、数据节点故障的自动迁移并且速度极快、读写分离的控制可在每条数据的写入中进行设定、可以实现shard storage 方式中的独立分离并且不需要中间件的支持。