龙港做网站,建设部网站中淼工程有限公司,家具网站设计方案,世界上最好的地图软件Python 适合大数据量的处理吗#xff1f; python 能处理数据库中百万行级的数据吗#xff1f;处理大规模数据时有那些常用的python库#xff0c;他们有什么优缺点#xff1f;适用范围如何#xff1f;需要澄清两点之后才可以比较全面的看这个问题#xff1a;1. 百万行级不… Python 适合大数据量的处理吗 python 能处理数据库中百万行级的数据吗 处理大规模数据时有那些常用的python库他们有什么优缺点适用范围如何 需要澄清两点之后才可以比较全面的看这个问题 1. 百万行级不算大数据量以目前的互联网应用来看大数据量的起点是10亿条以上。 2. 处理的具体含义如果是数据载入和分发用python是很高效的如果是求一些常用的统计量和求一些基本算法的结果python也有现成的高效的库C实现的和并行化的如果是纯粹自己写的算法没有任何其他可借鉴的什么库也用不上用纯python写是自讨苦吃。 python的优势不在于运行效率而在于开发效率和高可维护性。针对特定的问题挑选合适的工具本身也是一项技术能力。 我很喜欢用python用python处理数据是家常便饭从事的工作涉及nlp算法推荐数据挖掘数据清洗数据量级从几十k到几T不等我来说说吧 百万级别数据是小数据python处理起来不成问题python处理数据还是有些问题的 Python处理大数据的劣势 1. python线程有gil通俗说就是多线程的时候只能在一个核上跑浪费了多核服务器。在一种常见的场景下是要命的并发单元之间有巨大的数据共享或者共用例如大dict多进程会导致内存吃紧多线程则解决不了数据共享的问题单独的写一个进程之间负责维护读写这个数据不仅效率不高而且麻烦 2. python执行效率不高在处理大数据的时候效率不高这是真的pypy一个jit的python解释器可以理解成脚本语言加速执行的东西能够提高很大的速度但是pypy不支持很多python经典的包例如numpy顺便给pypy做做广告土豪可以捐赠一下PyPy - Call for donations 3. 绝大部分的大公司用java处理大数据不管是环境也好积累也好都会好很多 Python处理数据的优势不是处理大数据 1. 异常快捷的开发速度代码量巨少 2. 丰富的数据处理包不管正则也好html解析啦xml解析啦用起来非常方便 3. 内部类型使用成本巨低不需要额外怎么操作javac用个map都很费劲 4. 公司中很大量的数据处理工作工作是不需要面对非常大的数据的 5. 巨大的数据不是语言所能解决的需要处理数据的框架hadoop mpi。。。。虽然小众但是python还是有处理大数据的框架的或者一些框架也支持python 6. 编码问题处理起来太太太方便了 综上所述 1. python可以处理大数据 2. python处理大数据不一定是最优的选择 3. python和其他语言公司主推的方式并行使用是非常不错的选择 4. 因为开发速度你如果经常处理数据而且喜欢linux终端而且经常处理不大的数据100m一下最好还是学一下python python数据处理的包 1. 自带正则包 文本处理足够了 2. cElementTree, lxml 默认的xml速度在数据量过大的情况下不足 3. beautifulsoup 处理html 4. hadoop(可以用python) 并行处理支持python写的map reduce足够了 顺便说一下阿里巴巴的odps和hadoop一样的东西支持python写的udf嵌入到sql语句中 5. numpy, scipy, scikit-learn 数值计算数据挖掘 6. dpark(搬楼上的答案类似hadoop一样的东西 1235是处理文本数据的利器python不就处理文本数据方便嘛46是并行计算的框架大数据处理的效率在于良好的分布计算逻辑而不是什么语言 暂时就这些最好说一个方向否则不知道处理什么样的数据也不好推荐包所以没有头绪从哪里开始介绍这些包 这要看具体的应用场景从本质上来说我们把问题分解为两个方面 1、CPU密集型操作 即我们要计算的大数据大部分时间都在做一些数据计算比如求逆矩阵、向量相似度、在内存中分词等等这种情况对语言的高效性非常依赖Python做此类工作的时候必然性能低下。 2、IO密集型操作 假如大数据涉及到频繁的IO操作比如从数据流中每次读取一行然后不做什么复杂的计算频繁的输入输出到文件系统由于这些操作都是调用的操作系统接口所以用什么语言已经不在重要了。结论 用Python来做整个流程的框架然后核心的CPU密集操作部分调用C函数这样开发效率和性能都不错但缺点是对团队的要求又高了(尤其涉及到PythonC的多线程操作)...所以...鱼与熊掌不可兼得。如果一定要兼得必须得自己牛逼。 我们公司每天处理数以P记的数据有个并行grep的平台就是python做的。当初大概是考虑快速成型而不是极限速度但是事实证明现在也跑得杠杠的。大数据很多时候并不考虑太多每个节点上的极限速度当然速度是越快越好但是再更高层次做优化比如利用data locality减少传输建索引快速join做sample优化partition用bloomfilter快速测试等等把python换成C并不能很大程度上提升效率。 很多python库的实现都是用其他语言写的(C比较多)只是用Python做了个包装而已。库的效率本身不低。 码代码比程序时间复杂度更cost 很多机器学习神经网络数据计算的算法已经存在几十年了这些零零散散的工具多被C和Fortran实现直到有人开始用Python把这些工具集合到一起所以表面上是在用Python的库实际上是C和Fortran的程序性能上也并无大的影响如果你真的是大数据的话 大量數據處理的瓶頸是在IO而不是在哪個語言。語言選擇真的是要看個人口味、品味。 流处理是python最大软肋 使用python可以但对速度要求较高的关键模块还是要用C重写。 Python调用vtk库对面片数量我测试过是没有限制的好像你所说的100万多数据是不是都是存入了python的list中list是有上限限制的。如果不存入list应该是没有渲染上限的。 求python在大数据环境下高效编程的方法。 在spark集群下我对对原来scala程序进行python重写。对过亿行级数据进行数据清洗整合操作。从执行任务的时间来看scala执行效率比python重写程序高好多倍。 使用Python调用vtk库对100万行的数据进行可视化结果内存爆满使用C就没有问题Python很占内存不知道为什么…… 什么叫处理 100万的数据如果只是传输的话python和c/c差不多如果用来计算话题模型的话python的速度为c/c的1/10内存消耗为10倍多。 转载于:https://www.cnblogs.com/huty/p/8517936.html