当前位置: 首页 > news >正文

佛山做礼物的网站这么做国外网站的国内镜像站

佛山做礼物的网站,这么做国外网站的国内镜像站,课件ppt免费下载,电子商务网站的建设课件最近进行大数据处理的时候#xff0c;发现我以前常用的pandas查询方法太慢了#xff0c;太慢了#xff0c;真是太慢了#xff0c;查阅资料#xff0c;遂发现了一种新的加速方法#xff0c;能助力我飞上天#xff0c;和太阳肩并肩#xff0c;所以记录下来。 1. 场景说明…  最近进行大数据处理的时候发现我以前常用的pandas查询方法太慢了太慢了真是太慢了查阅资料遂发现了一种新的加速方法能助力我飞上天和太阳肩并肩所以记录下来。 1. 场景说明与数据集构建 首先阐述一下我们DataFrame查询应用场景有两个csv表格文件 表1中有两列一列为id号index一列为名字name   表2中有两列一列为id号index一列为名字对应的内容content   此外表1和表2中的顺序是混乱的每一行的index都不相同。 此时你有一个想法把name和content对应起来在一张表中有名字name就知道内容content了我们先用下列代码构建这样一个数据集 import pandas as pd from pandas.core.frame import DataFrame import random from tqdm import tqdmname [一念关山, 奉上, 立剑]content [一念月落一念身错一念关山难涉过。棋逢过客执子者不问因果。, 奉上唯愿去踏破善恶之叠浪一心并肩赴跌宕。, 刺予我伤口重生了魂魄立剑的时候疾骤的嘶吼。]result1 [] result2 [] for i in tqdm(range(10000000)):temp random.randint(0, 2)xx1 name[temp] __ str(i)xx2 YNGS __ str(i)xx3 content[temp] __ str(i)result1.append([xx2, xx1])result2.append([xx2, xx3])Frame1 DataFrame(result1, columns[index, name]) Frame1.to_csv(./test01.csv, indexFalse)Frame2 DataFrame(result2, columns[index, content]) shuffled_df Frame2.sample(frac1, random_state42) # 打乱数据 shuffled_df.to_csv(./test02.csv, indexFalse)代码构建了一个1000万行的数据表当然了表中数据没有实际意义仅供测试使用。 来瞅瞅我们生成的数据表格吧~ test01.csv test02.csv 2. loc加速查询测试 2.1 原始方法 有了生成好的数据表怎么做其实很简单常规的做法如下虚线中的代码所示对每一行循环查询content表中与name表中index相同的行再取content内容就可以了。 import pandas as pd from pandas.core.frame import DataFrame from tqdm import tqdmdata_name pd.read_csv(./test01.csv, encodingutf-8) data_content pd.read_csv(./test02.csv, encodingutf-8)name data_name[name].values.tolist() index data_name[index].values.tolist()result [] for i in tqdm(range(len(index))):temp_index index[i]# -----------------------------------------------------------------------temp_data data_content[data_content[index] temp_index]temp_content temp_data[content].values.tolist()[0]# -----------------------------------------------------------------------result.append([temp_index, temp_content])Frame DataFrame(result, columns[name, content]) Frame.to_csv(./finish.csv, indexFalse)我们来看看运行速度tqdm显示为725小时完成这1000万行的数据需要那么久啊这还能忍人生苦短python在手我要加速 /(ㄒoㄒ)/~~ 2.2 加速方法 其实 test01.csv 和 test02.csv 有相同的一列即索引列index一般的dataframe的行索引默认为1、2、3…我们可以设置index列为行索引采用loc方法查询给定索引名对应的内容修改代码如下虚线中所示 import pandas as pd from pandas.core.frame import DataFrame from tqdm import tqdmdata_name pd.read_csv(./test01.csv, encodingutf-8) data_content pd.read_csv(./test02.csv, encodingutf-8)# ----------------------------------------------------------------------- data_content data_content.set_index(index) # 行索引设置 # -----------------------------------------------------------------------name data_name[name].values.tolist() index data_name[index].values.tolist()result [] for i in tqdm(range(len(index))):temp_index index[i]# ---------------------------------------------------------temp_data data_content.loc[temp_index]temp_content [temp_data[content]]# ---------------------------------------------------------result.append([temp_index, temp_content])Frame DataFrame(result, columns[name, content]) Frame.to_csv(./finish.csv, indexFalse)设置“index”列为行索引的dataframe长下面这样了其大小为10000000 1 测试一下运行速度快看家人们凌波微步再现飞一般的感觉啊9秒就完成了4%了一共只需要几分钟时间即可完成1000万数据处理~ 由此可见行索引查询能提速两百多倍在处理千万级数据时可以采用该方法神行百里加速执行嗷o(▽)ブ学起来~
http://www.zqtcl.cn/news/510671/

相关文章:

  • 中小企业网站建设与管理课件百度云济南高端网站建设公司
  • 台州企业建站程序网页设计素材网站知乎
  • wordpress视频付费谷歌seo专员是指什么意思
  • 域名续费做网站wordpress模板淘宝客模板
  • 加强政协机关网站建设深圳教育软件app开发
  • 绍兴企业网站推广Django 个人博客网站开发
  • html5 开发网站图门市建设局网站
  • wordpress 建立网站江苏电信网站备案
  • 企业网站能个人备案吗成都蜀美网站建设
  • 网站开发 占位符直播网站开发接入视频
  • 网站 易用性原则义乌进货网平台
  • 做网站的你选题的缘由是什么洛阳网站建设找汉狮
  • 常德住房和城乡建设局网站陕西省建设厅的网站
  • 国外做meta分析的网站开发公司替业主承担物业费承诺书
  • 百度收录网站定位地址wordpress 检测浏览器
  • 学习网站建设优化wordpress 轮播广告
  • 迈诺网站建设wordpress 前台注册登录
  • 网站开发市场成本免费建站网站大全
  • 四川省建设人才网站通过ip访问网站需要怎么做
  • 网站建设需要知道什么财税公司怎么找客源
  • 赣州那里有做网站的公司物流网站建设平台
  • 青色系网站北京的建筑设计公司
  • 纺织品做外贸一般在哪个网站上手机网站qq登录插件
  • 长沙做公司网站有没有免费的云服务器可以用
  • 济南专业网站优化如何制作小程序二维码
  • 建站平台软件猪八戒做网站要多少钱
  • 建设集团网站专业开发网站多少钱
  • 网站制作流程有哪些wordpress众筹
  • 网站打开是建设中手机咋建网站
  • 外贸专业网站的公司建百度网站