当前位置：首页 > news >正文

佛山做礼物的网站这么做国外网站的国内镜像站

news 2025/11/14 19:42:13

佛山做礼物的网站,这么做国外网站的国内镜像站,课件ppt免费下载,电子商务网站的建设课件最近进行大数据处理的时候#xff0c;发现我以前常用的pandas查询方法太慢了#xff0c;太慢了#xff0c;真是太慢了#xff0c;查阅资料#xff0c;遂发现了一种新的加速方法#xff0c;能助力我飞上天#xff0c;和太阳肩并肩#xff0c;所以记录下来。 1. 场景说明… 最近进行大数据处理的时候发现我以前常用的pandas查询方法太慢了太慢了真是太慢了查阅资料遂发现了一种新的加速方法能助力我飞上天和太阳肩并肩所以记录下来。 1. 场景说明与数据集构建首先阐述一下我们DataFrame查询应用场景有两个csv表格文件表1中有两列一列为id号index一列为名字name 表2中有两列一列为id号index一列为名字对应的内容content 此外表1和表2中的顺序是混乱的每一行的index都不相同。此时你有一个想法把name和content对应起来在一张表中有名字name就知道内容content了我们先用下列代码构建这样一个数据集 import pandas as pd from pandas.core.frame import DataFrame import random from tqdm import tqdmname [一念关山, 奉上, 立剑]content [一念月落一念身错一念关山难涉过。棋逢过客执子者不问因果。, 奉上唯愿去踏破善恶之叠浪一心并肩赴跌宕。, 刺予我伤口重生了魂魄立剑的时候疾骤的嘶吼。]result1 [] result2 [] for i in tqdm(range(10000000)):temp random.randint(0, 2)xx1 name[temp] __ str(i)xx2 YNGS __ str(i)xx3 content[temp] __ str(i)result1.append([xx2, xx1])result2.append([xx2, xx3])Frame1 DataFrame(result1, columns[index, name]) Frame1.to_csv(./test01.csv, indexFalse)Frame2 DataFrame(result2, columns[index, content]) shuffled_df Frame2.sample(frac1, random_state42) # 打乱数据 shuffled_df.to_csv(./test02.csv, indexFalse)代码构建了一个1000万行的数据表当然了表中数据没有实际意义仅供测试使用。来瞅瞅我们生成的数据表格吧~ test01.csv test02.csv 2. loc加速查询测试 2.1 原始方法有了生成好的数据表怎么做其实很简单常规的做法如下虚线中的代码所示对每一行循环查询content表中与name表中index相同的行再取content内容就可以了。 import pandas as pd from pandas.core.frame import DataFrame from tqdm import tqdmdata_name pd.read_csv(./test01.csv, encodingutf-8) data_content pd.read_csv(./test02.csv, encodingutf-8)name data_name[name].values.tolist() index data_name[index].values.tolist()result [] for i in tqdm(range(len(index))):temp_index index[i]# -----------------------------------------------------------------------temp_data data_content[data_content[index] temp_index]temp_content temp_data[content].values.tolist()[0]# -----------------------------------------------------------------------result.append([temp_index, temp_content])Frame DataFrame(result, columns[name, content]) Frame.to_csv(./finish.csv, indexFalse)我们来看看运行速度tqdm显示为725小时完成这1000万行的数据需要那么久啊这还能忍人生苦短python在手我要加速 /(ㄒoㄒ)/~~ 2.2 加速方法其实 test01.csv 和 test02.csv 有相同的一列即索引列index一般的dataframe的行索引默认为1、2、3…我们可以设置index列为行索引采用loc方法查询给定索引名对应的内容修改代码如下虚线中所示 import pandas as pd from pandas.core.frame import DataFrame from tqdm import tqdmdata_name pd.read_csv(./test01.csv, encodingutf-8) data_content pd.read_csv(./test02.csv, encodingutf-8)# ----------------------------------------------------------------------- data_content data_content.set_index(index) # 行索引设置 # -----------------------------------------------------------------------name data_name[name].values.tolist() index data_name[index].values.tolist()result [] for i in tqdm(range(len(index))):temp_index index[i]# ---------------------------------------------------------temp_data data_content.loc[temp_index]temp_content [temp_data[content]]# ---------------------------------------------------------result.append([temp_index, temp_content])Frame DataFrame(result, columns[name, content]) Frame.to_csv(./finish.csv, indexFalse)设置“index”列为行索引的dataframe长下面这样了其大小为10000000 1 测试一下运行速度快看家人们凌波微步再现飞一般的感觉啊9秒就完成了4%了一共只需要几分钟时间即可完成1000万数据处理~ 由此可见行索引查询能提速两百多倍在处理千万级数据时可以采用该方法神行百里加速执行嗷o(▽)ブ学起来~

查看全文

http://www.zqtcl.cn/news/510671/