网站科技动效,云南网站推广,凡科网站代码怎么,网站承建商有哪些今天接到一份数据需要分析#xff0c;数据在一个excel文件里#xff0c;内容大概形式如下#xff1a; 后面空的格子里的值就是默认是前面的非空的值#xff0c;由于数据分析的需要需要对重复的数据进行去重#xff0c;去重就需要把控的cell的值补上#xff0c;然后根据几…今天接到一份数据需要分析数据在一个excel文件里内容大概形式如下 后面空的格子里的值就是默认是前面的非空的值由于数据分析的需要需要对重复的数据进行去重去重就需要把控的cell的值补上然后根据几个关键的cell的值计算一个唯一的key 类似如下 如果UniqueKey有重复的就可以通过Excel的去重复数据的功能直接将重复的行去掉。
接下来就需要一个简单的方法把后面的空的cell的内容填上这样通过公式计算UniqueKey时就可以很容易。虽然Excel也提供了可以使用其他的Cell的值填充空白Cell的值但是操作步骤有点作而且对于操作有几千上万行的excel文件来说太不方便万一出错就需要重来一遍。
正好学习了pandas库发现用它的dataframe可以很轻松地实现。
Python代码如下
import pandas as pddata_file F:\\1.xlsx
data_info pd.read_excel(data_file)
data_info.fillna(methodffill, inplaceTrue)
data_info.to_excel(2.xlsx)
代码运行之后打开输出文件内容如下 几行代码就可以轻松搞定几万行的文件的数据处理