基于Python实现对比Exce的工具

目录

目的:设计一个应用GUI用于对比两个Excel文件

思路

1.参数

  • 同一个excel文件两个sheet页其中一个ODS(老数据),一个DWH(新数据)
  • 生成对比文件
  • 设计两个主键 输入主键1 输入主键2

(默认新旧文件列名一致)

2.效果

  • 生成的文件
  • 数据量一样、取每个字段不一致的数据前10
  • 数据量不一样、取两边不一样的数据前10、排除不一样的数据、每个字段不一致的数据前10

3.实现

  • 循环对比组合列(主键+对比列)
  • pandas处理差异数据、openpyxl 处理生成的sheet的数据格式. (先生成数据,然后调整格式)

配置

import pandas as pd
from openpyxl import load_workbook
#选择文件路径
path=r\"C:\\Users\\小管同学\\Desktop\\Migration_Data_Compari\\对比文件.xls\" #input(\"选择文件路径:\")
TargetPath=r\"C:\\Users\\小管同学\\Desktop\\Migration_Data_Comparison_Tool\\目标文件\\对比结果.xlsx\"
DATA_ODS=pd.read_excel(r\"C:\\Users\\小管同学\\Desktop\\Migration_Data_Comparison_Tool\\对比文件.xls\",sheet_name=\"ODS\")
DATA_DWH=pd.read_excel(r\"C:\\Users\\小管同学\\Desktop\\Migration_Data_Comparison_Tool\\对比文件.xls\",sheet_name=\"DWH\")
#选择主键
Primarykey=\"员工编号\"#input(\"选择主键1:\")
Primarykey
# 员工编号

一、数据量

输出表格1–数据量

def write_to_excel_DataVolume(Data,TargetPath): # cor_df 为要保存的 dataframe 
    writer = pd.ExcelWriter(TargetPath, engine=\'xlsxwriter\') # 这里用
    Data.to_excel(writer,sheet_name=\'Sheet1\', encoding=\'utf8\', header=False, startcol=0, startrow=2) # 把dataframe的数据从第2行开始
    workbook  = writer.book
    
    format1 = workbook.add_format({ # 先把样式打包,然后之后赋值即可
        \'bold\': True, # 字体加粗
        \'text_wrap\': True, # 是否自动换行
        \'valign\': \'bottom\',  #垂直对齐方式
        \'align\': \'center\', # 水平对齐方式
        \'fg_color\': \'#C5D9F1\', # 单元格背景颜色
        \'border\': 1,# 边框
    })    
    writer_sheet = writer.sheets[\'Sheet1\']
    # 设置宽度
    writer_sheet.set_column(\"A:I\", 16)
    writer_sheet.set_column(\'C:C\',30)
    writer_sheet.merge_range(0,0,0,2,\'对比结果\',format1)
    writer_sheet.merge_range(4,2,4,0,\'数据量差异\',format1)
    writer_sheet.write(1,0,\'\',format1)
    writer_sheet.write(1,1,\'ODS\',format1)
    writer_sheet.write(1,2,\'DWH\',format1)
    writer.save()
    writer.close()
DataFrame_DataVolume=pd.DataFrame([[DATA_ODS.shape[0]],[DATA_DWH.shape[0]]]).T
DataFrame_DataVolume.columns =[\"ODS\",\"DWH\"]
DataFrame_DataVolume.index=[\"数据量\"]
DataFrame_DataVolume
#writeFileDataVolume(DataFrame_DataVolume,TargetPath)
write_to_excel_DataVolume(DataFrame_DataVolume,TargetPath)

基于Python实现对比Exce的工具

输出表格2–数据量差异合同

if DATA_ODS.shape[0]==DATA_DWH.shape[0]:
    pass
else:
    
    DATA_ODS_Primarykey=pd.DataFrame(DATA_ODS[Primarykey])
    DATA_DWH_Primarykey=pd.DataFrame(DATA_DWH[Primarykey])
    df_union = pd.concat([DATA_ODS_Primarykey,DATA_DWH_Primarykey])
    # 实现1
    df_diff_ODS = df_union.append(DATA_ODS_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
    df_diff_DWH = df_union.append(DATA_DWH_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
    #DWH多的合同
    df_diff_ODS
    #DWH少的合同
    df_diff_DWH
    df_diff_DWH_Data=[]
    df_diff_ODS_Data=[]
    for i in df_diff_ODS.head(10).values.tolist():
        for n in i:
            df_diff_ODS_Data.append(n)
            
    for i in df_diff_DWH.head(10).values.tolist():
            df_diff_DWH_Data.append(n)
    while True:
        if len(df_diff_DWH_Data)>len(df_diff_ODS_Data):
            df_diff_ODS_Data.append(\"-\")
        elif len(df_diff_DWH_Data)< len(df_diff_ODS_Data):
            df_diff_DWH_Data.append(\"-\")
        elif len(df_diff_DWH_Data)== len(df_diff_ODS_Data):
            break
    DataFrame_DataVolume_Count_result=pd.DataFrame(df_diff_DWH_Data,df_diff_ODS_Data).reset_index()
    DataFrame_DataVolume_Count_result.columns=[\'DWH多的合同\',\'DWH少的的合同\']
    DataFrame_DataVolume_Count_result=DataFrame_DataVolume_Count_result.reset_index()
    DataFrame_DataVolume_Count_result.columns=[\'序号\',\'DWH多的合同\',\'DWH少的的合同\']
DataFrame_DataVolume_Count_result
from openpyxl import load_workbook
 
def write_to_excel_Count_result(Data,TargetPath):
    df_Old = pd.DataFrame(pd.read_excel(TargetPath)) #读取原数据文件和表 
    writer = pd.ExcelWriter(TargetPath,engine=\'openpyxl\')
    book=load_workbook(TargetPath)
    writer.book = book
    writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
    df_rows = df_Old.shape[0] #获取原数据的行数
    Data.to_excel(writer,startrow=df_rows+1, index=False,startcol=0,header=True)#将数据写入excel中的aa表,从第一个空行开始写
    writer.save()#保存
write_to_excel_Count_result(DataFrame_DataVolume_Count_result,TargetPath)

基于Python实现对比Exce的工具

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容