利用python合并csv文件的方式实例-偶像资源网

1.用concat方法合并csv

将两个相同的csv文件进行数据合并，通过pandas的read_csv和to_csv来完成，即采用concat方法：

#加载第三方库
import pandas as pd
import numpy as np
#读取文件
df1 = pd.read_csv(\"文件-1.csv\")
df2 = pd.read_csv(\"文件-2.csv\")
#合并
df = pd.concat([df1,df2])
df.drop_duplicates()  #数据去重
#保存合并后的文件
df.to_csv(\'文件.csv\',encoding = \'utf-8\')

也可以增加一列标签，以区别两个合并后的数据：

#加载第三方库
import pandas as pd
import numpy as np
#读取文件
df1 = pd.read_csv(\"文件-1.csv\")
df1[\"来自文件\"] = \"文件-1\"
df2 = pd.read_csv(\"文件-2.csv\")
df2[\"来自文件\"] = \"文件-2\"
#合并
df = pd.concat([df1,df2])
df.drop_duplicates()  #数据去重
#保存合并后的文件
df.to_csv(\'文件.csv\',encoding = \'utf-8\')

2.glob模块批量合并csv

在利用合并少量文件时，可以使用上面的concat方法。但是遇到大量的相同文件需要合并，此时应该进行批量合并，这可以减少工作量，提高操作效率。

利用Python批量合并csv，这里介绍使用的方法是引入glob模块。

glob模块是最简单的模块之一，内容少，它可以查找符合特定规则的文件路径名。

通过glob方法遍历所有文件，读取数据并追加保存到文件中。

import numpy as np
import pandas as pd
import glob
import re
 
csv_list = glob.glob(\'*.csv\')
print(\'共发现%s个CSV文件\'% len(csv_list))
print(\'正在处理............\')
for i in csv_list:
    fr = open(i,\'r\',encoding=\'utf-8\').read()
    with open(\'文件合集.csv\',\'a\',encoding=\'utf-8\') as f:
        f.write(fr)
print(\'合并完毕！\')

以上方法是合并csv文件，要合并excel文件同理。

补充：Python处理(加载、合并)多个csv文件

数据集介绍：本数据集是某化工系统的数据，一共有很多个月的，我这里就拿一个月的数据集，August_data（八月的数据集)，一共有31个csv文件。

方法一 for循环遍历+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)

import pandas as pd
import numpy as np 
from tqdm import tqdm
import os
 
def get_data(path):
    df_list = []
    for file in tqdm(os.listdir(path)):##进度条
        file_path = os.path.join(path, file)
        df = pd.read_csv(file_path)
        df_list.append(df)
    df = pd.concat(df_list)
    return df
 
cPath = \'.\\August_data\'
# cPath = \'F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据\' #F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据
# uPath = str(cPath)#uPath = unicode(cPath,\'utf-8\')
# dirs = os.listdir(TEST_PATH)
# print(dirs)
test_df = get_data(cPath)
print(test_df.head())
# test_df.to_csv(path_or_buf=\"test.csv\",index=False)#保存为CSV文件

方法二 glob方法

#!/usr/bin/env python
# coding=utf-8
 
import glob
import time
import csv
import pandas as pd
from tqdm import tqdm
# a new file 
#open all the CSV file
#遍历文件夹下所有csv文件
TEST_PATH = \'.\\August_data\' 
csv_list = glob.glob(f\'{TEST_PATH}\\*.csv\')
print(\'共有%s个CSV文件\'% len(csv_list))
# print (csv_list)
 
def get_data():
    df_list = []
    for csv_file in csv_list:
        df = pd.read_csv(csv_file)
        df_list.append(df)
    df = pd.concat(df_list)
    print(\"Loading Oer\")
    return df
get_data()

总结

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END