使用Python找出多個Excel文件中缺失數(shù)據(jù)行數(shù)多的文件

更新時間：2025年01月09日 08:24:51 作者：瘋狂學習GIS

這篇文章主要為大家詳細介紹了如何使用Python找出多個Excel文件中缺失數(shù)據(jù)行數(shù)多的文件,文中的示例代碼講解詳細,需要的小伙伴可以參考一下

本文介紹基于Python語言，針對一個文件夾下大量的Excel表格文件，基于其中每一個文件內、某一列數(shù)據(jù)的特征，對其加以篩選，并將符合要求與不符合要求的文件分別復制到另外兩個新的文件夾中的方法。

首先，我們來明確一下本文的具體需求?，F(xiàn)有一個文件夾，其中有大量的Excel表格文件（在本文中我們就以csv格式的文件為例）；如下圖所示。

其中，每一個Excel表格文件都有著如下圖所示的數(shù)據(jù)格式。

如上圖所示，各個文件都有著這樣的問題——有些行的數(shù)據(jù)是無誤的，而有些行，除了第一列，其他列都是0值。因此，我們希望就以第2列為標準，找出含有0值數(shù)量低于或高于某一閾值的表格文件——其中，0值數(shù)量多，肯定不利于我們的分析，我們將其放入一個新的文件夾；而0值數(shù)量少的，我們才可以對這一表格文件加以后續(xù)的分析，我們就將其放入另一個新的文件夾中。因此，計算出每一個表格文件對應的的0值數(shù)量百分比后，我們就進一步將這一Excel表格文件復制到對應的文件夾內。

知道了需求，我們就可以開始代碼的撰寫。其中，本文用到的代碼如下所示。

# -*- coding: utf-8 -*-
"""
Created on Tue May 16 20:19:50 2023

@author: fkxxgis
"""

import os
import shutil
import pandas as pd

def filter_copy_files(original_path, useful_path, useless_path, threshold):
    original_all_file = os.listdir(original_path)
    for file in original_all_file:
        path = os.path.join(original_path, file)
        if file.endswith(".csv") and os.path.isfile(path):
            df = pd.read_csv(path)
            column_value = df.iloc[:, 1]
            zero_count = (column_value == 0).sum()
            zero_ratio = zero_count / len(column_value)
            
            if zero_ratio < threshold:
                new_path = os.path.join(useful_path, file)
                shutil.copy(path, new_path)
            else:
                new_path = os.path.join(useless_path, file)
                shutil.copy(path, new_path)

filter_copy_files("E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/13_AllYearAverage",
                  "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/14_PointSelection/LowMissingRate",
                  "E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/14_PointSelection/HighMissingRate",
                  0.30)

其中，上述代碼是一個篩選并復制文件的函數(shù)。該函數(shù)的目的是根據(jù)給定的閾值將具有不同缺失率的文件從一個文件夾復制到另外兩個文件夾。

在代碼中，filter_copy_files函數(shù)接受四個參數(shù)：