如何將一個(gè)CSV格式的文件分割成兩個(gè)CSV文件
將一個(gè)CSV格式的文件分割成兩個(gè)CSV文件
本項(xiàng)目可以按照比例將一個(gè)csv文件分割成兩個(gè)csv文件,效果是:在C:\algo_file文件夾下,將該文件夾下的data.csv文件分成train.csv和vali.csv
完整代碼:
定義split_csv函數(shù)
import csv
import os
def split_csv(path, total_len, per):
# 如果train.csv和vali.csv存在就刪除
if os.path.exists('C:\\algo_file\\train.csv'):
os.remove('C:\\algo_file\\train.csv')
if os.path.exists('C:\\algo_file\\vali.csv'):
os.remove('C:\\algo_file\\vali.csv')
with open(path, 'r', newline='') as file:
csvreader = csv.reader(file)
i = 0
for row in csvreader:
if i < round(total_len * per/100):
# train.csv存放路徑
csv_path = os.path.join("C:\\algo_file", 'train.csv')
print(csv_path)
# 不存在此文件的時(shí)候,就創(chuàng)建
if not os.path.exists(csv_path):
with open(csv_path, 'w', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
# 存在的時(shí)候就往里面添加
else:
with open(csv_path, 'a', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
elif (i >= round(total_len * per/100)) and (i < total_len):
# vali.csv存放路徑
csv_path = os.path.join("C:\\algo_file", 'vali.csv')
print(csv_path)
# 不存在此文件的時(shí)候,就創(chuàng)建
if not os.path.exists(csv_path):
with open(csv_path, 'w', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
# 存在的時(shí)候就往里面添加
else:
with open(csv_path, 'a', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
else:
break
print("訓(xùn)練集和驗(yàn)證集分離成功")
return
調(diào)用上述函數(shù)
if __name__ == '__main__': ? ? path = 'C:\\algo_file\\data.csv' ? ? total_len = len(open(path, 'r').readlines())# csv文件行數(shù) ? ? per = 80 # 分割比例% ? ? split_csv(path, total_len, per)
按照訓(xùn)練集占80%(驗(yàn)證集20%)比例,對(duì)C:\algo_file文件夾下的data.csv進(jìn)行分割,在該文件下得到train.csv 和 vali.csv。
最后
本項(xiàng)目只是以C:\algo_file文件夾為例,實(shí)際上data.csv所在路徑,train.csv所在路徑,vali.csv所在路徑包括文件名都可以更改。
將CSV文件以某列為條件分類切割
項(xiàng)目中有一個(gè)數(shù)據(jù)文件數(shù)量龐大,一個(gè)文件中按照年月日分成幾十萬(wàn)條數(shù)據(jù),想試試能不能用python把它簡(jiǎn)單切割一下,按照日期分類切成小的csv文件。
于是在網(wǎng)上找了很多資料,結(jié)合自己的一些修改,整理了一下,方便以后再用。
大概步驟
1、讀取文件
2、找出需要分類的列
3、將此列中重復(fù)的內(nèi)容刪除,每類剩余一條
4、把該列所有符合某一類的內(nèi)容存入一個(gè)csv文件中
上代碼
import pandas as pd
# 讀取文件數(shù)據(jù)
df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
# 刪除date列中的重復(fù)項(xiàng),也就是說(shuō)剩下的date都是已經(jīng)分好的類別
date_cate = df.drop_duplicates(subset=['date'])
print(date_cate.date)
print(range(len(date_cate))) # date中的所有類,也就是文件數(shù)
for name in date_cate.date:
print(name)
# 當(dāng)date為某一個(gè)類時(shí),存入一個(gè)小的csv文件中,文件名為類名
df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")
header=[0] #代表第一行為表頭不計(jì)入其中,可根據(jù)表格修改。
?。。。。。。?)?。。。。。”闅v文件夾中所有的文件然后進(jìn)行切割,沒啥用,自己做個(gè)存檔而已 ↓↓↓↓↓
import pandas as pd
import os
j = 347
for info in os.listdir('D:\\接收的文件\year_02'):
domain = os.path.abspath(r'D:\\接收的文件\year_02') # 獲取文件夾的路徑
info = os.path.join(domain, info) # 將路徑與文件名結(jié)合起來(lái)就是每個(gè)文件的完整路徑
# 讀取文件數(shù)據(jù)
df = pd.read_csv(info, sep=',', engine='python', header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
grouped = df.groupby('date')
# delete duplicated data
ind_frame = df.drop_duplicates(subset=['date'])
# print(ind_frame.date)
# print(range(len(ind_frame)))
for name in ind_frame.date:
# print(name)
j += 1
print("已經(jīng)掃描到第" + '{}'.format(j)+'個(gè)文件')
df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python數(shù)據(jù)獲取實(shí)現(xiàn)圖片數(shù)據(jù)提取
本文主要介紹了Python數(shù)據(jù)獲取實(shí)現(xiàn)圖片數(shù)據(jù)提取,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-05-05
Python中pandas模塊DataFrame創(chuàng)建方法示例
這篇文章主要介紹了Python中pandas模塊DataFrame創(chuàng)建方法,結(jié)合實(shí)例形式分析了DataFrame的功能,以及pandas模塊基于列表、字段與數(shù)組創(chuàng)建DataFrame的相關(guān)操作技巧,需要的朋友可以參考下2018-06-06
初步介紹Python中的pydoc模塊和distutils模塊
這篇文章主要介紹了Python中的pydoc模塊和distutils模塊,本文來(lái)自于IBM官方開發(fā)者技術(shù)文檔,需要的朋友可以參考下2015-04-04
詳解Django+uwsgi+Nginx上線最佳實(shí)戰(zhàn)
這篇文章主要介紹了Django+uwsgi+Nginx上線最佳實(shí)戰(zhàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03
python爬蟲開發(fā)之Request模塊從安裝到詳細(xì)使用方法與實(shí)例全解
這篇文章主要介紹了python爬蟲開發(fā)之Request模塊從安裝到詳細(xì)使用方法與實(shí)例全解,需要的朋友可以參考下2020-03-03
python 調(diào)用HBase的簡(jiǎn)單實(shí)例
下面小編就為大家?guī)?lái)一篇python 調(diào)用HBase的簡(jiǎn)單實(shí)例。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2016-12-12
詳解Python編程中基本的數(shù)學(xué)計(jì)算使用
這篇文章主要介紹了Python編程中基本的數(shù)學(xué)計(jì)算使用,其中重點(diǎn)講了除法運(yùn)算及相關(guān)division模塊的使用,需要的朋友可以參考下2016-02-02
詳解python中的三種命令行模塊(sys.argv,argparse,click)
這篇文章主要介紹了python中的三種命令行模塊(sys.argv,argparse,click)的相關(guān)資料,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2020-12-12
Python hashlib庫(kù)數(shù)據(jù)安全加密必備指南
這篇文章主要為大家介紹了Python hashlib庫(kù)數(shù)據(jù)安全加密的使用實(shí)例探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2024-01-01

