データ読み込み/データ出力
Pythonのデータ解析に必須の技術である、データの読み込み/書き出しについてまとめました。
目次
データ読み込み
ー CSVファイルの読み込み
import pandas as pd
df = pd.read_csv("sample.csv")
print(df)
# 0A 0B 0C 0D
# 0 1A 1B 1C 1D
# 1 2A 2B 2C 2D
print(df.columns)
# Index(['A', 'B', 'C', 'D'], dtype='object')
headerがファイルに含まれていない時は、header=None
とすると連番が割り当てられる。
df_none = pd.read_csv('sample.csv', header=None)
print(df_none)
# 0 1 2 3
# 0 0A 0B 0C 0D
# 1 1A 1B 1C 1D
# 2 2A 2B 2C 2D
ファイル出力
panda.DataFrame
またはpandas.Series
のデータを出力するときの方法について頻出表現をまとめる。
以下のデータをサンプルとして利用する。
# age city gender
# name
# John 15 TX F
# Bob 25 NY M
# Alice 31 NY F
# Flank 77 CA F
# Robin 41 CA M
# Derik 65 NY M
ー CSVファイルへ出力
df.to_csv("sample.csv")
name,age,city,gender
John,15,TX,F
Bob,25,NY,M
Alice,31,NY,F
Flank,77,CA,F
Robin,41,CA,M
Derik,65,NY,M
ー 特定の列のみ書き出す: 引数columns
df.to_csv('sample.csv', columns=['city'])
name,city
John,TX
Bob,NY
Alice,NY
Flank,CA
Robin,CA
Derik,NY
ー ヘッダー、インデックスの有無
デフォルトはヘッダー、インデックスともにTrue
df.to_csv('sample.csv', header=False, index=False)
15,TX,F
25,NY,M
31,NY,F
77,CA,F
41,CA,M
65,NY,M
EXCELファイルへ出力
df.to_excel("sample.xlsx")