1. data load(with csv)

태그

날짜

왜 csv일까?

대표적으로 사용한 tabular 데이터셋인 Excel 파일(xls or xlsx) 대신 python에서는 csv파일을 주로 사용하는데요. csv와 xlsx or xls를 비교해보면 다음과 같은 차이점이 있습니다.

csv 파일은 텍스트 편집기로 열 수 있는 반면, Excel 파일은 텍스트 편집기로 열 수 없음.

csv 파일은 Excel 파일에 비해 더 빠르고 메모리를 덜 소비함.(아래의 예시를 직접 실행애 보면 csv를 읽고 쓰는 것이 더빠른 것을 알 수 있음)

데이터 포인트(행)의 개수가 많아 질 수록 차이는 커짐

import pandas as pd
import time

start = time.time()
df = pd.read_csv(file_path, encoding = encoding)
print(time.time() - start)

start = time.time()
df = pd.read_excel(file_path, encoding = encoding)
print(time.time() - start)

start = time.time()
df.to_csv(file_path, index = False)
print(time.time() - start)

start = time.time()
df.to_excel(file_path, index = False)
print(time.time() - start)
Python
복사

csv는 .csv인 구분된 텍스트 파일에 표형식의 정보를 저장하는 형식 반면, 엑셀은 파일을 고유한 형식인 xls or xlsx로 유지하는 스프레드 시트임.

Data load

위와 같은 이유로 대부분의 데이터 파일들은 .csv 형태로 제공 되고 있다. 그렇다면, .csv 파일은 python에서 어떻게 불러 와야 될까? 아래와 같이 pandas의 read_csv 메서드를 사용하면 된다.

# path: 데이터 파일이 있는 위치
df = pd.read_csv(path)

# encoding
Python
복사