Pandas Big Data 다루기

« 2025/7 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python 2020. 3. 18. 22:21

Pandas Big Data 다루기

흔히 말하는 Big data 크기의 데이터를 다룰 일이 거의 없다보니 pandas를 이용해서 data를 load 하고 사용하는데 크게 불편한적은 없었다. 다만 이것저것 준비하는 과정에서 수십기가짜리 csv파일을 read_csv로 그냥 호출하면 메모리가 터지는 경우를 자주 볼 수 있었다. 그러다 찾은것이 바로 chunk size!

pandas에 read_csv를 보면 chunksize라는 파라미터가 있다.

import pandas as pd
df_chunk = pd.read_csv(r'/inputpath/file.csv', iterator=True, chunksize=1000000)

df = pd.concat([chunk for chunk in df_chunk])

아래 사이트에서 잘 설명중

http://acepor.github.io/2017/08/03/using-chunksize/

Using Chunksize in Pandas

Yet another blog about NLP, machine learning and programming

acepor.github.io

'Python' 카테고리의 다른 글

pyinstaller를 이용한 python exe 만들기 (0)	2020.05.28
[python] PCA (0)	2020.04.09
ValueError: If using all scalar values, you must pass an index (0)	2020.03.09
[Text 분석] Scikit-Learn의 문서 전처리 기능 (0)	2020.02.29
[Text 분석] 전처리 - URL, HTML, emoji, punctuations 삭제 함수 (0)	2020.02.29

posted by 초코렛과자

정리를 위한 블로그

Category

Notice

Tag

calendar

Recent Post

Recent Comment

Archive

My Link

Pandas Big Data 다루기

'Python' 카테고리의 다른 글

티스토리툴바

정리를 위한 블로그

Category

Notice

Tag

calendar

Search

Recent Post

Recent Comment

Archive

My Link

Pandas Big Data 다루기

'Python' 카테고리의 다른 글

티스토리툴바