본문 바로가기

Programming/Python

Pandas read_json 함수 : json 파일 읽기

JSON : javascript object notation 의 준말.

 

형태를 보니, 파이썬의 dictionary와 비슷한 형태를 띄고 있다.

 

마침 여러줄로 된 json파일을 pd.read_json을 이용해 가져올 일이 있었는데,

import json

records = [json.loads(line) for line in file]

책을 보니 한 줄 씩 추출하도록 되어있길래, 한번에 할 수 있는 pd.read_json을 이용해 해보기로 했다.

 

pd.read_json(file)

문제는 이렇게 여러 줄로 된 json 파일을 읽을 때, trailing data라는 오류가 발생한다.

아마 여러줄을 읽는 과정에서 생기는 에러같은데,

pd.read_json(file, lines = True)

뒤에 lines 인자를 True로 설정하면 잘 읽힌다.

 

참고로, pd.read_json은 json파일을 dataframe으로 만들어준다.