본문 바로가기

ML & AI

텐서플로에서 데이터 적재와 전처리하기

* 본 글은 핸즈온 머신러닝 13장을 읽고, 내용이해를 위해 정리한 것임.

 

지금까지의 내용은 분석 대상 데이터의 용량에 신경쓰지 않았다. 

 -> 데이터 용량이 매우커서, 단일 파일이나 객체(ex : np.array 등)에 저장하는게 불가능한 크기라면?

 

 ! 텐서플로는 데이터 api 덕분에 이를 쉽게 처리할 수 있다. 

 ㄴ 데이터 api? 데이터와 이용자 사이를 연결해주는 인터페이스 정도라고 생각하면 될듯.

 ㄴ tf.data.Dataset 개념. : 연속적인 데이터 샘플. 

    ㄴ 왜 np.array 말고도 새로운 개념을 적용해야 하는지?  : dataset 객체가 tensorflow에서 가장 성능이 좋다           정도로 알아두자.

 

텐서플로에서는 대용량 데이터 저장/읽기 위해 TFRecord라는 포맷을 선호.

ㄴ TFRecord 포맷의 필요성? : 숫자/문자열의 경우 큰 무리가 없으나, 이미지/오디오 등의 데이터도                     TFRecord는 저장할 수 있기 때문에, 코드의 간결성이나 성능에 도움이 된다.

 

 

TFRecord로 저장된 데이터를 tensorflow 내부 메서드로 읽어서(파싱), tf.data.Dataset으로 변환한 후 모델에 돌린다.