* 본 글은 핸즈온 머신러닝 13장을 읽고, 내용이해를 위해 정리한 것임.
지금까지의 내용은 분석 대상 데이터의 용량에 신경쓰지 않았다.
-> 데이터 용량이 매우커서, 단일 파일이나 객체(ex : np.array 등)에 저장하는게 불가능한 크기라면?
! 텐서플로는 데이터 api 덕분에 이를 쉽게 처리할 수 있다.
ㄴ 데이터 api? 데이터와 이용자 사이를 연결해주는 인터페이스 정도라고 생각하면 될듯.
ㄴ tf.data.Dataset 개념. : 연속적인 데이터 샘플.
ㄴ 왜 np.array 말고도 새로운 개념을 적용해야 하는지? : dataset 객체가 tensorflow에서 가장 성능이 좋다 정도로 알아두자.
텐서플로에서는 대용량 데이터 저장/읽기 위해 TFRecord라는 포맷을 선호.
ㄴ TFRecord 포맷의 필요성? : 숫자/문자열의 경우 큰 무리가 없으나, 이미지/오디오 등의 데이터도 TFRecord는 저장할 수 있기 때문에, 코드의 간결성이나 성능에 도움이 된다.
TFRecord로 저장된 데이터를 tensorflow 내부 메서드로 읽어서(파싱), tf.data.Dataset으로 변환한 후 모델에 돌린다.
'ML & AI' 카테고리의 다른 글
잔차 학습<residual learning> in ResNet (2) | 2022.08.26 |
---|---|
1 x 1 convolution ? (0) | 2022.08.26 |
InvalidArgumentError : Graph execution error (0) | 2022.08.15 |
NMF (비음수 행렬분해) (0) | 2022.07.13 |
Introduction to Machine Learning with Python(IMLP): Chap 2 지도학습 (0) | 2022.07.10 |