지난 1주간, 난생 처음으로 데이터 분석관련 대외활동에 참가한답시고 1주일동안 만사를 제껴두고 제 1회 신한 빅데이터 해커톤을 위한 데이터 분석에 몰두했다.
그리고, 결론적으로, 나의 첫 데이터 분석은 '대실패'했다.
내가 1주일간 몇십시간을 투자해서 만든 모델은 형편없었으며(심지어 랜덤모델과 큰 차이가 없는 예측능력..)
보고서(ppt)또한 만들지도 못했다... 정확히 말하자면 만드려다가 포기했다. 부족했던 시간도 문제겠지만 보고서를 만들면서 나의 결과물에 대한 현타와 함께 내가 주어진 문제의 본질도 모르고 있었다는 것을 깨달아 버린 순간, 어떻게든 결과물을 만들어서 제출하겠다던 나의 의욕은 사라져버렸다.
그렇다면 이번 대회가 나한테 시간낭비였을까. 그것은 절대 아니라고 생각한다. 사실 그 시간동안 전공공부를 하는 것보다 훨씬 더 많은 것들을 배웠다.
- 불균형 데이터의 처리 기법, upsampling. 난 이 중에서도 smote 알고리즘을 활용하여 모델을 학습하려 시도했다.
- 판다스와 넘파이가 확실히 익숙해진 느낌이다.. 하루종일 이것만 만지고 있었으니
- 확실히 책에 나오는 머신러닝 모델 학습은 이상적인 case라는 것을 다시 한번 깨달았다.
- EDA시에 clustering 을 통해 insight를 얻는 방법 또한 익숙해졌다.
이번대회를 하면서 느낀것도 몇가지 끄적여 본다.
- 확실히 데이터 분석 공모전은 혼자가 아니라 팀을 이루어 참가하는 것이 바람직하다. 나 혼자 너무 많은 정보량을 처리하다보면 중요한 정보를 놓치기 쉽고, 생각의 폭이 한정되어 버린다.
- 모든 분석의 절차들을 거칠때는 감보단 최대한 논리적으로 생각해야 한다.
- 분석을 준비할 때는, 무엇보다 중요한 것이 사전에 분석 프로세스를 잘 짜놓는 것이라는 생각을 했다. 안그러면 너무 돌아간다.
이번 학기에 몇 개의 공모전에 더 참여해볼 생각이다. 더욱 더 발전해서 돌아올게요...