본문 바로가기

Industry Analysis [Data Science]/Kaggle 데이터 분석

#1 [문돌이들을 위한 캐글 개론 - 1] Why Kaggle?

Why Kaggle?

 

데이터 사이언티스트가 되기 위해 무조건 거쳐야 할 첫 번째(파이썬과 자료구조)도 아니고 두 번째(알고리즘)도 아니고 세 번째 정도 되는 관문이 바로 캐글(Kaggle)이다.

첫 번째와 두 번째를 통과한 소수의 문돌이, 혹은 비전공자들에게 박수를 보낸다.

지옥 시작

 

이제 우리는 캐글과 데이터 사이언스를 시작해볼 아주 미미한 준비가 되었다.

지금까지 해왔던 모든 코딩, 백준, 자료구조와는 딴판인 세계가 준비되어있다.

 

지금까지 우리는 세상에서 가장 핫한 언어인 영어(파이썬)를 배우고 여러 단어(자료구조)와 문법(알고리즘)을 배웠다.

이제 쓸모 있는 이메일, 레쥬메, 소설(부정적인 경우)을 써야 한다.

사람들이 읽을 만한 가치가 있는 글(대충 데이터 사이언스를 통한 의미 분석)을 써야 한다는 것이다!

 

와 명확한 설명이시다

캐글(Kaggle)은 2010년 설립된 예측모델 및 분석 대회 플랫폼이다. 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁한다. 2017년 구글에 인수되었다. [위키]

즉 다시 말해, 캐글 문제의 게시자는 raw data를 70~80% 정도 주고, 개발자들이 예측 모형을 만들면

캐글은 나머지 20~30%의 데이터로 예측 모형의 정확도를 판가름하는 것이다!

아주 reasonable 한 채점 방식이다. 심지어 몇몇 기업 및 협회에서는 억대의 상금을 걸고 있으므로 매.우. reasonable 하다. 물론 우리가 딸 가능성은 매우 낮다. 온갖 저명한 공대생들, 스타트업들, 상금 헌터들, 천재 같은 팀들이 상금을 노리고 있다.

우리의 목적은 전 세계 1등이 아니다. 내가 보고 싶은 데이터를 찾고, 끌어오고, 마음에 들 정도로 예측하고 표현하는 것이다.

 

우리는 글을 쓰는 사람들이다. -라고 생각하면 쉽다. 그 글이 세계 최고가 되지 않아도 된다. 하지만 산업에서 사용할 정도는 되어야 한다.

물론 허접하게 글을 쓴다면, 분석적으로도, 의미론적으로도 영양가 없는 분석이 되기 십상이다.

그러나 잘 따라온다면 어느덧 원하는 데이터를 입맛에 맞게 바꾸고 있는 당신의 모습을 발견할 수 있을 것이다!


블로그의 내용은 계속 수정될 것이며, 또한 작성자의 입맛은 아기 입맛이라 어려운 코딩 덕후들의 방법론을 순화시켜 설명할 것이다.

 

태클은 환영이지만 몰라서 그런 것일 가능성 100%이므로 사과는 미리 하겠다.

가자 파이리썬!