[서평] 데이터과학자의 사고법

읽은 기간 : 2021. 12. 4. – 2021. 12. 20.

읽은 방법 : 밀리의서재 앱 + 갤럭시노트10 & 오닉스 북스 리프

총평

통계학과 데이터과학에 대한 패키지여행 가이드 투어와 같은 책. 가이드 여행이 끝나고 나면 여행지에 대해 ‘디테일하진 않지만 중요한 곳들은 잘 보고 왔다’고 생각하게 되는 것처럼, 마지막 페이지를 넘기고 나면 통계학과 데이터과학에 대해 ‘자세히는 모르겠지만 이런 개념이 있고 이런 관점이 있구나’라고 알 수 있게 된다.

자세히

프롤로그 마지막 문단이 이 책을 가장 정확하게 설명한다.

“책에서는 데이터과학에서 다루는 복잡하고 어려운 방법을 설명하지 않습니다. 다만 데이터를 통한 합리적 의사결정이 왜 어려운지 일상 속 여러 사례를 통해서 소개하고, 다양한 분야에서 데이터과학의 활약상을 살펴볼 예정입니다.”

데이터과학이나 통계학의 복잡한 이론 혹은 수식은 거의 등장하지 않는다. 대신 이 책을 읽으면서 느낄 수 있는 건 ‘아 확률이라는 게 이렇게 오묘하구나’ ‘평균으로의 회귀라는 개념이 있구나’ ‘통계가 그렇게 어렵다고 어렵다고 하던데, 이래서 어렵구나’ ‘과학, 의학, 질병관리, 정치, 금융, 제조업, 마케팅 등등 요즘은 데이터과학이 안 끼는 곳이 없구나’ 하는 생각들이다.

데이터와 통계에 대해 ‘책’을 읽은 건 이번이 처음이었다. 올해 들어 회사에서 지표 관련 업무를 하고 있다보니 팟캐스트 ‘데이터홀릭’을 종종 듣기는 하지만, 오며가며 듣는 팟캐스트보다는 역시 문자로 읽는 게 기억에 더 많이 남는 것 같다.

아무튼 그렇게 통계 관련 지식이 일천하다보니, 책을 읽으면서 처음 알게 된 개념어나 표현이 많았다. 대략 아래와 같은 것들을 처음 알게 되거나, 이름만 들어봤던 수준에서 ‘그게 뭔지’ 대략적으로나마 이해할 수 있는 수준이 되었다.

  • 빈도확률과 주관적 확률
  • 도박사의 파산 문제
  • 조건부확률
  • 변호사의 오류
  • 중심극한정리
  • (통계 개념어로서) 변동
  • 통계적 가설검정
  • 귀무가설과 대립가설
  • 평균으로의 회귀
  • 임의보행
  • 브라운 운동
  • 과적합 문제
  • 차원의 저주
  • 포획-재포획
  • 다중비교의 오류
  • 출판 편이 (publication bias)
  • 모라벡의 역설

다양한 사례와 역사적인 사실을 읽으면서 통계학과 데이터과학에서 다루는 여러 가지 문제와 개념에 대해 쉽게 이해할 수 있었다. 통계 전공자라면 너무 쉬운 내용일 것 같고, 배경지식 없는 나 같은 사람이 읽기에 좋은 책이었다.

Leave a Reply

Your email address will not be published. Required fields are marked *