ZERONOVA

Data, Open, Share, Platform, Cloud, Education

[MOOC추천] Data Analysis – Data Scientist의 기초를 배우자

with 7 comments

기다리고 기다리던 존스홉킨스 대학의 Data Analysis 수업이 다시 시작되었습니다. 작년에 들으려고 시도하다가 바빠서 못들었는데, 올해는 기필코 마쳐보려고 합니다. 이 수업에 지대한 관심을 가지는 이유는 데이터 분석에 대한 전 과정을 가르쳐주기 때문입니다. 또한 실제 데이터 분석 과제를 통해 분석 경험도 쌓을 수 있지요. 어제(10/28)부터 시작했으니 지금 신청하면 늦지 않게 시작할 수 있습니다. 그리고 Learning R in Coursera” 페북 그룹에서 이 수업 수강하는 분들이 함께 공부할 예정이니 관심있는 분들은 가입하시구요.

Data Analysis - Johns Hopkins University

Data Analysis – Johns Hopkins University

수업개요

  • 개강일시: 10월28일
  • 강의기간: 8주
  • 주당 강의구성: 동영상 수업 2시간, 퀴즈
  • 주당 예상소요시간: 3-5시간
  • 성적: 퀴즈와 2번의 데이터 분석 과제
  • 교수: Jeff Leek

Course Contents (무엇을 배우나?)

  • The structure of a data analysis (steps in the process, knowing when to quit, etc.)
  • Types of data (census, designed studies, randomized trials)
  • Types of data analysis questions (exploratory, inferential, predictive, etc.)
  • How to write up a data analysis (compositional style, reproducibility, etc.)
  • Obtaining data from the web (through downloads mostly)
  • Loading data into R from different file types
  • Plotting data for exploratory purposes (boxplots, scatterplots, etc.)
  • Exploratory statistical models (clustering)
  • Statistical models for inference (linear models, basic confidence intervals/hypothesis testing)
  • Basic model checking (primarily visually)
  • The prediction process
  • Study design for prediction
  • Cross-validation
  • A couple of simple prediction models
  • Basics of simulation for evaluating models
  • Ways you can fool yourself and how to avoid them (confounding, multiple testing, etc.)

데이터 분석 기초를 배우고자 하는 분들에게 강추

데이터 분석에는 여러 과정이 필요합니다. 데이터 획득에서 시작해서, 정제하고, 탐색하고, 통계적 분석 모델 만들고, 결과에 대한 평가하고, 최종적으로 보고서 형태로 산출물이 나옵니다. 요즘 데이터 사이언스가 인기를 끌면서 데이터 분석을 위한 툴이나 이론적 토대를 가르치는 코스나 세미나는 많이 있지만, 실제 데이터 분석 전 과정을 배울 수 있는 기회는 흔치 않습니다. 그런 의미에서 Data Anaysis 수업은 커리큘럼도 잘 짜여져 있고, 교수 역시 바이오 분야에서 베테랑 분석가로 경험이 많기 때문에, 이 수업을 통해 데이터 분석의 기초를 탄탄히 할 수 있을거라 예상합니다.

본 수업은 같은 대학에서 개설된 Computing for Data Analysis 수업을 통해 R을 배운 학생들이 후속 수업으로 실제 데이터 분석 과정을 배울 수 있도록 디자인 되었습니다. 그래서 기본적으로 R에 대한 지식이 있어야 하지만, 전문가 수준의 R 지식이 필요하진 않고 기본적인 R 지식과 필요하면 함수 찾아 볼 수 있는 정도면 되지 않을까 싶네요. 다만, 영어가 오히려 더 큰 벽이 되지 않을까 하는 걱정이 드네요. 왜냐면 두번의 데이터 분석 과제가 결과물이 영어 보고서로 나와야 합니다. 교수는 분석가에게 필요한 중요한 역량 중 하나로 커뮤니케이션 스킬을 강조하고, 따라서 보고서도 잘 써야 한다고 합니다. 하지만, 영어 글쓰기 경험이 없는 분들에겐 분명히 큰 진입장벽으로 느껴질 것 같습니다. 이번 기회에 영어 보고서에도 도전을 해 보시죠. (그리고, 코드만 잘 기술하면, 영어 보고서 부분은 좀 부족해도 괜찮지 않을까 싶네요)

마지막으로 과제가 어떤 형태로 나올지 벌써 예제 프로젝트를 올려 두었으니 미리 확인을 해 보세요. 미국의 1주일치 지진 데이터를 가지고, 지진발생 깊이와 지진 강도 사이의 관계를 찾는 프로젝트입니다. 데이터, R 코드, R Markdown, 보고서, 모두 다 있습니다. 이 수업을 통해 어떤 분석 과정을 배우게 될 거고, 과제를 어떤 식으로 해야 할지 감이 올 겁니다. (매번 느끼지만, 해외 대학 수업들은 과제 디자인이 정말 예술입니다, 학생들이 따라가기 좋게 친절하게 해 놓았죠)

참, Jeff Leek 교수가 생각하는 데이터 분석과 그에 필요한 역량, 해당하는 Coursera 수업을 연결해 놓은 동영상자료가 있습니다. 확인해 보세요~

Landscape of Data Analysis

Landscape of Data Analysis

Advertisements

Written by zeronova

2013/10/29 , 시간: 8:55 오전

Data Analytics, MOOC에 게시됨

7개의 답글

Subscribe to comments with RSS.

  1. 데이터 사이언티스로서의 첫 발

    대성

    2013/10/29 at 11:51 오전

    • 해마다 진행되는 과정인가요? 이번에 말고 내년에 하고 싶은데요

      Ashley Moon

      2013/10/29 at 1:00 오후

      • 네, 첫 수업은 작년에 개설되었어요, 비슷한 시기에. 내년에도 개설할거라 예상하지만, 확실치는 않죠. 교수 선택이니까요.

        zeronova

        2013/10/29 at 1:17 오후

  2. 수업을 수강해야지만 강의를 볼수있는거죠? 영상만 나중에 구해서 볼수있을방법은 없나요??

    Saemi Jang

    2013/11/04 at 2:28 오후

    • 수강해야만 동영상 다운 받을 수 있습니다. 근데, 수강은 정말 쉬워요. 계정만들고, 강의 수강 클릭만 하면 됩니다. 어떤 의무도 없어요.

      zeronova

      2013/11/04 at 2:35 오후

  3. R 을 처음 접하는 사람들에게 꽤 난이도가 있습니다.

    a. instructor 말이 매우 빠르고 강의내용을 이해하는데 필요한 자세한 설명이 없습니다.

    b. 강의 내용을 이해하기 위해 R에 대한 많은 배경지식을 전제로 합니다.

    c. 강의 내용에 대해 stack overflow, R document 등을 찾아가며 일일히 함수들의 인수와 예제들을 스스로 공부해야 합니다. 그렇지 않으면 반도 이해하지 못합니다.

    d. peer assignment 는 처음 접하는 한국 MOOCer 들이 당황할 만큼의 난이도를 보입니다.

    하지만 무료고, 국내에서 쉽게 R 교육을 접할 수 없는 분들에게는 놓치면 아쉬운 강의 중 하나입니다.

    larynx

    2013/11/23 at 10:51 오후

    • 강의소개에도 Computing for Data Analysis라는 선수 과목을 하는게 낫다고 나와 있죠.
      여기서 R에 대한 기초는 가르쳐 주니까요. 물론 그렇더라도 쉽진 않습니다. 통계지식도 좀 필요하구요.
      저 역시 R을 하나도 모르는 분들에게 추천하진 않습니다. R을 안다는 가정에서 데이터 분석에 대해 진지하게 고민할 분들 대상으로 추천이죠.

      이렇게 분석과정에 대한 노하우를 가르치는 과정을 찾긴 쉽지 않다고 생각합니다.
      저 역시 분석에 아주 초짜라고 할 수 있는데, 시간만 투자하면 그럭저럭 따라갈 수 있더군요.

      그리고 강의내용이 정말 좋다고 봅니다. 예를들어, week4에 regression 설명이 있는데, 여기에 필수적인게, null hypothesis와 p-value입니다. 그러면 t test 얘기가 나오게 되고, 통계학 보면 정말 이해하기 쉽지 않은데, R로 t distribution 그래프 그려놓고, random normal distribution 데이터 임의로 만들어서 큰 t value가 나오는 것을 보여주고, 그 값으로 다시 R로 p-value가 어떻게 나오는지 보여줍니다.
      제가 지금 Statistics One도 듣고 있지만 이런 식으로 시각적으로 설명하진 않습니다. (물론 Statistics One은 최고의 수업입니다)
      하나의 예를 보여드린거지만, 이 외에도 감탄하게 하는 요소들이 많습니다.
      다만 그 정수를 흡수하기 위해선 몇번을 반복해 들어야 할 때도 있고, R 코드도 복사해 실행하는게 아니라 하나하나 손으로 쳐 넣어가면서 R Help 이용해서 실행해 봐야 합니다.

      분명이 많은 것을 배울 수 있는 수업입니다. 다만 그만큼의 노력이 필요합니다.

      zeronova

      2013/11/24 at 12:13 오전


답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: