ZERONOVA

Data, Open, Share, Platform, Cloud, Education

Archive for the ‘MOOC’ Category

[MOOC추천] Statistical Learning (스탠포드대학)

leave a comment »

Statistical Learning에 대한 기초과정 강의입니다. 이번에는 Coursera가 아니라 스탠포드대학의 OpenEdX 강의입니다. 학습 기법 중에 Supervised learning에 초점을 맞추고, 특히 regression과 classification에 초점을 맞춘다고 합니다. 하지만 PCA나 clustering 같은 Unsupervised learning도 약간 다룰 예정이라고 하네요. 스탠포드 대학의 유명한 통계학과 교수 Trevor Hastie와 Rob Tibshirani 두분이 강의하십니다. 이분들 The Elements of Statistical Learning (pdf)라는 유명한 책의 저자분이시죠.

Statistical Learning

Statistical Learning

수업개요

수업내용

linear and polynomial regression, logistic regression and linear discriminant analysis; cross-validation and the bootstrap, model selection and regularization methods (ridge and lasso); nonlinear models, splines and generalized additive models; tree-based methods, random forests and boosting; support-vector machines. Some unsupervised learning methods are discussed: principal components and clustering (k-means and hierarchical)

데이터 분석 기법의 활용 측면에 관심있는 분들에게 추천

강의 소개글에도 나와있듯이, 이론적인 측면을 다루기보다 다양한 통계적 학습기법의 활용 측면에 집중한다고 합니다. 사실 통계학자나 전산학자들에게는 학습기법의 이론적인 측면이 중요하겠지만, 데이터 분석가 입장에서는 오히려 어떤 문제에 어떤 기법을 활용하고 해석하는지가 더 중요하겠지요. 그런 관점에서 강의를 할 것 같습니다.

This is not a math-heavy class, so we try and describe the methods without heavy reliance on formulas and complex mathematics. We focus on what we consider to be the important elements of modern data analysis.

주목할만한 점은 이 강의가 An Introduction to Statistical Learning, with Applications in R 책을 기반으로 한다는 것입니다. 강의하시는 교수님들이 저자이고, 이전에 저술하셨던 베스트셀러 The Elements of Statistical Learning (ESL)이 이론적인 측면을 강조했다면 이 책은 활용 측면에 초점을 두었다고 합니다. 지금 당장 PDF 다운로드 가능하니 확인해 보시면 됩니다. 서문에도 그런 내용이 있구요. 각 장마다 마지막에 R로 실습할 수 있는 Lab 부분이 있고, 데이터와 R 코드 역시 홈페이지를 통해 제공되고 있습니다. 이제 데이터 분석 공부를 시작하려는 분들에게는 출발점으로 삼을 만한 훌륭한 교재가 아닐까 싶네요. 이 책으로 강의한 자료도 이미 공개되어 있으니 스스로 학습하기에도 좋습니다.

통계학이나 기계학습 수업을 들으면서도 항상 아쉬웠던 점이, 왜 이런 기법이 나왔는지, 그리고 어떤 데이터와 문제에 적합한지 등의 활용 측면의 설명이 부족하다는 점이었습니다. 이 수업은 그런 부분의 갈증을 해소해 주지 않을까 싶네요. 

Advertisements

Written by zeronova

2013/12/26 at 10:45 오전

Data Analytics, MOOC에 게시됨

[MOOC추천] Data Analysis – Data Scientist의 기초를 배우자

with 7 comments

기다리고 기다리던 존스홉킨스 대학의 Data Analysis 수업이 다시 시작되었습니다. 작년에 들으려고 시도하다가 바빠서 못들었는데, 올해는 기필코 마쳐보려고 합니다. 이 수업에 지대한 관심을 가지는 이유는 데이터 분석에 대한 전 과정을 가르쳐주기 때문입니다. 또한 실제 데이터 분석 과제를 통해 분석 경험도 쌓을 수 있지요. 어제(10/28)부터 시작했으니 지금 신청하면 늦지 않게 시작할 수 있습니다. 그리고 Learning R in Coursera” 페북 그룹에서 이 수업 수강하는 분들이 함께 공부할 예정이니 관심있는 분들은 가입하시구요.

Data Analysis - Johns Hopkins University

Data Analysis – Johns Hopkins University

수업개요

  • 개강일시: 10월28일
  • 강의기간: 8주
  • 주당 강의구성: 동영상 수업 2시간, 퀴즈
  • 주당 예상소요시간: 3-5시간
  • 성적: 퀴즈와 2번의 데이터 분석 과제
  • 교수: Jeff Leek

Course Contents (무엇을 배우나?)

  • The structure of a data analysis (steps in the process, knowing when to quit, etc.)
  • Types of data (census, designed studies, randomized trials)
  • Types of data analysis questions (exploratory, inferential, predictive, etc.)
  • How to write up a data analysis (compositional style, reproducibility, etc.)
  • Obtaining data from the web (through downloads mostly)
  • Loading data into R from different file types
  • Plotting data for exploratory purposes (boxplots, scatterplots, etc.)
  • Exploratory statistical models (clustering)
  • Statistical models for inference (linear models, basic confidence intervals/hypothesis testing)
  • Basic model checking (primarily visually)
  • The prediction process
  • Study design for prediction
  • Cross-validation
  • A couple of simple prediction models
  • Basics of simulation for evaluating models
  • Ways you can fool yourself and how to avoid them (confounding, multiple testing, etc.)

데이터 분석 기초를 배우고자 하는 분들에게 강추

데이터 분석에는 여러 과정이 필요합니다. 데이터 획득에서 시작해서, 정제하고, 탐색하고, 통계적 분석 모델 만들고, 결과에 대한 평가하고, 최종적으로 보고서 형태로 산출물이 나옵니다. 요즘 데이터 사이언스가 인기를 끌면서 데이터 분석을 위한 툴이나 이론적 토대를 가르치는 코스나 세미나는 많이 있지만, 실제 데이터 분석 전 과정을 배울 수 있는 기회는 흔치 않습니다. 그런 의미에서 Data Anaysis 수업은 커리큘럼도 잘 짜여져 있고, 교수 역시 바이오 분야에서 베테랑 분석가로 경험이 많기 때문에, 이 수업을 통해 데이터 분석의 기초를 탄탄히 할 수 있을거라 예상합니다.

본 수업은 같은 대학에서 개설된 Computing for Data Analysis 수업을 통해 R을 배운 학생들이 후속 수업으로 실제 데이터 분석 과정을 배울 수 있도록 디자인 되었습니다. 그래서 기본적으로 R에 대한 지식이 있어야 하지만, 전문가 수준의 R 지식이 필요하진 않고 기본적인 R 지식과 필요하면 함수 찾아 볼 수 있는 정도면 되지 않을까 싶네요. 다만, 영어가 오히려 더 큰 벽이 되지 않을까 하는 걱정이 드네요. 왜냐면 두번의 데이터 분석 과제가 결과물이 영어 보고서로 나와야 합니다. 교수는 분석가에게 필요한 중요한 역량 중 하나로 커뮤니케이션 스킬을 강조하고, 따라서 보고서도 잘 써야 한다고 합니다. 하지만, 영어 글쓰기 경험이 없는 분들에겐 분명히 큰 진입장벽으로 느껴질 것 같습니다. 이번 기회에 영어 보고서에도 도전을 해 보시죠. (그리고, 코드만 잘 기술하면, 영어 보고서 부분은 좀 부족해도 괜찮지 않을까 싶네요)

마지막으로 과제가 어떤 형태로 나올지 벌써 예제 프로젝트를 올려 두었으니 미리 확인을 해 보세요. 미국의 1주일치 지진 데이터를 가지고, 지진발생 깊이와 지진 강도 사이의 관계를 찾는 프로젝트입니다. 데이터, R 코드, R Markdown, 보고서, 모두 다 있습니다. 이 수업을 통해 어떤 분석 과정을 배우게 될 거고, 과제를 어떤 식으로 해야 할지 감이 올 겁니다. (매번 느끼지만, 해외 대학 수업들은 과제 디자인이 정말 예술입니다, 학생들이 따라가기 좋게 친절하게 해 놓았죠)

참, Jeff Leek 교수가 생각하는 데이터 분석과 그에 필요한 역량, 해당하는 Coursera 수업을 연결해 놓은 동영상자료가 있습니다. 확인해 보세요~

Landscape of Data Analysis

Landscape of Data Analysis

Written by zeronova

2013/10/29 at 8:55 오전

Data Analytics, MOOC에 게시됨

[MOOC추천] Social Network Analysis (미시간대학)

leave a comment »

오늘부터 소셜 네트워크 분석 수업이 Coursera에서 시작합니다. 이 수업에서 소셜 네트워크 분석에 대한 이론과 툴 사용법을 배울 수 있습니다.

  • 개강일시: 10월7일
  • 강의기간: 9주
  • 주당 강의구성: 매주 과제와 기말시험, 몇개의 프로그래밍 숙제(옵션)
  • 주당 예상 소요시간: 5-7시간 (추가 프로그래밍 연습 포함하면 8-10시간)
  • 성적: 과제, 기말고사
  • 교수: Lada Adamic (University of Michigan)
Social Network Analysis (Coursera)

Social Network Analysis (Coursera)

페이스북, 트위터와 같은 소셜 네트워크 서비스가 성공하면서, 서비스의 기반을 이루는 네트워크 데이터, 혹은 그래프 데이터에 대한 분석이 관심을 끌고 있다. 이를 소셜 네트워크 분석(SNA)라고 하고, 특히 작년 선거와 맞물려서 엄청난 관심을 받은 바 있다. 데이터 분석가, 데이터 사이언티스트에게 소셜 네트워크 분석은 이제 기본 소양으로 자리매김하지 않을까 싶다.

Lada Adamic 교수는 이 분야 전문가로서, 이미 수차례 SNA 수업을 진행했고, 이뿐 아니라 네트워크와 관련된 다양한 수업도 개설한 전문가이다. 작년 Coursera 수업 아카이브가 공개되어 있으니 미리 확인해 보고, 수강을 결정하면 될 것이다. SNA 툴은 GephiNetLogo를 주로 활용할 것 같다. 소셜 네트워크 분석에 대한 이론 뿐 아니라, 툴 활용, 프로그래밍 등을 통해 실전 경험을 익힐 수 있는 좋은 기회가 되리라 생각한다. 아래는 공개된 Syllabus 내용.

Week 1: What are networks and what use is it to study them?
  • Concepts: nodes, edges, adjacency matrix, one and two-mode networks, node degree
  • Activity: Upload a social network (e.g. your Facebook social network into Gephi and visualize it ).
Week 2: Random network models: Erdos-Renyi and Barabasi-Albert
  • Concepts: connected components, giant component, average shortest path, diameter, breadth-first search, preferential attachment
  • Activities: Create random networks, calculate component distribution, average shortest path, evaluate impact of structure on ability of information to diffuse
Week 3: Network centrality
  • Concepts: betweenness, closeness, eigenvector centrality (+ PageRank), network centralization
  • Activities: calculate and interpret node centrality for real-world networks (your Facebook graph, the Enron corporate email network, Twitter networks, etc.)
Week 4: Community
  • Concepts: clustering, community structure, modularity, overlapping communities
  • Activities: detect and interpret disjoint and overlapping communities in a variety of networks (scientific collaborations, political blogs, cooking ingredients, etc.)
Week 5: Small world network models, optimization, strategic network formation and search 
  • Concepts: small worlds, geographic networks, decentralized search
  • Activity: Evaluate whether several real-world networks exhibit small world properties, simulate decentralized search on different topologies, evaluate effect of small-world topology on information diffusion.
Week 6: Contagion, opinion formation, coordination and cooperation
  • Concepts: simple contagion, threshold models, opinion formation
  • Activity: Evaluate via simulation the impact of network structure on the above processes
Week 7: Cool and unusual applications of SNA 
  • Hidalgo et al. : Predicting economic development using product space networks (which countries produce which products)
  • Ahn et al., and Teng et al.: Learning about cooking from ingredient and flavor networks
  • Lusseau et al.: Social networks of dolphins
  • others TBD
  • Activity: hands-on exploration of these networks using concepts learned earlier in the course
Week 8: SNA and online social networks 
  • Concepts: how services such as Facebook, LinkedIn, Twitter, CouchSurfing, etc. are using SNA to understand their users and improve their functionality
  • Activity: read recent research by and based on these services and learn how SNA concepts were applied

Written by zeronova

2013/10/07 at 10:00 오전

Data Analytics, MOOC에 게시됨

SUNON(서울대 Open Education), 국내 최초로 MOOC에 합류

with one comment

지난 23일 서울대에서 13개의 학부 강의를 일반인 대상으로 무료 공개했다. 최근 해외에서 불고 있는 MOOC(Massive Open Online Course)의 흐름에 서울대가 발빠르게 합류한 것으로 볼 수 있다. 우선 모바일앱을 통해 로그인 없이 수업 동영상을 볼 수 있게 오픈했고, 11월 경에 웹싸이트에 접속해서 로그인 후 볼 수 있게 할 예정이다.

SUNON: 서울대 Open Education

SUNON: 서울대 Open Education

공개된 강의 리스트는 아래와 같다.

  • 현대철학사조 : 현대철학의 거장들, 박찬국(인문대학 철학과)
  • 한반도와 국제정치 : 폭력, 돈, 생각을 둘러싼 갈등과 협력, 조동준(사회과학대학 정치외교학부)
  • 물리의 기본1 : 누구나 쉽게 배우는 대학물리학 – 역학과 파동을 중심으로, 최선호(자연과학대학 물리천문학부)
  • 디자인과 경영전략 : 예술과 경영의 만남, 조동성(경영대학 경영학과)
  • Introduction to Robotics : Fundamentals of Robot mechanics and control 로봇역학 계획 및 제어, 박종우(공과대학 기계항공공학부)
  • 운영체제의 기초 : 쉽게 배우는 운영체제 원리, 홍성수(공과대학 전기정보공학부)
  • 신재생에너지 : 에너지 디자이너를 위한 신재생에너지, 박형동(공과대학 에너지시스템공학부)
  • 녹색에너지 : 함께 생각해보고 만들어보는 미래형 에너지 대안, 허은녕(공과대학 에너지시스템공학부)
  • 동물해부생리학입문 : 이해하고 이야기하는 해부학, 임정묵(농업생명과학대학 농생명공학부)
  • 형사소송법 : 손에 잡히는 형사소송법, 이상원(법학대학 법학과)
  • Politics, Individuals, and Society : Politics for Dummies, Heemin Kim(사범대학 사회교육과)
  • Music of the world : Ethnomusicological Perspective on, Hilary Finchum-Sung(음악대학 국악과)
  • 환경과 건강 : 알아두면 유익한 환경보건학, 이기영(보건대학원 환경보건학과)

SNUON에 대한 긍정적인 평가

서울대에서 용감하게 이런 시도를 한 것에 진정 박수를 보낸다. 사실 강의를 일반인 대상으로 공개하기가 생각보다 쉽지 않다. 나 역시 KAIST에서 강의하면서 동영상으로 녹화해서 오픈하는 것에 대해 고민을 했었다. 일단 일이 많아지고, 더 중요한건 앞에 앉은 학생들뿐 아니라 대중이 볼 수 있다는 사실을 의식하기 때문에 강의 자체가 조심스러워질 수 있다는 점이다. 또한 학생이 아닌 전문가들도 강의를 들을 수 있기 때문에 강의내용 준비에 있어서도 부담감이 훨씬 더 가해진다. 이번 오픈된 강의들이 대부분 학부 전공이나 교양 과목으로 제한된 것도 이런 부분이 좀 고려된게 아닐까 싶다. 즉, 학부 강의는 각 분야에 대한 기초적인 소개 수준이라, 아마 교수들에게 부담이 덜할 것이다.

모바일앱으로 먼저 오픈한 점도 정말 칭찬할만하다. 국내는 모바일 활용도가 높기 때문에 출퇴근이나 이동중에 짬짬이 듣기 좋다. CourseraUdacity, edX 같은 해외 MOCC 서비스들이 모바일쪽을 오픈하지 않고 있는지 의아스럽다.

iPhone 스크린샷 1iPhone 스크린샷 2iPhone 스크린샷 3

또한, 강의들을 보면 해외 MOOC 서비스들에 비해 분명 경쟁력을 가질 수 있다는 희망이 보인다. 강의 중에 ‘한반도와 국제정세’, ‘형사소송법’ 이런 내용들은 해외 강의들에서 듣기 힘든 것들이다. 또한 자연과학이나 공학쪽도 해외 강의가 있다하더라도 한국어로 하는 국내 온라인 강의가 있다면 당연히 국내 강의를 들을 것 같다. 다만, 양질의 강의 수준을 제공한다는 가정에서. 이런 점들을 고려해 볼 때 국내 대학들이 국내 대상으로 MOOC 서비스를 시도해 보는 것도 나쁘지 않다고 본다. 물론 국내 교수들의 영어강의가 늘어가면서 해외 MOOC 서비스에도 국내 교수들의 강의를 접할 수 있길 바라는 바이다.

SUNON이 앞으로 해결해야 할 과제 

하지만 진정한 MOOC 서비스를 추구한다면 아직 해외 MOOC 서비스와 같은 수준으로 가기 위해 해결해야 할 과제들이 있다.

실제 강의 녹화가 아닌 온라인 강의를 위한 별도의 강의 녹화가 필요

SUNON에 공개된 강의를 몇 개 들어봤는데, 실제 수업 상황을 녹화한 것이다. 지금까지도 이렇게 녹화해서 공개한 시도는 여러 번 있었다. 하지만 해외 MOOC 서비스를 보면 알겠지만, 온라인 강의를 위해 교수들이 따로 녹화를 한다. 이게 매우 중요한 차이를 낸다. 보통 교수들은 대화형 강의를 위해 학생들에게 질문 던지고 기다리는 과정을 한다. 또한, 삼천포로 빠져 수업과 관련없는 내용도 제법 있다. 이렇게해서 강의 구성이 길어질 수 밖에 없다. 일반적으로 대학강의는 일주일에 3시간, 한학기 12주~16주 정도 수업이 구성된다. 이와 같은 길이로 동일하게 온라인 강의가 공개될 경우 이걸 끝까지 이수할 사람이 얼마나 될지 의문이다. 실제 Coursera의 강의들을 보면 대부분 4-8주 길이다. 일주일에 강의시간도 보통 1-2시간 정도로 3시간을 넘지 않는게 보통이다. 내 생각에는 Coursera쪽에서 일부러 이런 식으로 가이드를 하는 것 같다. 즉, 아무 의무가 없는 자발적인 일반인들이 중간에 포기하지 않고, 따라 올 수 있을 정도의 길이다. 이러다보니, 실제 강의를 녹화해선 그 길이로 줄이기가 어렵다는 것이다. Coursera 강의를 들어보면, 정말 강의 내용에 군더더기가 없다. 삼천포로 빠지는 일도 없고, 정말 액기스만 뽑아 놓은 느낌이다. 하지만 이렇게 온라인 강의를 위해 별도로 녹화를 하려면 교수들의 부담이 훨씬 더 가중될 것이다. 이 부분을 어떻게 풀 것인가가 아마 관건이지 않을까 싶다.

퀴즈, 숙제, 시험과 같은 평가 체계 필요

서울대에서도 이후에는 이런 체계를 갖추고, 수료증도 발급할 거라고 한다. 정말 굿뉴스다. 하지만 이게 얼마나 빨리 실현될지 우려스럽다. MOOC를 위한 플랫폼은 오히려 문제가 아니다. 서울대도 edX에 가입되어 있는걸 보면 아마 OpenEdx 플랫폼을 활용할지도 모르겠다. 문제는 강의에서 이것을 운영하기 위한 인력이다. 매번 퀴즈를 온라인 버전으로 만들고, 숙제 역시 따로 제출해야 하며, 채점 방식은 어떻게 할 것인지, 시험은 어떻게 컨트롤할 것인지 등 이 부분들이 다 사람 손이 가야하는 것이다. 솔직히 조교들이 점점 더 힘들어 지겠구나 하는 슬픈 생각이 들기도 한다. 시스템은 대규모의 온라인 강의가 가능하게 만들어 줄 뿐이고, 그 안의 컨텐츠, 즉 강의를 만드는 것은 사람의 몫이라, 많은 노력이 들어야 할 것이다. 따라서 그에 맞는 보상체계가 교수나 조교들에게도 주어져야 할 것이다. 무엇보다 학교의 정책에 의한 의무적인 공개보다는 관심있는 교수들의 자발적인 공개 위주로 진행되어야 할 것이다.

일반 수강생들과 쌍방향으로 커뮤니케이션할 수 있는 채널 필요

온라인 강의니만큼, 대학에서 직접 강의듣는 것보다 쌍방향성이 매우 떨어지는데 이것을 극복할 방안을 마련해야 한다. Cousera를 보면 discussion forum이 매우 활성화되어 있다. 수강생들의 질문에 교수나 조교가 일일이 대응해 줄 수 없기 때문에 온라인 포럼을 만들고 서로 질문하고 답할 수 있게 한 것이다. 이 질문들 중에서 의미있다고 투표를 많이 받은 것에 한해서 조교나 교수가 직접 답을 하는 시스템이다. 매우 합리적인 시스템이다. 온라인 포럼은 수강생들에게 도움이 될 뿐 아니라, 교수에게도 큰 도움이 될 수 있다. 학생들이 어떤 부분을 어려워하고, 숙제를 어떤 식으로 개선해야 할지 힌트를 얻을 수 있다. 실제로 Coursera에서 강의한 교수들은 대규모 온라인 강의를 통해 새로운 경험을 했고, 자신의 교수법이나 강의 방향을 수정했다고 한다.

이제 첫삽을 떳다는 마음으로 꾸준히 개선시켜 주길…

아직 가야할 길이 멀다. 하지만, 전 세계적으로 불고 있는 MOOC의 바람은 대학교육의 틀을 많은 부분 흔들어 놓을 것이 틀림없다. 그 흔들림 속에 대학이 어떤 방향으로 진화할 것인지 아무도 예측할 수 없지만, 먼발치에서 수수방관하다가 나중에 기회를 놓치는 일은 없어야 할 것이다. 서울대는 국내 대학으로 처음으로 그런 큰 흐름에 직접 뛰어든 것이다. 쉽지 않은 도전이고, 대학 구성원 전체가 함께 노력해야 하는 일이니만큼, 단기적 성과를 보지말고, 장기적으로 흔들림없이 나아갔으면 하는 바램이다. 새로운 교육 혁신을 꿈꾸는 한 사람으로서 뜨거운 응원의 박수를 보낸다.

Written by zeronova

2013/09/25 at 3:33 오후

MOOC에 게시됨

[MOOC추천] Statistics One (프린스턴대학) – R 활용

with one comment

미국 대학은 9월에 학기를 시작하다보니, Coursera에서도 최근 좋은 강의들이 다시 열리고 있습니다. 지난 번 소개드린 Computing for Data Analysis가 R 프로그래밍의 기초를 가르치는 수업이라면, 이번에 소개드리는 Statistics One은 R을 통계에 활용해 보는 것입니다. 통계학은 Data Scientist가 가져야 할 자질 중에 가장 중요한 한가지로 자주 언급되고, 특히 개발자 출신이 데이터 분석의 세계로 들어서려고 할 때 가장 부족한 부분 중 하나가 아닐까 합니다. 이를 극복할 수 있는 프린스턴 대학의 Statistics One 강의를 추천합니다.

Statistics One (9월22일 시작)

Statistics One (9월22일 시작)

이 수업은 작년에 처음 개설되었을 때 제가 들으려고 시도했으나 실패했고, 이번에 제대로 들어볼 생각입니다.

  • 개강일시: 9월22일
  • 강의기간: 12주
  • 주당 강의구성: 2개 강의, 1개 Lab, 1개 데이터 분석 과제
  • 주당 예상 소요시간: 4-8시간 (강의는 1시간 이하 짜리 2개, 랩은 30분 이하, 과제는 1-3시간 정도 예상)
  • 성적: 과제, 중간고사, 기말고사
  • 교수: Andrew Conway (Princeton University)

Syllabus를 보면 수업의 목표는 통계학 초보들에게 보다 고급 단계로 넘어가기 위한 기초를 가르치는 것이라고 합니다. 그리고 R을 매우 적극적으로 활용할 예정이라네요. 모든 예제와 과제는 R 프로그래밍으로 주어지고, 랩 강의에서 아마 R로 배운 내용을 어떻게 구현하는지 가르칠 것 같습니다. 수업이 만만해 보이진 않습니다. 하지만, 통계학을 꼭 한번 배워보겠다고 마음 먹은 분들에겐 좋은 기회가 될 것 같습니다. 또한 R을 배웠는데, 통계와 연계시킨 경험이 부족한 분들에게도 좋은 기회가 아닐까 싶네요.

수강할지 고민되는 분들은 우선 등록하고, Course Introduction 동영상을 한번 보시길 바랍니다. (맘에 안들면 등록취소하면 됩니다) 교수님의 말하는 스타일이나 가르치는 스타일이 매우 친절해 보입니다. 이 동영상에선 통계학이 뭐다, 어떤 연구방법이 있고, 어떤 용어들이 있는지 간단히 알려줍니다. 영어도 빠르지 않게 해서 스크립트랑 같이 보면 충분히 따라갈 수 있을 수준입니다. e-learning 시스템도 잘 갖춰져 있네요. 참, 올해가 The International Year of Statistics 이라네요. 그만큼 통계학이 뜨고 있고 중요해 지고 있나봅니다.

아래 Syllabus에 나와있는 강의 주제와 랩 주제를 알려드립니다.

Lecture Topics

  • Lecture 1: Experimental research
  • Lecture 2: Correlational research
  • Lecture 3: Variables, distributions, and scales
  • Lecture 4: Summary statistics
  • Lecture 5: Correlation
  • Lecture 6: Measurement
  • Lecture 7: Introduction to regression
  • Lecture 8: Null hypothesis significance testing
  • Lecture 9: The central limit theorem
  • Lecture 10: Confidence intervals
  • Lecture 11: Multiple regression
  • Lecture 12: The general linear model
  • Lecture 13: Moderation
  • Lecture 14: Mediation
  • Lecture 15: Student’s t-test
  • Lecture 16: Analysis of variance (ANOVA)
  • Lecture 17: Factorial ANOVA
  • Lecture 18: Repeated measures ANOVA
  • Lecture 19: Chi-square tests
  • Lecture 20: Binary logistic regression
  • Lecture 21: Assumptions revisited
  • Lecture 22: Non-parametric statistics
  • Lecture 23: Generalized linear model
  • Lecture 24: Course summary

Lab Topics

  • Lab 1: Introduction to R
  • Lab 2: Histograms and summary statistics
  • Lab 3: Scatterplots and correlations
  • Lab 4: Regression
  • Lab 5: Confidence intervals
  • Lab 6: Multiple regression
  • Lab 7: Moderation and mediation
  • Lab 8: Group comparisons (t-tests, ANOVA, post-hoc tests)
  • Lab 9: Factorial ANOVA
  • Lab 10: Chi-square
  • Lab 11: Non-parametric tests
  • Lab 12: Non-linear regression

Written by zeronova

2013/09/16 at 12:03 오후

Data Analytics, MOOC에 게시됨

[MOOC추천] Computing for Data Analysis (존스홉킨스대학) – R 강의

with 2 comments

9월23일부터 존스홉킨스 대학에서 4주짜리 R 강의를 시작합니다. Coursera에 존스홉킨스대학의 강의가 제법 많습니다. 이 강의들은 일관되게 데이터 분석, 특히 의료 데이터 분석을 위한 기술과 기법을 가르칩니다. 그 중에 R에 대한 기초 강의를 하는 강의가 Computing for Data Analysis 입니다.

Computing for Data Analysis-2013

이 수업은 제가 작년에 들어봤기 때문에 자신있게 추천드릴 수 있습니다. R에 대해서 아주 기초부터 가르쳐 줍니다. 한 가지 주의할 점은 R을 이용한 데이터 분석을 가르치는게 아니라, R 문법과 활용법에 대해 가르치는 것입니다. 따라서, R을 좀 아시는 분들은 별로 들을 필요가 없지 않을까 싶습니다. 4주 과정에서 퀴즈를 4번치고, R 프로그램 숙제가 2번 나옵니다. 이게 꽤 도움이 됩니다. 특히 프로그램 숙제 같은 경우 실제 의료 관련 데이터를 가지고, R로 분석하고 시각화하는 내용이라, R을 처음 하는 분들에겐 제법 도전적이고, R을 많이 익힐 수 있는 좋은 예제입니다. 제 기억으론 대략 주당 3-4시간은 투자해야 했습니다. (강의 내용을 RStudio에서 실습하는 것까지 포함해서) 그리고 숙제는 주말 하루 정도는 공을 들인 것 같습니다. 영어 강의긴 하지만 스크립트도 있기 때문에 노력하면 따라갈 수 있습니다.

아직 싸이트에서는 Syllabus가 올라와 있지 않기 때문에 제가 작년 강의의 일정과 내용을 좀 알려드리겠습니다.

강의 일정

  • Week 1: Introduction and Overview, Installing R, Data Types and Subsetting, Reading/Writing Data
  • Week 2: Control Structures, Functions, Loop Functions, Debugging
  • Week 3: Simulation, Plotting/Visualizing Data, Principles of Data Graphics
  • Week 4: Object-oriented Programming, Data Abstraction, Regular Expressions

 Grading (70점 이상 받아야 통과)

  • Week 1 Quiz: 10 points
  • Week 2 Quiz: 10 points
  • Week 3 Quiz: 10 points
  • Week 4 Quiz: 10 points
  • Programming assingment 1: 30 points

  • Programming assingment 2: 30 points

70점 넘는건 크게 힘들진 않습니다. 퀴즈는 객관식이고, 여러번 볼 수 있기 때문에 거의 만점 받을 수 있습니다. 숙제가 관건인데, 숙제 설명이 잘 되어있고, 답이 어떻게 나와야 한다는 결과를 알려주기 때문에 조금만 노력하면 따라갈 수 있습니다. 그렇게 4주 꾸준히 노력하면 아래와 같은 수료증도 받을 수 있습니다. 이거 꽤 뿌듯합니다. ^^ 추석 잘 쉬고, 이 강의 들으면서 이번 기회에 R의 세계, Data Scientist의 세계로 한발짝 들어서보면 어떨까요?

Computing for Data Analysis-Accomplishment

 

혹시 관심있는 분들을 위해 전체 강의 비디오 리스트 캡쳐 떠 놓은거 첨부합니다. 참고하세요

video lecture list

Written by zeronova

2013/09/13 at 11:27 오전

Data Analytics, MOOC에 게시됨

[MOOC추천] Introduction to Recommender Systems (미네소타 대학)

with 2 comments

추천 시스템(Recommender System)은 전산학쪽에선 꽤 오래된 연구분야이다. 최근 빅데이터가 뜨면서 추천 시스템 역시 중요한 빅데이터 분야로 주목받고 있고, Amazon, Netflix 등의 성공적인 인터넷 서비스의 핵심 기술로 인정받고 있다. 하지만 추천 시스템은 거대 기업뿐 아니라 새로운 스타트업이나 사업을 구상할 때 고려해 볼만한 기술이다. Pandora Radio, Watcha, Stitch Fix 가 모두 추천 시스템을 기초로 사업을 시작한 케이스다. 추천 시스템이 알게 모르게 우리 일상에 영향을 주고 있고, 중요한 기반 기술로 자리잡고 있지만, 이에 관해 제대로 알고 적용하고 있는 사람이 몇이나 될까? 추천 시스템 기술에 대해 제대로 한번 파보고 싶지 않은가? 그러면 최근 Coursera에서 시작된 강의를 주목해 보자.

Introduction to Recommender Systems

Introduction to Recommender Systems

사실 미네소타 대학은 추천 시스템을 연구했던 사람들에겐 유명한 곳이다. GroupLens라는 추천 시스템 연구그룹이 있고, 1990년대부터 추천 시스템 연구를 했고, 연구결과를 적용한 영화 추천 서비스인 MovieLens도 오픈했고, 추천 시스템을 구축할 수 있는 오픈소스 툴킷인 LensKit도 개발한 곳이다. 이곳의 Joseph A Konstan 교수와 박사과정 학생인 Michael D Ekstrand가 직접 강의를 하고, 숙제와 프로그래밍 과제도 진행한다고 하니 추천 시스템을 공부하기 정말 좋은 기회라 할 수 있다.

14주 강의는 8개의 모듈로 구성되고 각 모듈 끝나면, 하나의 과제(written assignment)와 하나의 프로그래밍 과제, 두 개가 주어진다. 그리고 두번의 시험이 전체 과정 중간과 마지막에 있다. 과제와 시험결과로 성적이 매겨지고, 50점 이상 되어야 Statement of Accomplishment를 받을 수 있다. 80점 이상이면, Statement of Accomplishment with Distinction를 받게 된다.

Coursera 강의들 중에서 14주 길이면 정말 긴편이다. 보통 6-8주 정도 강의가 대부분이다. 아마 추천 시스템 전체 내용을 커버하려다 보니 기간이 길어진 것 같다. 다행히, 수강생들이 본인의 시간 여유나 프로그래밍 능력에 따라 수강하는 방법을 선택할 수 있게 3가지 트랙을 제시하고 있다.

  • Programming Track: 추천 시스템 프로그래밍까지 마스터하길 원하는 수강생 대상이며, 모든 프로그래밍 과제를 해야 하기 때문에 자바 프로그래밍에 대한 경험을 필요로 한다.
  • Concepts Track: 추천 시스템 기술에 대한 이해만을 원할 경우 프로그래밍 과제는 제출할 필요없이 written assignment만 하면 된다.
  • Pick and Choose Track: 전체 과정 보다는 일부 주제만 관심 있는 경우 해당 강의 영상만 듣고 참여하면 된다. 이 경우 Statement of Accomplishment는 받을 수 없다.

마지막으로, 강의 상세 일정과 내용에 대해 웹싸이트 내용을 아래 붙여 둔다.

Module 1 (Sept. 3-9):

Introduction to Course and to Recommender Systems
Case Study and Taxonomy

Written Assignment 0:  Rating Activity  (Due Sept. 9 )
Written Assignment 1:  Recommender Review (Due Sept. 16)

UMN Students:  Required (non-recorded) session Sept. 3rd (Course Intro)

Module 2 (Sept. 10-23):

Non-Personalized Recommenders
Summary Statistics, Product Associations
Understanding Ratings, Predictions, and Recommendations

Written Assignment 2:  Non-Personalized Recommendations (hand exercises) (Due Sept. 23)
Programming Assignment 1:  Production Associations (Due Sept. 23)

UMN Students:  Optional Sessions (recorded) Sept. 10 (M.E. — questions and LensKit config) and Sept. 17 (J.K. — all topics and assignments)

Module 3 (Sept. 24 – Oct. 7):

Content-Based Recommenders
Inferring Preferences
Unary Ratings
Knowledge-Based Recommenders
Introduction to LensKit Toolkit

Written Assignment 3:  Using Content-Based Recommenders (Due Oct. 7)
Programming Assignment 2:  Implementing TFIDF-Based Recommendation (Due Oct. 7)

UMN Students:  Optional Sessions (recorded) Oct 1 (J.K. — questions on content-filtering, written asst) and Oct. 3 (M.E. — progr. asst. 2)

Module 4 (Oct. 8-21):

Intro to Collaborative Filtering
User-User k-Nearest Neighbor Approach
Tuning CF Algorithms
Explanations

Written Assignment 4:  Hand Exercises in User-User Collaborative Filtering (Due Oct. 21)
Programming Assignment 3:  Programming with User-User Collaborative Filtering (Due Oct. 21)

UMN Students:  Optional Session (recorded) Oct 15 (M.E. — user-user CF and all assignments)

Exam 1 Follows Module 4 (covers first half of course)

Module 5 (Oct. 22 – Nov. 4):

Evaluation and Metrics;
Error Metrics;
Decision-Support Metrics
Rank Metrics
Comparative Evaluation: Dead Data vs. Laboratory vs. Field Study
User-Centered Metrics and Evaluation
Data Sets

Written Assignment 5:  Evaluation Design and Analysis (Due Nov. 4)
Programming Assignment 4:  Evaluation Exercises in LensKit (Due Nov. 4)

UMN Students:  Optional Sessions (recorded) Oct. 22 (J.K.  — Highlights of RecSys Conference), Oct. 29 (M.E. — evaluation/assignments)
Optional non-recorded feedback session (general check-in with full course staff)

Module 6 (Nov. 5 – 18):

Collaborative Filtering II
Item-Item k-Nearest Neighbor
Business Rules
Adjustments for Serendipity and Diversity
Performance Comparisons
Hybrid Algorithms

Programming Assignment 5:  Item-Based Recommenders (Due Nov. 18)

UMN Students:  Optional Sessions (recorded) Nov. 12 (J.K.  — item-item recommenders), Nov. 14 (M.E. — programming item-item)

Module 7 (Nov. 19 – Dec. 2):

Dimensionality Reduction Recommenders
Concepts behind Latent Semantic Analysis and Singular Value Decomposition
Advanced Dataset Concepts

Programming Assignment 6:  Dimensionality Reduction (Due Dec. 2)

UMN Students:  Optional Sessions (recorded) Nov. 21 (J.K.  — dimensionality reduction), Nov. 26 (M.E. — programming SVD in LensKit)
Reminder:  November 28-29 is University Holiday (Thanksgiving)

Module 8 (Dec. 3 – 9):

Alternative Recommender Approaches
Interactive Recommenders
Critique and Dialog-based Approaches
Advanced Topics
Resources
Conclusion

Written Assignment 6:  Synthesis Assignment (Due Dec. 2)

UMN Students:  Optional Session (recorded) Dec. 5 (J.K.  Advanced Topics Q&A)
Required Session (non-recorded) Dec. 10 (End of courses, evaluation, exercises, full course staff)

Exam 2 Follows Module 14 (covers second half of course)

Written by zeronova

2013/09/04 at 7:53 오전

Data Analytics, MOOC에 게시됨