ZERONOVA

Data, Open, Share, Platform, Cloud, Education

Archive for 3월 15th, 2014

Everything is Data – TEDxSNU 발표

with one comment

제가 6회 TEDxSNU 행사에서 발표한 내용을 공유합니다. 제목은 “Everything is Data”입니다. 이 세상 모든 것이 데이터로 이루어져 있고, 우리 주변 모든 것이 데이터의 소스가 될 수 있으며, 이러한 데이터를 잘 활용하고, 가치를 찾아내는 일이 앞으로 매우 중요해 질 것이라는 내용입니다. 발표자료는 아래 링크에서 다운받아가시면 됩니다.

Everything is Data-TEDxSNU2014

발표 내용을 아래 살짝 요약해 드릴께요.

What is Data?

데이터란 정량적/정성적인 변수들의 값들에 대한 모음이라고 위키피디아에 정의되어 있는데, 전문가 아니고선 이해하기 어렵죠. 그냥 간단히 디지털적인 비트(0,1)로 변환될 수 있으면 모든 것이 데이터라고 보시면 됩니다. 우리도 일상 생활에서 데이터를 많이 보고 있습니다. 예를들어 엑셀에 가계부를 기록하거나, 고객명단을 적거나, 가게 매출을 기록하는데, 이들이 모두 데이터입니다. 아이튠즈는 뮤직 플레이리스트 데이터를 저장하고 있습니다. 내가 가지고 있는 곡이 어떤 것이 있고, 각 곡에 대한 정보를 기록하고 있죠. 우리가 지하철에서 흔히 보는 지하철노선도 역시 데이터입니다. 지하철 경로에 대한 정보를 시각적으로 보기 좋게 지도 형태로 표현한 데이터죠. 데이터를 많이 만들어 내는 곳 중에 하나가 대학 실험실입니다. 여기서 실험 결과 데이터를 얻어내고 분석하여 자신들이 주장하는 가설을 검증하는 것이죠. 심지어, 우리 몸 자체 역시 데이터로 이루어져 있다고 할 수 있습니다. 우리 유전 정보를 담고 있는 염기서열 자체가 데이터라고 할 수 있습니다. ATGC의 문자열로 이루어진 데이터라고 할 수 있습니다. 이와 같이 우리 주변 모든 것이 데이터를 쏟아내고 있고, 심지어 데이터로 이루어져 있습니다.

Why Data Matter?

왜 데이터가 중요할까요? 세상을 바라보는 관점은 여러가지가 있는데, 데이터라는 렌즈를 통해서 바라보면 우리가 알지 못했던 깊은 통찰력을 얻을 수 있습니다. 또한 데이터는 창조의 씨앗 역할을 할 수 있고, 실행을 할 수 있는 원동력이 됩니다. 하나하나 살펴 볼까요?

최근 데이터 활용의 성공적인 사례로 서울시 심야버스가 종종 언급됩니다. 밤 12시부터 5시까지 심야버스를 운행함으로써 밤늦게 귀가하는 시민들에게 중요한 수단을 제공하고 있습니다. 그런데 심야버스 노선을 어떻게 정해야 할까요? 보통은 버스노선을 연구하고 관리하는 전문가분들께서 경험과 직관에 따라 노선을 정할 것입니다. 실제로 서울시 심야버스도 일차적으로는 그렇게 노선을 정했구요. 하지만 여기서 끝낸 것이 아니라, 데이터를 분석하여 노선을 검증하고 일부 구간은 수정을 했습니다. 이를 위해 kt에서 심야시간대의 통화이력 한달치를 분석하여 유동인구에 대한 통계결과를 제공했고, 이것을 활용해서 노선의 정확도를 훨씬 높인 것입니다. 전문가의 경험/직관과 데이터의 객관적인 사실이 잘 조합된 케이스입니다. 여기에 대해선 제 블로그글 “서울시 심야버스 노선 최적화 빅데이터 활용사례”을 참고하세요.

심야버스 노선 최적화가 데이터를 활용한 문제해결(Problem Solving)에 활용된 사례라면, 데이터를 이용해 예측(Prediction)을 할 수 있습니다. 트위터 데이터가 무엇인가를 예측하기 위해 종종 활용되고 있습니다. 트위터 데이터로 주가를 예측할 수 있을까요? 여러 대학에서 이와 관련된 연구를 했고, 그 가능성을 입증했습니다. 원리를 간단히 설명하자면, 트위터 데이터에서 특정 회사들에 대해 사용자들이 얘기하는 평가를 측정하는 것입니다. 이런 것을 감정분석(Sentiment Analysis, Opinion Mining)이라고 합니다. 예를들어, 삼성전자에 대해 좋은 평가를 하는 글들이 많아지면, 앞으로 주가가 오를 것이라고 예측하는 것이죠. 이를 위해선 트위터 데이터에서 긍정/부정을 측정할 수 있는 키워드를 뽑아내고 이들의 빈도수를 측정해서 예측을 하는 것입니다. 너무 간단해 보이는데, 실제로는 긍정/부정 말고도 다양한 감정요소를 측정하고 반영합니다. 실제로 트위터와 같은 소셜 데이터 기반으로 투자하는 펀드도 해외에서 나오고 있습니다. 이러한 사례가 데이터를 이용하여 미래를 예측하는 사례입니다.

데이터를 확보할 수 있는 새로운 방법

하지만 이런 일은 보통 데이터를 확보하고 있는 기업이나 정부기관에서나 가능한 일이겠죠. 만약 내가 데이터가 없는 데이터 기반의 서비스나 사업을 해 보고 싶다면 어떻게 해야 할까요? 보다 창의적인 방법으로 데이터를 확보할 수 있는 방법들이 있습니다.

첫번째 방법은 데이터 크라우드소싱(Data Crowdsourcing)입니다. 내가 직접 데이터를 생성하는 것이 아니라 일반 사용자의 참여를 통해 데이터를 만들어내고, 모아서 가치있는 서비스를 제공하는 것이죠. 대표적인 서비스로서 WeatherSignal이 있습니다. 휴대폰 배터리 온도 센서 데이터를 모아서, 전 세계의 기온에 대한 지도를 그리는 것이죠. 사용자들이 모바일앱을 설치하면 자동으로 배터리 온도 센서 데이터를 수집하고, 같은 지역 데이터를 모아서 기온을 추측하는 것입니다. 이 서비스의 기저에는 배터리 온도 센서값과 외부 기온과의 강한 상관관계가 있다는 사실이 깔려있죠. 또 하나는 네비게이션 서비스인 Waze입니다. 네비게이션에서 제공되는 정보들은 일반적으로 업체에서 직접 수집하는데 반해 Waze는 사용자들이 도로를 직접 그릴 수 있게 되어 있고 교통 정체, 사고 등의 실시간 정보를  제공할 수 있게 함으로써, 빠르고 확장성 있는 네비게이션 서비스를 제공할 수 있게 됩니다. 이렇게 모인 데이터와 사용자의 힘의 가치는 얼마나 될까요? 작년에 이 업체는 구글에 1조원에 가까운 가치를 인정받고 인수되었답니다. 이와 같이 크라우드소싱은 내가 직접 생산해 내기 힘든 데이터들을 사용자의 힘을 빌어 확보할 수 있는 좋은 전략입니다.

두번째 방법은 오픈 데이터를 활용하는 것입니다. 요즘 정부와 공공기관을 중심으로 공공 데이터를 오픈하고 있습니다. 특히 최근 정부 3.0이라고 해서 공공 데이터를 개방하고 시민들이 활용하게하여 고용, 복지 등을 촉진하자는 정책들이 쏟아져 나오고 있습니다. 이런 데이터들 중에 의미있는 서비스로 만들어질 수 있는 것들이 꽤 있습니다. 한가지 예로 코드나무에서 개최한 제 1회 공공데이터 캠프에서 하루밤만에 만들어진 안심이 서비스가 있습니다. 안심이 서비스는 건강보험심사평가원의 병원 항생제 처방에 관한 데이터를 수집하여 각 병원들이 항생제를 얼마나 사용하고 있는지 등급으로 지도에 맵핑해서 보여주고 있습니다. 아이들 병원을 찾을 때 유용하겠죠? 이와 같이 내가 원하는 서비스를 만들기 위한 재료로서 오픈 데이터를 활용할 수 있습니다.

개인적인 수준에서 데이터 가지고 놀기

데이터 크라우드소싱이나 오픈 데이터 조차도 그냥 맘만 먹는다고 쉽게 접근하긴 쉽지 않겠죠? 당장 나 스스로 데이터로 이것저것 해 보고 싶다면 어떻게 해야 할까요? 요즘은 개인적인 수준에서 데이터를 모으고, 활용할 수 있는 다양한 도구들이 등장하고 있습니다.

요즘 웨어러블 장치(Wearable device)들이 엄청 주목을 끌고 있죠? 구글 글래스, 갤럭시 기어, 나이키 퓨얼밴드 등 다양한 웨어러블 장치들이 등장하고 있고, 소비자의 지갑을 유혹하고 있습니다. 웨어러블 장치가 뭐라고 생각하세요? 저는 이들이 나에 관한 데이터를 추출해 주는 장치라고 생각합니다. 현재 저는 Fitbit Flex라는 Activity Tracker, 쉽게 말하면 디지털 만보계를 차고 있습니다. 이 장치는 저의 걸음수, 칼로리소모량, 수면시간, 수면상태 등을 측정해서 기록하고, 모바일앱으로 이쁘게 보여줍니다. 이렇게 측정된 데이터를 몇달치 모아서 활동패턴이나 수면패턴을 알아낼 수도 있겠죠. Fitbit이 걸음수에 대한 데이터 측정이라면, 걸음자세나 앉은 자세에 대한 데이터 측정은 Lumoback이라는 Posture Sensor 제품이 해 줍니다. 이 제품을 허리에 차고 있으면 앉거나 걸을 때 자세가 삐뚤어졌을 때 진동을 울려서 바로 잡도록 해 주죠. 그러면서 어느 시간에 자세가 좋지 않았는지, 하루 중 자세가 좋았던 시간과 나빴던 시간의 비율을 기록합니다. 이 데이터 역시 모아서 분석해 보면 나의 자세패턴을 알 수 있겠죠?

하지만 이것 역시 특정 기능을 하는 웨어러블 장치를 구입하고 착용해야 합니다. 그것조차 싫다면? 그냥 손으로 그때그때의 상태를 기록하시면 됩니다. 특히 어르신분들께서는 디지털 장치를 어려워하시기 때문에 이 방법이 더 효율적일 수 있습니다. 저희 어머니께서 당뇨병인데, 당뇨병은 관리가 정말 중요하고 이를 위해서 당뇨 측정과 식사 기록, 운동 기록 등이 중요합니다. 그래서 제가 엑셀로 당뇨일기 표를 만들어 드리고 기록하시도록 부탁을 드렸습니다. 두달정도 기록하신 후 그 표를 모아서 엑셀로 다시 기입하고 R이라는 통계 소프트웨어로 프로그래밍하여 몇 가지 결과들을 뽑아냈습니다. 재밌는 결과가 나오더군요. 점심 이전, 즉 오전의 당수치와 오후의 당수치가 확연하게 다른 것을 볼 수 있었습니다. 이것은 점심 식사에 문제가 있거나, 아니면 오후 활동에 문제가 있어 당수치가 크게 오르는 것이고 추론해 볼 수 있습니다. 이 결과를 어머니께 보여드리니, 놀라워하시면서 오후에 좀 더 조심해야겠다고 생각하시더군요. 그러면서 당뇨일기를 열심히 쓰기로 하셨고, 제가 좀 더 분석해서 어머니께서 당수치를 조절할 수 있는 방안을 찾아보려고 계획하고 있습니다. 어떠세요? 어떤 디지털 장치 없이도 그냥 손으로 데이터를 생성해 낼 수 있습니다.

이와 같이 웨어러블 장치의 도움을 받거나 직접 입력을 하는 방식으로 나에 관한 데이터를 모아서 분석 및 실험하는 것을 Quantified Self라고 합니다. 이미 해외에서는 인기를 끌고 있는 운동(Movement) 혹은 트렌드로 자리를 잡아가고 있죠. 자신을 수치화하고 실험해서 자신에 대해 보다 객관적으로 파악하고 개선해 나가려는 목적입니다. 마치 기업에서 데이터 기반하여 기업 현황을 파악하고 객관적인 의사결정에 활용하는 것처럼 개인 수준에서 데이터에 의한 객관화와 의사결정이라고 할 수 있죠. 앞으로 매우 성장할 분야라고 생각합니다.

지금까지 사례들이 대부분 데이터를 이용해 현재 상황을 파악하고 문제해결이나 예측을 하는 것을 목표로 했습니다. 하지만 데이터의 활용은 그 이상입니다. 예를들어 데이터를 창조적 활동에 활용할 수 있습니다. 요즘은 음악을 만드는데 Digital Audio Workstation (DAW)이라는 소프트웨어를 주로 활용합니다. 이것으로 소리를 녹음하거나 편집할 수 있고, 심지어 소리를 프로그래밍할 수도 있습니다.  제가 시도해 본 것이 원래 음원파일을 기온 데이터의 변화를 반영하여 변조하는 것입니다. 기온 변화양에 따라 음의 높낮이(Pitch)를 높이거나 낮추는 것입니다. 기온 데이터에 기반하여 PitchShift 효과를 적용하는 것이죠. 그닥 듣기 좋은 소리는 나오지 않아도 전형적인지 않은 사운드를 만들어 낼 수 있습니다. 또한 기온 데이터가 변함에 따라 매번 다른 사운드를 만들어내죠. 심플한 사례이지만 이런 형태로 창의적인 작업에 데이터를 활용하는 것도 충분히 가능합니다.

데이터는 이해와 창조의 원천

매트릭스 1편 마지막 장면을 보면 네오가 각성하고 이 세상이 0과 1로 이루어진 매트릭스 안에서 살고 있음을 깨닫게 되죠. 저는 그 장면이 우리가 지금 살고 있는 세상의 모습과 크게 다르지 않다고 생각합니다. 이 세상은 데이터, 더 나아가 정보로 이루어져 있습니다. 데이터는 인간과 세상을 이해하기 위한 가장 중요한 수단입니다. 또한 데이터를 가지고 놀다보면 생각지도 못한 창조적인 결과물들을 얻을 수 있습니다. 데이터는 무한한 가능성을 지닌 보물창고입니다. 지금 당장 데이터 속으로 뛰어드시기 바랍니다.

Written by zeronova

2014/03/15 at 11:32 오전