ZERONOVA

Data, Open, Share, Platform, Cloud, Education

Archive for the ‘Crowdsourced Data’ Category

Everything is Data – TEDxSNU 발표

with one comment

제가 6회 TEDxSNU 행사에서 발표한 내용을 공유합니다. 제목은 “Everything is Data”입니다. 이 세상 모든 것이 데이터로 이루어져 있고, 우리 주변 모든 것이 데이터의 소스가 될 수 있으며, 이러한 데이터를 잘 활용하고, 가치를 찾아내는 일이 앞으로 매우 중요해 질 것이라는 내용입니다. 발표자료는 아래 링크에서 다운받아가시면 됩니다.

Everything is Data-TEDxSNU2014

발표 내용을 아래 살짝 요약해 드릴께요.

What is Data?

데이터란 정량적/정성적인 변수들의 값들에 대한 모음이라고 위키피디아에 정의되어 있는데, 전문가 아니고선 이해하기 어렵죠. 그냥 간단히 디지털적인 비트(0,1)로 변환될 수 있으면 모든 것이 데이터라고 보시면 됩니다. 우리도 일상 생활에서 데이터를 많이 보고 있습니다. 예를들어 엑셀에 가계부를 기록하거나, 고객명단을 적거나, 가게 매출을 기록하는데, 이들이 모두 데이터입니다. 아이튠즈는 뮤직 플레이리스트 데이터를 저장하고 있습니다. 내가 가지고 있는 곡이 어떤 것이 있고, 각 곡에 대한 정보를 기록하고 있죠. 우리가 지하철에서 흔히 보는 지하철노선도 역시 데이터입니다. 지하철 경로에 대한 정보를 시각적으로 보기 좋게 지도 형태로 표현한 데이터죠. 데이터를 많이 만들어 내는 곳 중에 하나가 대학 실험실입니다. 여기서 실험 결과 데이터를 얻어내고 분석하여 자신들이 주장하는 가설을 검증하는 것이죠. 심지어, 우리 몸 자체 역시 데이터로 이루어져 있다고 할 수 있습니다. 우리 유전 정보를 담고 있는 염기서열 자체가 데이터라고 할 수 있습니다. ATGC의 문자열로 이루어진 데이터라고 할 수 있습니다. 이와 같이 우리 주변 모든 것이 데이터를 쏟아내고 있고, 심지어 데이터로 이루어져 있습니다.

Why Data Matter?

왜 데이터가 중요할까요? 세상을 바라보는 관점은 여러가지가 있는데, 데이터라는 렌즈를 통해서 바라보면 우리가 알지 못했던 깊은 통찰력을 얻을 수 있습니다. 또한 데이터는 창조의 씨앗 역할을 할 수 있고, 실행을 할 수 있는 원동력이 됩니다. 하나하나 살펴 볼까요?

최근 데이터 활용의 성공적인 사례로 서울시 심야버스가 종종 언급됩니다. 밤 12시부터 5시까지 심야버스를 운행함으로써 밤늦게 귀가하는 시민들에게 중요한 수단을 제공하고 있습니다. 그런데 심야버스 노선을 어떻게 정해야 할까요? 보통은 버스노선을 연구하고 관리하는 전문가분들께서 경험과 직관에 따라 노선을 정할 것입니다. 실제로 서울시 심야버스도 일차적으로는 그렇게 노선을 정했구요. 하지만 여기서 끝낸 것이 아니라, 데이터를 분석하여 노선을 검증하고 일부 구간은 수정을 했습니다. 이를 위해 kt에서 심야시간대의 통화이력 한달치를 분석하여 유동인구에 대한 통계결과를 제공했고, 이것을 활용해서 노선의 정확도를 훨씬 높인 것입니다. 전문가의 경험/직관과 데이터의 객관적인 사실이 잘 조합된 케이스입니다. 여기에 대해선 제 블로그글 “서울시 심야버스 노선 최적화 빅데이터 활용사례”을 참고하세요.

심야버스 노선 최적화가 데이터를 활용한 문제해결(Problem Solving)에 활용된 사례라면, 데이터를 이용해 예측(Prediction)을 할 수 있습니다. 트위터 데이터가 무엇인가를 예측하기 위해 종종 활용되고 있습니다. 트위터 데이터로 주가를 예측할 수 있을까요? 여러 대학에서 이와 관련된 연구를 했고, 그 가능성을 입증했습니다. 원리를 간단히 설명하자면, 트위터 데이터에서 특정 회사들에 대해 사용자들이 얘기하는 평가를 측정하는 것입니다. 이런 것을 감정분석(Sentiment Analysis, Opinion Mining)이라고 합니다. 예를들어, 삼성전자에 대해 좋은 평가를 하는 글들이 많아지면, 앞으로 주가가 오를 것이라고 예측하는 것이죠. 이를 위해선 트위터 데이터에서 긍정/부정을 측정할 수 있는 키워드를 뽑아내고 이들의 빈도수를 측정해서 예측을 하는 것입니다. 너무 간단해 보이는데, 실제로는 긍정/부정 말고도 다양한 감정요소를 측정하고 반영합니다. 실제로 트위터와 같은 소셜 데이터 기반으로 투자하는 펀드도 해외에서 나오고 있습니다. 이러한 사례가 데이터를 이용하여 미래를 예측하는 사례입니다.

데이터를 확보할 수 있는 새로운 방법

하지만 이런 일은 보통 데이터를 확보하고 있는 기업이나 정부기관에서나 가능한 일이겠죠. 만약 내가 데이터가 없는 데이터 기반의 서비스나 사업을 해 보고 싶다면 어떻게 해야 할까요? 보다 창의적인 방법으로 데이터를 확보할 수 있는 방법들이 있습니다.

첫번째 방법은 데이터 크라우드소싱(Data Crowdsourcing)입니다. 내가 직접 데이터를 생성하는 것이 아니라 일반 사용자의 참여를 통해 데이터를 만들어내고, 모아서 가치있는 서비스를 제공하는 것이죠. 대표적인 서비스로서 WeatherSignal이 있습니다. 휴대폰 배터리 온도 센서 데이터를 모아서, 전 세계의 기온에 대한 지도를 그리는 것이죠. 사용자들이 모바일앱을 설치하면 자동으로 배터리 온도 센서 데이터를 수집하고, 같은 지역 데이터를 모아서 기온을 추측하는 것입니다. 이 서비스의 기저에는 배터리 온도 센서값과 외부 기온과의 강한 상관관계가 있다는 사실이 깔려있죠. 또 하나는 네비게이션 서비스인 Waze입니다. 네비게이션에서 제공되는 정보들은 일반적으로 업체에서 직접 수집하는데 반해 Waze는 사용자들이 도로를 직접 그릴 수 있게 되어 있고 교통 정체, 사고 등의 실시간 정보를  제공할 수 있게 함으로써, 빠르고 확장성 있는 네비게이션 서비스를 제공할 수 있게 됩니다. 이렇게 모인 데이터와 사용자의 힘의 가치는 얼마나 될까요? 작년에 이 업체는 구글에 1조원에 가까운 가치를 인정받고 인수되었답니다. 이와 같이 크라우드소싱은 내가 직접 생산해 내기 힘든 데이터들을 사용자의 힘을 빌어 확보할 수 있는 좋은 전략입니다.

두번째 방법은 오픈 데이터를 활용하는 것입니다. 요즘 정부와 공공기관을 중심으로 공공 데이터를 오픈하고 있습니다. 특히 최근 정부 3.0이라고 해서 공공 데이터를 개방하고 시민들이 활용하게하여 고용, 복지 등을 촉진하자는 정책들이 쏟아져 나오고 있습니다. 이런 데이터들 중에 의미있는 서비스로 만들어질 수 있는 것들이 꽤 있습니다. 한가지 예로 코드나무에서 개최한 제 1회 공공데이터 캠프에서 하루밤만에 만들어진 안심이 서비스가 있습니다. 안심이 서비스는 건강보험심사평가원의 병원 항생제 처방에 관한 데이터를 수집하여 각 병원들이 항생제를 얼마나 사용하고 있는지 등급으로 지도에 맵핑해서 보여주고 있습니다. 아이들 병원을 찾을 때 유용하겠죠? 이와 같이 내가 원하는 서비스를 만들기 위한 재료로서 오픈 데이터를 활용할 수 있습니다.

개인적인 수준에서 데이터 가지고 놀기

데이터 크라우드소싱이나 오픈 데이터 조차도 그냥 맘만 먹는다고 쉽게 접근하긴 쉽지 않겠죠? 당장 나 스스로 데이터로 이것저것 해 보고 싶다면 어떻게 해야 할까요? 요즘은 개인적인 수준에서 데이터를 모으고, 활용할 수 있는 다양한 도구들이 등장하고 있습니다.

요즘 웨어러블 장치(Wearable device)들이 엄청 주목을 끌고 있죠? 구글 글래스, 갤럭시 기어, 나이키 퓨얼밴드 등 다양한 웨어러블 장치들이 등장하고 있고, 소비자의 지갑을 유혹하고 있습니다. 웨어러블 장치가 뭐라고 생각하세요? 저는 이들이 나에 관한 데이터를 추출해 주는 장치라고 생각합니다. 현재 저는 Fitbit Flex라는 Activity Tracker, 쉽게 말하면 디지털 만보계를 차고 있습니다. 이 장치는 저의 걸음수, 칼로리소모량, 수면시간, 수면상태 등을 측정해서 기록하고, 모바일앱으로 이쁘게 보여줍니다. 이렇게 측정된 데이터를 몇달치 모아서 활동패턴이나 수면패턴을 알아낼 수도 있겠죠. Fitbit이 걸음수에 대한 데이터 측정이라면, 걸음자세나 앉은 자세에 대한 데이터 측정은 Lumoback이라는 Posture Sensor 제품이 해 줍니다. 이 제품을 허리에 차고 있으면 앉거나 걸을 때 자세가 삐뚤어졌을 때 진동을 울려서 바로 잡도록 해 주죠. 그러면서 어느 시간에 자세가 좋지 않았는지, 하루 중 자세가 좋았던 시간과 나빴던 시간의 비율을 기록합니다. 이 데이터 역시 모아서 분석해 보면 나의 자세패턴을 알 수 있겠죠?

하지만 이것 역시 특정 기능을 하는 웨어러블 장치를 구입하고 착용해야 합니다. 그것조차 싫다면? 그냥 손으로 그때그때의 상태를 기록하시면 됩니다. 특히 어르신분들께서는 디지털 장치를 어려워하시기 때문에 이 방법이 더 효율적일 수 있습니다. 저희 어머니께서 당뇨병인데, 당뇨병은 관리가 정말 중요하고 이를 위해서 당뇨 측정과 식사 기록, 운동 기록 등이 중요합니다. 그래서 제가 엑셀로 당뇨일기 표를 만들어 드리고 기록하시도록 부탁을 드렸습니다. 두달정도 기록하신 후 그 표를 모아서 엑셀로 다시 기입하고 R이라는 통계 소프트웨어로 프로그래밍하여 몇 가지 결과들을 뽑아냈습니다. 재밌는 결과가 나오더군요. 점심 이전, 즉 오전의 당수치와 오후의 당수치가 확연하게 다른 것을 볼 수 있었습니다. 이것은 점심 식사에 문제가 있거나, 아니면 오후 활동에 문제가 있어 당수치가 크게 오르는 것이고 추론해 볼 수 있습니다. 이 결과를 어머니께 보여드리니, 놀라워하시면서 오후에 좀 더 조심해야겠다고 생각하시더군요. 그러면서 당뇨일기를 열심히 쓰기로 하셨고, 제가 좀 더 분석해서 어머니께서 당수치를 조절할 수 있는 방안을 찾아보려고 계획하고 있습니다. 어떠세요? 어떤 디지털 장치 없이도 그냥 손으로 데이터를 생성해 낼 수 있습니다.

이와 같이 웨어러블 장치의 도움을 받거나 직접 입력을 하는 방식으로 나에 관한 데이터를 모아서 분석 및 실험하는 것을 Quantified Self라고 합니다. 이미 해외에서는 인기를 끌고 있는 운동(Movement) 혹은 트렌드로 자리를 잡아가고 있죠. 자신을 수치화하고 실험해서 자신에 대해 보다 객관적으로 파악하고 개선해 나가려는 목적입니다. 마치 기업에서 데이터 기반하여 기업 현황을 파악하고 객관적인 의사결정에 활용하는 것처럼 개인 수준에서 데이터에 의한 객관화와 의사결정이라고 할 수 있죠. 앞으로 매우 성장할 분야라고 생각합니다.

지금까지 사례들이 대부분 데이터를 이용해 현재 상황을 파악하고 문제해결이나 예측을 하는 것을 목표로 했습니다. 하지만 데이터의 활용은 그 이상입니다. 예를들어 데이터를 창조적 활동에 활용할 수 있습니다. 요즘은 음악을 만드는데 Digital Audio Workstation (DAW)이라는 소프트웨어를 주로 활용합니다. 이것으로 소리를 녹음하거나 편집할 수 있고, 심지어 소리를 프로그래밍할 수도 있습니다.  제가 시도해 본 것이 원래 음원파일을 기온 데이터의 변화를 반영하여 변조하는 것입니다. 기온 변화양에 따라 음의 높낮이(Pitch)를 높이거나 낮추는 것입니다. 기온 데이터에 기반하여 PitchShift 효과를 적용하는 것이죠. 그닥 듣기 좋은 소리는 나오지 않아도 전형적인지 않은 사운드를 만들어 낼 수 있습니다. 또한 기온 데이터가 변함에 따라 매번 다른 사운드를 만들어내죠. 심플한 사례이지만 이런 형태로 창의적인 작업에 데이터를 활용하는 것도 충분히 가능합니다.

데이터는 이해와 창조의 원천

매트릭스 1편 마지막 장면을 보면 네오가 각성하고 이 세상이 0과 1로 이루어진 매트릭스 안에서 살고 있음을 깨닫게 되죠. 저는 그 장면이 우리가 지금 살고 있는 세상의 모습과 크게 다르지 않다고 생각합니다. 이 세상은 데이터, 더 나아가 정보로 이루어져 있습니다. 데이터는 인간과 세상을 이해하기 위한 가장 중요한 수단입니다. 또한 데이터를 가지고 놀다보면 생각지도 못한 창조적인 결과물들을 얻을 수 있습니다. 데이터는 무한한 가능성을 지닌 보물창고입니다. 지금 당장 데이터 속으로 뛰어드시기 바랍니다.

Written by zeronova

2014/03/15 at 11:32 오전

시민 기상 관측소, 시민의 힘으로 날씨를 맞춘다!

with 2 comments

최근 폭염과 열대야, 잦은 집중호우등 변덕스런 날씨로 인해 짜증이 극에 달하고 있다. 이런 날씨를 제대로 예측해 주지 못하는 기상예보 역시 짜증을 증가시킨 책임을 피할 순 없을 듯 하다. 지구적으로 기상이 변하고 있고, 이상기후현상이 잦아지고 있어, 기상청만 탓할 수 있는 문제는 아닌 듯 하다. 이런 변화에 좀 더 능동적으로 대응할 수 없을까? Crowdsourced weather data가 하나의 가능성으로 떠오르고 있다.

Crowdsourced data를 잘 활용할 수 있는 분야 중에 하나가 바로 날씨다. 아니나 다를까 일반 시민을 기상 관측소 내지는 기상 센서로 삼아서 세밀한 지역의 날씨와 온도 등을 관측하고 심지어 날씨를 예측하고자 하는 서비스들이 등장하고 있다. Social weather 서비스라고도 하며, Weathermob, Weddar, WeatherSignal 등이 대표적이다. 사용자 스마트폰에 앱으로 설치되어 각 지역의 현재 날씨 관련 정보를 모으고 이를 집계하거나 분석하여 다시 사용자에게 날씨정보 서비스를 제공한다.

1. Weathermob

현재는 아이폰앱만 제공되고 있고, 135개국에 10만명의 사용자가 있고 110만 달러 정도 투자받았다. 사용자가 그 지역의 날씨를 직접 리포팅하는데 방식은 간편하고도 직관적이다. 세 가지 질문에 답을 선택하면 된다. “The weather is” (예. light rain), “I’m feeling” (예. cheerful), “It’s the weather for” (예. shopping) 더불어, 사진이나 동영상, 텍스트를 함께 보낼 수 있다. Gamification도 적용하여, 리포팅을 많이 하는 경우 그 지역에 ‘Bureau Chief’ 타이틀을 준다. (Foursquare와 유사) 일종의 기상캐스터 지위를 부여하는 것이다. Weathermob만의 특징으로 주장하는 것이 다른 서비스들은 현재 날씨 정보만 제공하는데 반해 Predictive Analytics를 통해 날씨 예보도 제공한다. 아마 기존 기상예보 정보와 자신들의 데이터를 함께 분석하지 않을까 싶다.

iPhone Screenshot 1iPhone Screenshot 2iPhone Screenshot 3iPhone Screenshot 4

< Weathermob App >

2. Weddar

아주 심플한 형태로 날씨를 리포팅한다. 날씨에 대해 어떻게 느끼는지 질문에 대해 사용자는 Perfect, Hot, Hell, Good 등의 9가지의 느낌과 Cloudy, Rainy, Windy, Snowy의 4가지 옵션으로 리포팅하게 되어 있다. 여기도 리포팅 수에 따라 순위를 매겨서 참여를 독려하는데, 아직은 초보적인 수준인 듯 하다. 147개국 13만 다운로드가 되었다고 하는데(안드로이드 버전이 있어서 다운로드가 더 많은 듯), 완성도는 Weathermob이 더 우수하다.

iPhone Screenshot 1iPhone Screenshot 2iPhone Screenshot 3iPhone Screenshot 4

< Weddar iPhone App >

3. WeatherSignal

이전 포스팅에서 잠깐 언급한 서비스인데, OpenSignal 서비스하다가 덤으로 개발한 서비스다. 접근방법이 Weathermob이나 Weddar와 전혀 다르다. 휴대폰 배터리 온도를 측정하여, 외부 기온을 유추하는 것이다. 사용자가 일일이 입력할 필요가 없다는 점에서 가장 우아한 방법이지만, 아직은 정확도나 예측력 등은 한계가 있다. WeatherSignal은 스마트폰에 온도, 습도, 기압 등 기상관련 데이터를 측정할 수 있는 센서가 더 많이 탑재되길 기대하고 있고, 이들 데이터를 기반으로 날씨를 예보하는 방향으로 진화하고 있다. 현재 이런 기상 관련 센서가 가장 잘 구비된 폰이 바로 삼성 갤럭시 S4라고 한다. (나도 그것 때문에 조만간 S4로 갈아타려고 한다)  자세한 설명은 아래 링크들을 참고.

 WeatherSignal wants to create crowdsourced weather reports using Android phone sensors WeatherSignal wants to create crowdsourced weather reports using Android phone sensors WeatherSignal wants to create crowdsourced weather reports using Android phone sensors WeatherSignal wants to create crowdsourced weather reports using Android phone sensors

< WeatherSignal Android App >

Crowdsourced weather data의 가치

이 서비스들을 실제 휴대폰에 설치하고 사용해 보면 그닥 실용적이라는 느낌이 들지 않는다. 기존 일기 예보에서 주는 정보와 크게 다르지 않다는 느낌이다. 내가 관심있는 정보는 몇시간 후 퇴근할 때 비가 올지, 혹은 주말에 여행가는데 비가 올지 등 예보와 관련된 것인데, 이 서비스들은 주로 현재 기온이나 날씨 정보를 알려주는 것이 주목적이라, 예보 기능이 떨어진다. 자, 그럼 이렇게 많은 사용자들의 참여로 쌓아놓은 데이터와 이를 가공한 서비스는 도대체 무슨 가치를 가지는 것일까? 여기 몇 가지 가능성에 대해 나름대로 상상해 보자.

  • 더 촘촘한 지역적 데이터로 기상 관측의 정확도를 향상: 전 세계적으로 약 3만개 정도의 기상관측소가 있고 이곳의 관측 데이터로 예보를 하는 것인데, 지금도 대략 30-40% 정도가 틀린다고 한다. Crowdsourced weather data는 사용자 휴대폰을 일종의 작은 기상관측소로 활용하여 훨씬 많은 수의 관측소가 촘촘한 간격으로 데이터를 쏟아내는 것이라 볼 수 있다. 이 데이터는 기존 관측 데이터가 커버하지 못하는 missing information을 매꿔줄 수 있을 것이다. 두 데이터의 결합으로 더 정확한 예보가 가능해 질 수 있고, 진정한 빅데이터의 활용 케이스가 될 수 있다.
  • 일기예보 시스템이 갖춰지지 않았거나 부정확한 나라에서 활용: 실제로 Weathermob의 다운로드가 중국, 사우디아라비아, BRIC, 제3세계 국가 등에서 늘고 있다고 한다. 특히 최근 중국에서 태풍 발생이후 중국 다운로드가 급격히 증가했다고 한다. 중국은 광대한 국토에 비해 이를 세세히 커버할 수 있는 기상시스템이 부족하고, 재난 경보를 전파시키는 것도 쉽지 않다. 적절한 규모의 참여자만 확보할 수 있다면, 오랜 시간이 걸리는 기상 시스템 구축을 기다리는 것보다 현실적인 대안이 될 수 있다.
  • 지역적으로 세분화된 기상 정보 제공: 일기 예보를 보면 서울, 경기, 부산, 광주 등 각 도시의 날씨를 알려준다. 하지만 서울이라고 날씨가 다 같지 않다. 지금 잠실에서 비가 오고 있지만, 여의도에선 구름만 잔뜩 끼어 있을 수 있다. 여의도에서 근무하고 있는데, 회의 때문에 잠실로 가야한다면 현재 잠실의 날씨가 궁금하지 않을까? 이렇게 지역적으로 세분화된 기상 정보를 제공하는데는 Crowdsourced data가 정답이 될 수 있다. 또한 해외여행 가기 전에 정확한 목적지의 날씨를 알 수 있다. 그것도 현지인이 올려준 날씨 관련 사진과 함께… 태국 코사무이로 휴가를 가는데, 방콕 날씨를 들어봐야 무슨 소용이 있겠는가!
  • 갑작스런 기상이변이나 재난에 대한 신속한 경보 제공: 국내만해도 최근들어 열대성 스콜과 유사한 국지성 집중호우가 빈번히 발생하고 있다. 점심식사를 위해 회사 근처 식당을 가다가 갑작스런 집중호우를 맞게 된 사람이 앱으로 집중호우를 리포팅하고, 집중호우 정보에 대해 경보를 알려주도록 설정되어 있는 인근 지역 직장인들은 우산을 챙겨갈 수 있게 된다. 또한 미국에선 토네이도에 의한 피해가 매년 발생하는데, 휴대폰을 통해 보다 지역적이고 즉시적인 경보가 가능할 것이다. 예전에 트위터 등 SNS를 통해 전파되던 정보 중에 기상과 재난 관련 정보를 전파하는 특화된 채널 역할을 할 수 있다.

Crowdsourced weather data의 수익모델

앞서 살펴 본 것처럼 Crowdsourced weather data는 서비스 자체로서도 사용자에게 직접적인 가치를 줄 수 있으며, 수집된 전체 데이터셋을 분석함으로써 보다 의미있는 가치를 뽑아낼 수 있다. 하지만, 돈을 어떻게 벌지는 금방 와 닿지 않는다. 세 곳도 아직 그에 대한 뚜렷한 대책이 있어 보이진 않는다. 그나마 Weathermob이 가장 구체적인 아이디어를 개발 중이다. 바로 데이터 자체를 다른 곳에 제공하는 것이다. 데이터 거래 시장 서비스는 이미 Data Market과 같은 서비스들이 등장하기 시작했다. 헷지 펀드들도 더 정확한 투자를 위해 데이터를 사들이고 있다. 운송 회사, 보험 회사, 보안 회사 등도 실시간의 정확한 날씨 정보가 필요하다. 글로벌 기업들에게는 제 3 세계 국가들이나 BRIC 등에서 사업을 하기 위해 믿을만한 기상 정보 채널로서, Crowdsourced weather data를 활용할 수 있다. 심지어 Weathermob은 이렇게 데이터를 팔아서 얻은 수익을 사용자에게 분배하는 모델도 고려 중이라고 한다. 개개인의 데이터가 돈으로 환산되는 시대가 오고 있는 것이다.

Written by zeronova

2013/08/23 at 10:40 오전

Big Data, Crowdsourced Data에 게시됨

OpenSignal: Crowdsourced data로 3G와 LTE 커버리지 지도를 그리다

with 2 comments

재미난 회사 OpenSignal을 알게 된건 그들이 사이드 프로젝트로 진행했던 WeatherSignal 때문이다. 휴대폰 배터리의 온도를 측정해서 실제 기온을 측정해 보자는 아이디어다. 그게 어떻게 가능할까? 자세한 내용은 “배터리를 온도계로 만드는 데이터 과학“에서 볼 수 있다. (상세한 내용은 OpenSignal 블로그에서 확인) 간단히 얘기하자면, 안전을 위해 휴대폰은 배터리 온도를 지속적으로 측정하는데, 이 온도가 휴대폰 사용에 따라서도 변하지만, 외부 온도에 영향을 받을 것이고, 이 데이터를 여러 휴대폰으로부터 모으면, 실제 기온을 맞출 수 있을 것이라는 가정이다. 이 프로젝트에선 6개월치 데이터로 배터리 온도와 실제 온도 사이의 상관성을 찾아보았더니 꽤나 높은 상관관계(Pearson coefficient of 0.82)를 보인다는 재밌는 결과를 얻게 된다. 배터리 온도 데이터에 대한 정말 예상치 못한 활용 아닌가!

WeatherSignal

WeatherSignal

OpenSignal: 전 세계의 Wireless Coverage Map을 그리다.

WeatherSignal 프로젝트가 가능할 수 있었던 것은 OpenSignal이 모아놓은 휴대폰 센서 데이터들이 있었기 때문이다. OpenSignal은 휴대폰 사용자들이 자발적으로 설치한 앱을 통해 3G, LTE, WiFi 등의 신호 강도와 업링크/다운링크의 속도 등의 데이터를 수집하여, 전 세계의 무선 통신 커버리지 지도를 그리는 것이다. 앱을 설치하게 되면, 지속적으로 관련 데이터를 OpenSignal 서버로 보내게 된다. 휴대폰에서 데이터를 보낼 때 단말을 식별할 수 있는 정보는 제거되고, 최소한의 배터리 소모만 일으키도록 만들어졌다고 한다. 서버로 모아진 데이터는 집계되고 지도 위에 반영되어 아래와 같은 커버리지 맵을 볼 수 있게 된다. 그리고 이 데이터는 API 형태로 공개되어 다른 서비스에서도 활용 가능하다.

OpenSignal wireless coverage map

OpenSignal wireless coverage map

그럼 앱을 설치한 사용자들에게는 무슨 혜택이 있을까? 앱을 통해 현재 위치의 신호 강도와 주변 지역의 통신망 현황을 알 수 있다. 또한 업로드/다운로드 속도와 주변 WiFi AP 위치 등을 알 수 있고, 무엇보다 휴대폰의 데이터 사용량을 트래킹해 준다. 실제 사용해 본 바로는 흥미 이상의 특별히 실용적인 앱은 아니다. 오히려, 전 세계 무선망의 커버리지를 그리고 이를 통해 통신 서비스 개선에 도움을 준다는 공익 차원이 더 강하지 않을까 싶다.

iPhone Screenshot 1iPhone Screenshot 2iPhone Screenshot 3iPhone Screenshot 4

< OpenSignal iPhone App >

Crowdsourced data: 사용자 참여를 통해 얻어낸 빅데이터의 힘

사실 휴대폰의 신호강도나 속도 관련 데이터는 휴대폰 자체에서 사용하기 위한 것이다. 주변 기지국의 신호강도를 탐지하여 가장 우수한 기지국으로 연결한다든가, 이동시 핸드오프할 기지국을 찾는 등의 통신 자체와 관련된 기능을 위해 필요한 데이터인 것이다. 하지만 이런 개별 데이터를 모으면, 개별 데이터가 주는 가치를 넘어서는 집단적인 가치(Collective Value)를 얻어낼 수 있다. 즉, 어느 기관이나 국가에서도 그릴 수 없었던 높은 정밀도의 무선망 커버리지 맵을 그릴 수 있다. 현재 OpenSignal은 50억개 이상의 시그널을 읽어 들여 80만개 이상의 기지국과 12억개 이상의 WiFi AP를 탐지했다. 이 수치는 참여자들이 늘어날수록 증가될 전망이고 커버리지 맵은 점점 더 정확하고, 정밀해 질 것이다.

Crowdsourcing은 이미 다양한 분야에 응용되어 창조적인 서비스들을 만들어내고 있다. 펀딩, 디자인, 개발, 연구 등 다양한 분야에 활용되고 있지만, 데이터 관점에서 Crowdsourcing을 접목하기 시작한 것은 비교적 최근이며, 빅데이터 흐름과 맞닿아 점점 관심이 높아지고 있다. 빅데이터에서 매우 어려운 부분이 의미있는 규모의 데이터를 얻는 것인데, Crowdsourced data가 좋은 대안이 될 수 있다. 적절한 수의 참여자만 모을 수 있다면 빅데이터로서의 가치를 얻을 수 있다. 즉, 데이터 자체가 Noisy하더라도 의미있는 정보를 뽑아낼 수 있다. WeatherSignal에서도 사용자에 따라 휴대폰을 주머니에 넣어두거나 에어콘이 빵빵한 환경에서 사용하는 등 원래 가설에서 벗어나는 데이터를 생성하는 경우가 있겠지만, 수많은 휴대폰의 데이터를 집계하다보면, 대략적으로 평균적인 값을 뽑아낼 수 있다. more data can beat cleaner data, 그들의 경험에서 나온 교훈이다.

물론 Crowdsourced data는 Privacy 이슈와 참여자에게 어떤 가치를 제공할 것인가라는 두 가지 중요한 이슈를 풀어야 한다. 이를 잘 풀 수 있다면 Startup을 도전해 볼 만한 좋은 주제가 아닐까 싶다.

Written by zeronova

2013/08/21 at 8:51 오전

Big Data, Crowdsourced Data에 게시됨