ZERONOVA

Data, Open, Share, Platform, Cloud, Education

Archive for the ‘Big Data’ Category

헬스케어 이노베이션 – 책 요약 (1-3장)

leave a comment »

최근에 최윤섭 박사님의 “헬스케어 이노베이션”이라는 책을 다 읽었는데, 내용이 너무 좋아 블로그에 요약을 남겨본다. 원래 최박사님께서 “최윤섭의 Healthcare Innovation“이라는 블로그를 오래 전부터 운영해 오고 있고, 전문성있고 깊이 있는 분석글을 올려 주시고 있다. 이번 책은 그 내용들을 체계적으로 정리하고 깔끔하게 다듬은 결과물이라 하겠다.

책은 총 7장으로 구성되어 있는데 내용적으로는 크게 세 부분으로 나눌 수 있다.

  • 1~3장: 헬스케어 분야에서 일어나고 있는 혁신에 대해 사례 위주로 설명
  • 4~5장: 미래의 헬스케어를 위해 풀어야 할 과제와 실패사례를 통한 교훈
  • 6~7장: 헬스케어 사업을 위한 조언과 예측

그 중 우선 1~3장 까지 최신 헬스케어 혁신 사례들에 대해 정리해 본다. (나머지는 시간 나면 다시 정리할 계획)

 

1장에서는 개인 유전자 분석 서비스와 이를 통한 맞춤 의학의 발전과 전망에 대해 설명한다.

  • 일루미나(Illumina) 유전체 분석 기기를 생산하는 회사로, 2014년 1월 1,000 달러 이하로 30 시간 정도에 한 사람의 유전 정보를 해독할 수 있다고 발표함으로써, ‘1,000 달러 게놈’ 시대를 열었다. 이것이 의미하는 바는 이제 개인 각자가 유전 정보를 가질 수 있는 시대가 되었다는 것이고, 유전 정보를 활용하는 사례가 엄청 늘어날 것이다.
  • 파운데이션 메디신(Foundation Medicine) 암과 관련된 유전자 236개를 한번에 정밀 분석하여 적합한 치료제를 처방해 준다. 그것도 단 2주만에 5,800 달러의 비용이면 가능하다. 비용과 시간을 극적으로 개선한 것이다. 유전 정보에 의한 암 맞춤 치료의 시대를 연 것이다.
  • 23andMe 개인 유전 정보 분석 서비스 시장을 개척한 회사로, 개인 고객이 의사를 통하지 않고 자신의 유전 정보를 분석해 주요 질병에 대한 발병 확률, 유전적 특징 등에 대해 알려준다. 처음 999 달러로 시작해, 지금은 99 달러까지 저렴해 졌다. 궁극적인 목표는 100만 명의 유전 정보 빅데이터를 확보하여 그 동안 답하지 못했던 많은 의학적인 문제를 풀겠다는 것이다. (2014년 7월 70만명 확보)
  • 카운실(Counsyl) 부모의 유전 정보를 바탕으로 임신하기도 전에 미리 아기가 희귀 질환에 걸릴 가능성을 알 수 있는 가족계획검사(family prep screen) 서비스를 제공한다. 태어날 아기의 생명과 관련되어 있어 비용 지불 의사가 더 크다고 할 수 있다. (비용은 부부가 함께 120만원) 이미 미국서 태어나는 신생아의 4% 정도가 이 테스트를 거쳐 태어난다고 한다.
  • 미놈(Miinome) 각 소비자들의 유전자 정보와 물건을 팔고자 하는 마케터 사이를 이어주는 유전 정보 거래 플랫폼을 계획하고 있다. 소비자들은 자신의 유전 정보에 맞는 새로운 제품 정보나 광고들을 미놈을 통해 받아보게 된다. 예를 들어, 대머리가 될 확률이 높은 사용자에게 탈모 유발 스트레스를 줄여주는 스파나 요가 정보를 제공하는 것이다. 유전 정보에 대한 활용 가능성을 건강/의료를 넘어서 넓힌 것이다.

2장에서는 최근 등장한 다양한 헬스케어 디바이스를 소개한다.

  • 스카나두(Scanadu) 스카우트(SCOUT)라는 활력 징후 측정 장치를 개발하고 있는데, 손바닥 보다 작은 크기의 장치를 관자놀이에 대고 있으면 10초 내에 기본적인 신체 활력 징후(심박수, 체온, 맥파 전달 시간, 산소 포화도 등)를 측정해 준다. 이 정보는 가족이나 의사와 공유할 수 있다. 가격도 150 달러로 저렴하다. 꼭 병원에 가지 않아도 이런 정도의 신체 정보를 상시적으로 체크할 수 있어 질병에 대해 더 정확한 진단이 가능하고, 장기간 저장된 개인 데이터는 맞춤형 의료를 가능하게 한다.
  • 메드마인더(MedMinder) 스마트 약상자로 복용할 약이 요일별, 아침/점심/저녁 시간별 개별 트레이로 나눠 보관되고 약 먹을 시간이 되면 알람이 울린다. 또한 트레이 뚜껑을 열어야 할 때 환자가 열지 않거나 엉뚱한 트레이를 열면 환자와 보호자에게 연락이 간다. 고령 환자에게 상당히 도움이 된다.
  • 프로테우스 디지털 헬스(Proteus Digital Health) 기존의 먹는 약에 부착할 수 있는 모래알 크기의 ‘소화 가능한 센서(ingestible sensor)’를 개발했다. 구리와 마그네슘으로 이루어진 이 센서는 위 속에 들어가 위액과 반응하면 1.5볼트 정도의 미세한 전류를 발생시키고 이후 자연스럽게 체내에 소화된다. 배에 붙여 놓은 패치에 의해 발생된 전류를 감지하여 약의 복용여부와 시간을 스마트폰이나 클라우드에 기록할 수 있다. 이런 종류의 기술을 ‘스마트 약(smart pill)’이라고 부르며, FDA 승인을 마쳤고 임상 시험 결과 99.1%의 정확도를 보였다. 다국적 제약사에서 지대한 관심을 보이고 있고, 병원과 보험사까지 활용할 수 있을 것으로 예상하고 있다.
  • 얼라이브코(AliveCor) 아이폰이나 갤럭시 같은 스마트폰에 부착 가능한 케이스 형태의 심전도 기기다. 두 개의 전극이 붙어 있어 양손으로 잡거나 가슴에 대면 심전도를 실시간으로 측정할 수 있다. 심지어 사람 뿐만 아니라 애완동물의 심장 상태도 측정할 수있다. 이렇게 얻은 심전도 데이터를 기록하고 저장할 수 있다. 또한 얼라이브 인사이트 서비스를 통해 측정한 심전도 데이터를 의료 전문가에게 원격 전송해서 해석과 진단도 받을 수 있다. 더 나아가 병원의 EMR 시스템과 연동시킴으로써 평소 측정한 심전도 데이터가 실시간으로 전송되어 병원의 EMR에 자동으로 저장되고, 의사들이 환자 진료에 손쉽게 활용할 수 있게 한다. 이 제품은 이미 FDA 승인을 받았고 가격도 200 달러 정도로 저렴하다. 가장 완성도있고 비즈니스 모델 측면에서도 영리한 회사라 할 수 있다.
  • 구글 혈당 측정용 컨택트 렌즈 눈물을 통해 비침습적이고 연속적으로 혈당을 측정할 수 있는 스마트 컨택트 렌즈를 개발하고 있다. 당뇨병 환자는 혈당을 자주 측정해야 하는데 매번 피를 뽑아 측정하는 것은 매우 스트레스를 주는 일이다. 이를 개선하기 위한 시도로서, 혈당뿐 아니라 체온, 콜레스테롤 수치 등과 같은 다양한 활력 징후도 측정할 수 있다고 한다. 또한 렌즈에 LED를 장착함으로써 정보를 바로 표시할 수 있으며 증강현실에도 활용될 전망이다. 물론 아직 기술적인 해결 과제가 산적해 있지만, 완성될 경우 파괴력이 엄청날 것으로 전망한다.

3장에서는 최신 IT 기술들이 헬스케어 분야에 활용되는 사례를 소개한다.

  • 구글 글래스 가장 말되는 응용으로서 의사들이 수술 중에 구글 글래스를 착용하여, CT 스캔 이미지나 과거 병력/환자 정보 등을 실시간으로 확인하거나 수술 과정을 의사 관점에서 녹화하여 교육용으로 활용하는 시도가 늘고 있다. 보스턴 종합 병원은 응급실에서 의사들이 글래스를 착용하고 다니는 최초의 병원이 되었고, UC 어바인 의과대학에서는 구글 글래스를 학생들의 교육 커리큘럼에 포함하겠다고 발표했다. 구글 글래스 전용 의료 어플리케이션을 개발하는 오그메딕스는 진료시 입력해야 하는 전자건강기록(EHR)을 구글 글래스를 통해 자동으로 입력할 수 있게 해 준다. 이를 통해 의사들이 데이터 입력하는 시간이 대폭 줄어들고, 환자와 직접 대면하는 시간이 늘어날 것으로 예상한다. 실제 3명의 의사가 오그매딕스의 구글 글래스를 이용해 2,700건이 넘는 환자 진료를 수행한 결과 데이터 입력 시간은 총 근무 시간의 33%에서 9%로 대폭 줄었고, 환자를 직접 대면하는 시간은 35%에서 70%로 두 배 증가했다. 이와 같이 의료 환경에서 구글 글래스를 활용할 수 있는 가능성은 무궁무진하다.
  • IBM 왓슨 미국 유명 퀴즈쇼 프로그램 ‘제퍼디!’에서 인간 챔피언들을 이긴 IBM 슈퍼컴퓨터 왓슨은 암 의료 분야에 적용되기 시작했다. 암 연구 분야에 대해 60만 건의 의학적 근거, 42개 의학 저널과 임상 시험 데이터로부터 200만 페이지 분량의 자료들을 학습시키고, 전문의들의 노트, 환자들의 기록, 실험실 결과, 임상 결과 등의 자연어 형태의 데이터를 모두 학습시켰다. 2013년 2월 드디어 메모리얼 슬론 케터링 암센터에 실제 투입되어, 의사들에게 특정 암 환자를 치료하기 위한 가능한 최적의 치료법을 추천해 주기 위해 사용됬다. 또한 의료 보험사인 웰포인트는 특정 환자를 치료하기 위해 의사가 제시하는 치료법과 왓슨이 제시하는 치료법을 서로 비교하여 의료 보험금을 지급해도 되겠는지 판단하는 용도로 왓슨을 활용하고 있다. 왓슨은 인간이 모두 기억할 수 없는 방대한 양의 의학 지식을 눈 깜짝할 사이 검색하고 진료의 근거를 제시할 수 있기 때문에 현대 의학의 목표 중 하나인 ‘근거 중심 의학(evidence-based medicine)’을 구현할 수 있는 발판을 마련해 주고 있다. 물론 왓슨은 의사의 결정을 보조해 주는 역할을 하고 있고, 최종 결정은 의사의 경험과 직관에 따라 내려진다. 하지만, 이러한 기술의 발전은 의사의 역할에 대해 제정의가 필요한 시대가 오고 있음을 말해 주고 있다.
  • 3D 프린터 개별 환자의 신체 구조를 더 정확하게 반영해서 맞춤형 인공물을 만들어 낸다. 이미 의료 현장에 폭넓게 응용되고 있는데, 정형외과, 치과, 성형외과에 이어 암 수술에까지 활용 범위를 넓혀가고 있다. 3D 프린터를 이용해 만든 맞춤형 보청기가 가장 일반적이며, 치아 보철물 역시 3D 프린터로 만들게 되면 비용과 시간을 현격히 줄여 줄 수 있다. 또한 기존 방식으론 제작 자체가 어려운 인공 턱뼈도 최근 환자에게 성공적으로 이식되었다. 맞춤 의족은 사용자의 취향과 개성을 반영하여 다양한 디자인으로 제작할 수 있어 환자의 감성적인 부분까지 도움을 주고 있다. 가장 극적인 사례는 맞춤 기관지 부목으로 생후 2개월 된 갓난 아기의 생명을 구한 사례이다. 기관지연화증이라는 희귀 질환을 앓고 있었는데 기존 방식과 수술로는사실상 치료 옵션이 없는 상황이었다. 하지만 3D 프린터로 제작된 기관지 부목을 통해 성공적으로 치료할 수 있었다. 더 이상 다른 처치법이 없었던 상황에서 3D 프린터를 활용해 성공한 첫 케이스이고, 앞으로 이런 형태로 불가능했던 치료나 수술에 3D 프린터가 활용될 가능성이 늘어나고 있다.
  • 소셜 네트워크 페이션츠라이크미(PatientsLikeMe)는 나와 같은 질병을 가진 환자들을 찾고 서로 교류할 수 있는 환자 전용 소셜 네트워크 서비스다. 한 마디로 환자들의 페이스북이라고 할 수 있다. 이런 교류를 통해 치료 정보를 교류하고 심정적인 위로를 받으면서 투병 의지를 강하게 할 수 있다. 서비스 차원에서는 환자들의 개인 투병 일지, 질병과 약제에 대한 개인 기록 등 쉽게 얻기 힘든 의료 데이터를 크라우드 소싱 방식으로 모으게 된다. 이렇게 모인 의료 빅데이터는 제약회사와 보험회사에 큰 가치를 지니게 된다. 실제로 이들에게 데이터를 판매하고 협업하는 것이 이 회사의 독특한 비즈니스 모델이라고 할 수 있다. 반대로, 독시미티(Doximity)는 의사들만의 비공개 SNS이다. 이미 미국 의사 중 무려 40%가 가입되어 있다. 의사들간 서로 의료 정보를 주고 받고 진료에 대해 협업을 할 수 있다. 의료와 헬스케어 분야에 특화된 버티컬 소셜 네트워크가 다양한 형태로 가치를 줄 것으로 예상할 수 있다.

Written by zeronova

2015/01/05 at 3:42 오후

Everything is Data – TEDxSNU 발표

with one comment

제가 6회 TEDxSNU 행사에서 발표한 내용을 공유합니다. 제목은 “Everything is Data”입니다. 이 세상 모든 것이 데이터로 이루어져 있고, 우리 주변 모든 것이 데이터의 소스가 될 수 있으며, 이러한 데이터를 잘 활용하고, 가치를 찾아내는 일이 앞으로 매우 중요해 질 것이라는 내용입니다. 발표자료는 아래 링크에서 다운받아가시면 됩니다.

Everything is Data-TEDxSNU2014

발표 내용을 아래 살짝 요약해 드릴께요.

What is Data?

데이터란 정량적/정성적인 변수들의 값들에 대한 모음이라고 위키피디아에 정의되어 있는데, 전문가 아니고선 이해하기 어렵죠. 그냥 간단히 디지털적인 비트(0,1)로 변환될 수 있으면 모든 것이 데이터라고 보시면 됩니다. 우리도 일상 생활에서 데이터를 많이 보고 있습니다. 예를들어 엑셀에 가계부를 기록하거나, 고객명단을 적거나, 가게 매출을 기록하는데, 이들이 모두 데이터입니다. 아이튠즈는 뮤직 플레이리스트 데이터를 저장하고 있습니다. 내가 가지고 있는 곡이 어떤 것이 있고, 각 곡에 대한 정보를 기록하고 있죠. 우리가 지하철에서 흔히 보는 지하철노선도 역시 데이터입니다. 지하철 경로에 대한 정보를 시각적으로 보기 좋게 지도 형태로 표현한 데이터죠. 데이터를 많이 만들어 내는 곳 중에 하나가 대학 실험실입니다. 여기서 실험 결과 데이터를 얻어내고 분석하여 자신들이 주장하는 가설을 검증하는 것이죠. 심지어, 우리 몸 자체 역시 데이터로 이루어져 있다고 할 수 있습니다. 우리 유전 정보를 담고 있는 염기서열 자체가 데이터라고 할 수 있습니다. ATGC의 문자열로 이루어진 데이터라고 할 수 있습니다. 이와 같이 우리 주변 모든 것이 데이터를 쏟아내고 있고, 심지어 데이터로 이루어져 있습니다.

Why Data Matter?

왜 데이터가 중요할까요? 세상을 바라보는 관점은 여러가지가 있는데, 데이터라는 렌즈를 통해서 바라보면 우리가 알지 못했던 깊은 통찰력을 얻을 수 있습니다. 또한 데이터는 창조의 씨앗 역할을 할 수 있고, 실행을 할 수 있는 원동력이 됩니다. 하나하나 살펴 볼까요?

최근 데이터 활용의 성공적인 사례로 서울시 심야버스가 종종 언급됩니다. 밤 12시부터 5시까지 심야버스를 운행함으로써 밤늦게 귀가하는 시민들에게 중요한 수단을 제공하고 있습니다. 그런데 심야버스 노선을 어떻게 정해야 할까요? 보통은 버스노선을 연구하고 관리하는 전문가분들께서 경험과 직관에 따라 노선을 정할 것입니다. 실제로 서울시 심야버스도 일차적으로는 그렇게 노선을 정했구요. 하지만 여기서 끝낸 것이 아니라, 데이터를 분석하여 노선을 검증하고 일부 구간은 수정을 했습니다. 이를 위해 kt에서 심야시간대의 통화이력 한달치를 분석하여 유동인구에 대한 통계결과를 제공했고, 이것을 활용해서 노선의 정확도를 훨씬 높인 것입니다. 전문가의 경험/직관과 데이터의 객관적인 사실이 잘 조합된 케이스입니다. 여기에 대해선 제 블로그글 “서울시 심야버스 노선 최적화 빅데이터 활용사례”을 참고하세요.

심야버스 노선 최적화가 데이터를 활용한 문제해결(Problem Solving)에 활용된 사례라면, 데이터를 이용해 예측(Prediction)을 할 수 있습니다. 트위터 데이터가 무엇인가를 예측하기 위해 종종 활용되고 있습니다. 트위터 데이터로 주가를 예측할 수 있을까요? 여러 대학에서 이와 관련된 연구를 했고, 그 가능성을 입증했습니다. 원리를 간단히 설명하자면, 트위터 데이터에서 특정 회사들에 대해 사용자들이 얘기하는 평가를 측정하는 것입니다. 이런 것을 감정분석(Sentiment Analysis, Opinion Mining)이라고 합니다. 예를들어, 삼성전자에 대해 좋은 평가를 하는 글들이 많아지면, 앞으로 주가가 오를 것이라고 예측하는 것이죠. 이를 위해선 트위터 데이터에서 긍정/부정을 측정할 수 있는 키워드를 뽑아내고 이들의 빈도수를 측정해서 예측을 하는 것입니다. 너무 간단해 보이는데, 실제로는 긍정/부정 말고도 다양한 감정요소를 측정하고 반영합니다. 실제로 트위터와 같은 소셜 데이터 기반으로 투자하는 펀드도 해외에서 나오고 있습니다. 이러한 사례가 데이터를 이용하여 미래를 예측하는 사례입니다.

데이터를 확보할 수 있는 새로운 방법

하지만 이런 일은 보통 데이터를 확보하고 있는 기업이나 정부기관에서나 가능한 일이겠죠. 만약 내가 데이터가 없는 데이터 기반의 서비스나 사업을 해 보고 싶다면 어떻게 해야 할까요? 보다 창의적인 방법으로 데이터를 확보할 수 있는 방법들이 있습니다.

첫번째 방법은 데이터 크라우드소싱(Data Crowdsourcing)입니다. 내가 직접 데이터를 생성하는 것이 아니라 일반 사용자의 참여를 통해 데이터를 만들어내고, 모아서 가치있는 서비스를 제공하는 것이죠. 대표적인 서비스로서 WeatherSignal이 있습니다. 휴대폰 배터리 온도 센서 데이터를 모아서, 전 세계의 기온에 대한 지도를 그리는 것이죠. 사용자들이 모바일앱을 설치하면 자동으로 배터리 온도 센서 데이터를 수집하고, 같은 지역 데이터를 모아서 기온을 추측하는 것입니다. 이 서비스의 기저에는 배터리 온도 센서값과 외부 기온과의 강한 상관관계가 있다는 사실이 깔려있죠. 또 하나는 네비게이션 서비스인 Waze입니다. 네비게이션에서 제공되는 정보들은 일반적으로 업체에서 직접 수집하는데 반해 Waze는 사용자들이 도로를 직접 그릴 수 있게 되어 있고 교통 정체, 사고 등의 실시간 정보를  제공할 수 있게 함으로써, 빠르고 확장성 있는 네비게이션 서비스를 제공할 수 있게 됩니다. 이렇게 모인 데이터와 사용자의 힘의 가치는 얼마나 될까요? 작년에 이 업체는 구글에 1조원에 가까운 가치를 인정받고 인수되었답니다. 이와 같이 크라우드소싱은 내가 직접 생산해 내기 힘든 데이터들을 사용자의 힘을 빌어 확보할 수 있는 좋은 전략입니다.

두번째 방법은 오픈 데이터를 활용하는 것입니다. 요즘 정부와 공공기관을 중심으로 공공 데이터를 오픈하고 있습니다. 특히 최근 정부 3.0이라고 해서 공공 데이터를 개방하고 시민들이 활용하게하여 고용, 복지 등을 촉진하자는 정책들이 쏟아져 나오고 있습니다. 이런 데이터들 중에 의미있는 서비스로 만들어질 수 있는 것들이 꽤 있습니다. 한가지 예로 코드나무에서 개최한 제 1회 공공데이터 캠프에서 하루밤만에 만들어진 안심이 서비스가 있습니다. 안심이 서비스는 건강보험심사평가원의 병원 항생제 처방에 관한 데이터를 수집하여 각 병원들이 항생제를 얼마나 사용하고 있는지 등급으로 지도에 맵핑해서 보여주고 있습니다. 아이들 병원을 찾을 때 유용하겠죠? 이와 같이 내가 원하는 서비스를 만들기 위한 재료로서 오픈 데이터를 활용할 수 있습니다.

개인적인 수준에서 데이터 가지고 놀기

데이터 크라우드소싱이나 오픈 데이터 조차도 그냥 맘만 먹는다고 쉽게 접근하긴 쉽지 않겠죠? 당장 나 스스로 데이터로 이것저것 해 보고 싶다면 어떻게 해야 할까요? 요즘은 개인적인 수준에서 데이터를 모으고, 활용할 수 있는 다양한 도구들이 등장하고 있습니다.

요즘 웨어러블 장치(Wearable device)들이 엄청 주목을 끌고 있죠? 구글 글래스, 갤럭시 기어, 나이키 퓨얼밴드 등 다양한 웨어러블 장치들이 등장하고 있고, 소비자의 지갑을 유혹하고 있습니다. 웨어러블 장치가 뭐라고 생각하세요? 저는 이들이 나에 관한 데이터를 추출해 주는 장치라고 생각합니다. 현재 저는 Fitbit Flex라는 Activity Tracker, 쉽게 말하면 디지털 만보계를 차고 있습니다. 이 장치는 저의 걸음수, 칼로리소모량, 수면시간, 수면상태 등을 측정해서 기록하고, 모바일앱으로 이쁘게 보여줍니다. 이렇게 측정된 데이터를 몇달치 모아서 활동패턴이나 수면패턴을 알아낼 수도 있겠죠. Fitbit이 걸음수에 대한 데이터 측정이라면, 걸음자세나 앉은 자세에 대한 데이터 측정은 Lumoback이라는 Posture Sensor 제품이 해 줍니다. 이 제품을 허리에 차고 있으면 앉거나 걸을 때 자세가 삐뚤어졌을 때 진동을 울려서 바로 잡도록 해 주죠. 그러면서 어느 시간에 자세가 좋지 않았는지, 하루 중 자세가 좋았던 시간과 나빴던 시간의 비율을 기록합니다. 이 데이터 역시 모아서 분석해 보면 나의 자세패턴을 알 수 있겠죠?

하지만 이것 역시 특정 기능을 하는 웨어러블 장치를 구입하고 착용해야 합니다. 그것조차 싫다면? 그냥 손으로 그때그때의 상태를 기록하시면 됩니다. 특히 어르신분들께서는 디지털 장치를 어려워하시기 때문에 이 방법이 더 효율적일 수 있습니다. 저희 어머니께서 당뇨병인데, 당뇨병은 관리가 정말 중요하고 이를 위해서 당뇨 측정과 식사 기록, 운동 기록 등이 중요합니다. 그래서 제가 엑셀로 당뇨일기 표를 만들어 드리고 기록하시도록 부탁을 드렸습니다. 두달정도 기록하신 후 그 표를 모아서 엑셀로 다시 기입하고 R이라는 통계 소프트웨어로 프로그래밍하여 몇 가지 결과들을 뽑아냈습니다. 재밌는 결과가 나오더군요. 점심 이전, 즉 오전의 당수치와 오후의 당수치가 확연하게 다른 것을 볼 수 있었습니다. 이것은 점심 식사에 문제가 있거나, 아니면 오후 활동에 문제가 있어 당수치가 크게 오르는 것이고 추론해 볼 수 있습니다. 이 결과를 어머니께 보여드리니, 놀라워하시면서 오후에 좀 더 조심해야겠다고 생각하시더군요. 그러면서 당뇨일기를 열심히 쓰기로 하셨고, 제가 좀 더 분석해서 어머니께서 당수치를 조절할 수 있는 방안을 찾아보려고 계획하고 있습니다. 어떠세요? 어떤 디지털 장치 없이도 그냥 손으로 데이터를 생성해 낼 수 있습니다.

이와 같이 웨어러블 장치의 도움을 받거나 직접 입력을 하는 방식으로 나에 관한 데이터를 모아서 분석 및 실험하는 것을 Quantified Self라고 합니다. 이미 해외에서는 인기를 끌고 있는 운동(Movement) 혹은 트렌드로 자리를 잡아가고 있죠. 자신을 수치화하고 실험해서 자신에 대해 보다 객관적으로 파악하고 개선해 나가려는 목적입니다. 마치 기업에서 데이터 기반하여 기업 현황을 파악하고 객관적인 의사결정에 활용하는 것처럼 개인 수준에서 데이터에 의한 객관화와 의사결정이라고 할 수 있죠. 앞으로 매우 성장할 분야라고 생각합니다.

지금까지 사례들이 대부분 데이터를 이용해 현재 상황을 파악하고 문제해결이나 예측을 하는 것을 목표로 했습니다. 하지만 데이터의 활용은 그 이상입니다. 예를들어 데이터를 창조적 활동에 활용할 수 있습니다. 요즘은 음악을 만드는데 Digital Audio Workstation (DAW)이라는 소프트웨어를 주로 활용합니다. 이것으로 소리를 녹음하거나 편집할 수 있고, 심지어 소리를 프로그래밍할 수도 있습니다.  제가 시도해 본 것이 원래 음원파일을 기온 데이터의 변화를 반영하여 변조하는 것입니다. 기온 변화양에 따라 음의 높낮이(Pitch)를 높이거나 낮추는 것입니다. 기온 데이터에 기반하여 PitchShift 효과를 적용하는 것이죠. 그닥 듣기 좋은 소리는 나오지 않아도 전형적인지 않은 사운드를 만들어 낼 수 있습니다. 또한 기온 데이터가 변함에 따라 매번 다른 사운드를 만들어내죠. 심플한 사례이지만 이런 형태로 창의적인 작업에 데이터를 활용하는 것도 충분히 가능합니다.

데이터는 이해와 창조의 원천

매트릭스 1편 마지막 장면을 보면 네오가 각성하고 이 세상이 0과 1로 이루어진 매트릭스 안에서 살고 있음을 깨닫게 되죠. 저는 그 장면이 우리가 지금 살고 있는 세상의 모습과 크게 다르지 않다고 생각합니다. 이 세상은 데이터, 더 나아가 정보로 이루어져 있습니다. 데이터는 인간과 세상을 이해하기 위한 가장 중요한 수단입니다. 또한 데이터를 가지고 놀다보면 생각지도 못한 창조적인 결과물들을 얻을 수 있습니다. 데이터는 무한한 가능성을 지닌 보물창고입니다. 지금 당장 데이터 속으로 뛰어드시기 바랍니다.

Written by zeronova

2014/03/15 at 11:32 오전

Facebook의 빅데이터 플랫폼 최근 현황 발표

leave a comment »

지난 9월 초 XLDB 2013에서 Facebook은 자신들의 빅데이터 인프라스트럭쳐에 대해 소개했다. 페이스북의 빅데이터 플랫폼의 최근 모습에 대해 들여다 볼 수 있는 좋은 발표다. 발표자료동영상(15분)이 공개되어 있으니 관심있는 분들은 한번 꼭 살펴 보시길… 이번 포스팅에서는 그 내용을 요약해 보고자 한다.

페이스북의 소프트웨어 인프라는 크게 두 가지로 구성되어 있다.

  • Transactional Infrastructure: 페이스북 서비스를 실행하고 운영하기 위한 인프라
  • Analytics Infrastructure: 서비스에서 모아진 데이터를 분석하기 위한 인프라

Transactional Infrastructure

데이터 종류에 따라 3가지 다른 종류의 저장 시스템이 담당하고 있는데 이들은 데이터 Read/Write 패턴이나 확장성에 따라 각각 특화되어 있다.

  • Social graph –> MySQL
  • Photo –> HayStack (Block storage로 최적화)
  • Chat –> HBase
페이스북 Transactional Infra

페이스북 Transactional Infra

Anaytics Infrastructure (발표의 주제)

페이스북의 모든 서비스 기반에는 Data-Driven이라는 기본 원칙이 깔려있고, 이를 가능하게 해 주는 것이 Analytics Infrastructure이다. 페이스북의 Data-Driven Products의 예를 보자면 아래 그림과 같다. 여기서 News feed의 경우 어떤 Post를 어떤 순서로 보여 줄 것인지 결정하는데 Machine Learning에 의해 데이터 기반으로 결정한다. 또한 Iterative development 문화가 정착되어 빠른 주기로 새로운 기능들이 들어가기 때문에 A/B Test가 중요해지고, 이 때 어떤 feature를 변경했을 때 다른 모든 주요 메트릭에 어떤 영향을 주는지 분석을 한다. 이와 같이 페이스북의 각 제품들은 대부분 Data-Driven으로 실행된다.

페이스북 Data-Driven Products

페이스북 Data-Driven Products

데이터 수집 과정

데이터 수집 과정은 아래 그림과 같이 Scribe에 의해 수십초 단위로 로그 저장소에 수집되고, 1시간 단위로 Data Warehouse (Hadoop)에 로드되어 다양한 배치 분석이 이루어진다. 운영 DB인 MySQL에서 사용자 정보를 하루 내로 가져와 싱크를 맞추는 것 같다. 보는 것처럼 Analytics Infra는 수초 단위의 실시간성이 크게 요구되지 않는다.

페이스북 Data Ingest

페이스북 Data Ingest

Hadoop & Hive 기반 Data Warehouse

Analytics Infra의 핵심에는 Hadoop과 Hive 기반의 Data Warehouse가 존재한다. 여기에는 매일 600 TB의 데이터가 들어오고, 10 PB 데이터가 처리된다. 쌓여있는 총 데이터양은 현재 250 PB라고 한다. 4년 동안 4000배 증가했고, 앞으로 곧 1 EB(Exabyte)에 도달할거라고 예측하고 있다. 이러한 엄청난 양의 데이터를 담기에는 아마 Hadoop이 유일한 솔루션일 것이다.

DW에서 핵심적인 업무는 배치 데이터 분석이고, 이것은 주로 Hive와 MapReduce에 의해 처리되고 있다. 잘 알려진 것처럼 Hive는 페이스북에서 Hadoop 기반 Data Warehouse를 구축하기 위해 직접 만든 배치 쿼리 엔진이고, 오픈소스화해서 지금은 배치 분석을 위해 가장 널리 활용되고 있는 툴이다. 본 발표를 들으면 알겠지만, Hive는 배치 분석이나 데이터 변환을 위해 페이스북에서 매우 열심히 사용하고 있고, 안정적으로 돌아가고 있다. SQL-on-Hadoop이 관심을 받으면서 페이스북이 Hive를 버리고, Presto로 갈아탄다라든가, Hive를 한물간 퇴물 취급하는 사람들이 있는데, 이 발표를 들으면 사실과 다르다는 것을 알수 있을 것이다.

Presto: Interactive Query Engine

배치 분석과 다른 니즈가 나오기 시작했는데, 주로 비즈니스 분석가나 데이터 사이언티스트들이 빠른 쿼리 결과를 원했다. 이를 위해 페이스북에서 활용 가능한 오픈소스를 찾아보았는데, 대부분 reliable하지 않고 scalable하지도 않아서, 2012년 8월부터 직접 개발하기 시작했다. 이 당시를 보면 Impala를 비롯해 SQL-on-Hadoop 제품이 여럿 나와 있었지만, 아마도 수준이 미흡했던 모양이다. 그래서 직접 개발한 제품이 Presto인데, 4명의 소규모팀이 6개월 정도 개발했단다. 현재 6개월이상 Production 환경에서 잘 돌아가고 있다고 하고, 곧 오픈소스로 공개할 것이라고 하니 한번 기대해 봄직하다. 발표를 들어보면 분석가들의 요구사항은 쿼리 결과가 100% 정확하지 않고 98% 정도만 되도 분석하는데는 지장이 없기 때문에 이러한 특징을 설계의 trade-off로 반영했다고 한다. 그 말인즉슨, 데이터베이스가 가지는만큼의 정확도와는 거리가 있을거라는 것이다. 따라서 Presto가 나오더라도 특징을 잘 살펴서 용도를 분명히할 필요가 있을 것 같다. 그나저나 Presto를 4명이 6개월 개발했다는건 정말 놀라운 일 아닌가!

Giraph: Graph Analytics

그래프 데이터 분석은 MapReduce와 잘 맞지 않기 때문에 역시나 외부에 가용한 오픈소스를 먼저 찾아봤다고 한다. 그때 발견한 것이 Giraph이고 출발점으로서 적합하겠다고 판단해서 페이스북 개발자들이 이 오픈소스 프로젝트에 적극 참여하여 작년에 많은 개선을 이뤘다고 한다. 지금은 1 trillion(1조) edge까지 확장 가능하다고 하니, 대용량 네트워크 분석에 관심있는 분들은 한번 체크해 봄직하다. 자세한 내용은 페이스북 노트를 참고하세요. (미처 몰랐는데, 그루터 최현식 박사GIraph 커미터네요, 훌륭하십니다!)

Facebook의 오픈소스 전략: 용도에 맞는 오픈소스 선택과 적극적인 오픈소스 프로젝트 참여

페이스북 인프라 구성을 잘 보면, 워크로드에 따라, 그리고 요구사항에 따라 용도에 맞는 오픈소스를 적절히 잘 선택한 것을 볼 수 있다. 배치 분석을 위해선 Hive를 사용하고, 인터랙티브 쿼리를 위해선 Presto, 그래프 분석을 위해선 Giraph. 최근 빅데이터 시장에선 마치 어떤 한 제품이 모든 문제를 해결해 줄 것처럼 얘기하는 경향이 있는데, 현혹되지 말고 각각이 특화되어 개발된 용도에 맞게 선택해서 구성하는 지혜가 필요하다. 또한, 페이스북은 그래프 분석의 경우, 처음부터 새로 만들지 않고, Giraph 프로젝트에 합류하여 완성도를 높여 사용했다. 이 또한 매우 실리적인 선택이고, 직접 개발하려는 경향이 강한 국내 개발 문화에서 배워야 할 부분이다.

Written by zeronova

2013/09/27 at 3:18 오후

Big Data에 게시됨

국내 빅데이터의 간략한 역사와 PlatformDay

with one comment

국내 빅데이터 역사라고 하니 제목이 좀 거창한 느낌이 든다. 처음 국내에 구글 플랫폼과 Hadoop을 소개하면서 시작된 나의 빅데이터 여정과 이와 함께 궤적을 같이 해 온 PlatformDay라는 행사의 짧은 역사를 한번 되짚어 보고자 한다.

2007년 제1회 PlatformDay를 통해 Hadoop 국내에 첫 소개

국내에 처음으로 Hadoop을 소개한 공식적인 자리가 2007년 PlatformDay일 것이다. 이 때만해도 Hadoop을 알고 있는 사람도 거의 없었고, 빅데이터라는 용어는 엄마 뱃속에 있을 때였다. 2006년에 국책 과제를 기획했는데, 그 내용이 구글 플랫폼(GFS, MapReduce, BigTable 등)과 같은 대규모 대용량의 데이터 플랫폼을 개발하는 것이었다. (결국 이게 GLORY라는 과제로 탄생하게 됨) 이 때 NHN도 함께 참여하였고, NHN의 성기준 랩장(당시)님으로부터 Hadoop이라는 오픈소스의 존재를 듣게 되었다. 당시 구글 플랫폼에 푹 빠져있던 나는 Hadoop에 급관심을 가지게 되었고, 이를 소개하는 자리를 만들어야 되겠다는 생각으로 드디어 2007년 3월 2일 첫 PlatformDay 컨퍼런스를 개최하게 되었다. 그 때만해도 그 행사를 이렇게 오랫동안 하게 될 줄 꿈에도 몰랐다.

2007년 PlatformDay를 대전 KAIST에서 개최했음에도 불구하고, 100여명에 가까운 사람들이 참석했다. 처음 잡아 놓은 강의실이 꽉 차서 결국 KAIST 전산과의 대강당으로 자리를 옮기게 될 정도로 반응은 뜨거웠다. 이 자리에서 내가 구글 플랫폼에 대해 소개하고, NHN에서 Hadoop을 소개해 주었다. (윤진석님, 김형준님) 참석자 리스트를 보면 대부분 회사에서 많이 왔는데, NHN, SK컴즈, 다음, 엠파스, 오픈마루, 호스트웨이, 야후, ETRI 등 여러 곳에서 참석하여 성공적인 행사가 됬었다. 이 때 참석한 분들이 지금은 거의 빅데이터와 Hadoop의 Guru로 자리매김하고, 국내 빅데이터 시장을 견인하고 있다고 볼 수 있다. 행사 후기를 보면 아마 기억이 새록새록한 분들이 많을 것이다.

PlatformDay2007-02 PlatformDay2007-01

2007년 제1회 PlatformDay 컨퍼런스 사진

빅데이터 1세대(2007~2011년): 포털과 통신사 중심으로 Hadoop 플랫폼 구축

아마 NHN 성기준 랩장님이 국내 Hadoop 도입을 가장 먼저한 분일거라 생각한다. NHN 내에 Hadoop을 전파시키기 위해 고군분투했던 것으로 기억한다. 듣보잡에 가까운 오픈소스이고, 대부분의 팀이 자체 분산 시스템을 가지고 있었기 때문에 저항감이 컷다. 이 당시만해도 오픈소스라고 하면 그리 신뢰하지 않는 분위기였다. 그도 그럴 것이 대부분의 오픈소스들이 이렇다할만한 레퍼런스가 없다보니, 완성도나 안정성 측면에서 걱정되었던 것이다. 요새는 오픈소스를 페이스북, 링크드인, 야후 같이 거대 기업에서 직접 만들고 운영하다가 오픈하다보니 이런 걱정들이 많이 불식된 것 같다. 여튼 이런 상황에서 Hadoop을 적극적으로 받아들이기는 쉽지 않은 상황이었고, 초기에는 NHN을 비롯하여, 야후, 오픈마루 등 포털이나 인터넷 서비스 기업 중심으로 조금씩 도입이 이뤄지는 상황이었다. 여기에 통신사도 용감하게 뛰어들었는데, SKT에서 2008년부터 도입을 시작하고, 실제 100대 이상의 클러스터를 구축한 것이다. (이 작업을 우리가 함께 했다) 이러한 초기 사례들은 PlatformDay 행사 프로그램을 보면 대략 감을 잡을 수 있다. (20082009, 2010, 2011)

2006년부터 2011년까지 포털, 인터넷 서비스, 통신사를 중심으로 Hadoop 시스템 구축이 시작되었다. 그런데 여기서 주목할 점이, 이때 구축한 것은 Hadoop 시스템이지 빅데이터 시스템이 아니라는 점이다. 각 기업들이 데이터의 폭증보다는 분산 시스템에 대한 니즈가 있었거나, 아니면 구글같이 플랫폼 경쟁력을 갖추기 위해서 시도한 것이다. 아래 Google Trend로 “빅데이터”, “Big Data”, “Hadoop”을 각각 검색해 보면, 재밌는 경향을 볼 수 있다. 국내나 해외나 마찬가지로 빅데이터라는 용어는 2011년 후반부터 등장하기 시작해서 가파르게 관심을 끌고 있는 것을 볼 수 있고, 반면, Hadoop은 이미 2007년부터 그래프가 지속적으로 올라가고 있는 것을 볼 수 있다. 이것은 바로 빅데이터라는 최신 트렌드를 견인한 것은 Hadoop의 영향이 크다는 반증으로 볼 수 있다. 이후의 두 그래프의 패턴이 유사하게 성장하는 것은 역시 최근 Hadoop이 빅데이터의 표준 기술로 자리매김하고 있음을 보여주는 것이다.

Hadoop과 Big Data Trends 비교

Hadoop과 Big Data Trends 비교

빅데이터 2세대(2012~현재): 빅데이터 기술 종의 다양성 증가와 빅데이터 활용 중심으로 관심 이동

2012년, 2013년 들어오면서 빅데이터에 대한 관심이 폭증하게 되고, 빅데이터 시장은 그 이전과는 다른 양상을 띄게 된다. 내재화를 주목적으로 하는 포털이나 통신사와는 다른 일반 기업들이 Hadoop을 검토하기 시작했고, Hadoop 이외에도 다른 빅데이터 기술을 찾기 시작했다. 여기에 대형 소프트웨어 벤더들이 MPP DB 제품을 주무기로 시장을 공략하기 시작했다. 또한 오픈소스 진영에서도 Hadoop 이외에 NoSQL, In-Memory 시스템, 실시간 스트림 처리 시스템, CEP 등 다양한 오픈소스들이 우후죽순 쏟아져 나온 것이다. 그리고 정말 큰 변화라고 하면, 2011년전까지는 주로 빅데이터 플랫폼 구축이 관심사였는데, 이후로는 빅데이터의 활용이나 분석의 측면이 더 강조되고 있다는 점이다. 오픈소스 R 프로그래밍이나 Data Scientist에 대한 관심도가 2011년 이후로 급증하고 있는 것도 그 맥락으로 이해할 수 있다.

Data Scientist와 R(RStudio로 대신 검색) Trend 비교

Data Scientist와 R(RStudio로 대신 검색) Trend 비교

제공자의 관점이 아닌 수요자의 관점에서 빅데이터를 다시 생각할 시점

결국 내가 보는 관점에선 2011년을 중심으로, 빅데이터라는 용어의 등장을 전후로, 이 시장의 주 관심사가 플랫폼에서 활용/응용으로 넘어가고 있다는 것이다. 당연한 귀결이라고 본다. IT 트렌드의 견인은 항상 기술이 한다. 하지만, 트렌드가 캐즘을 넘고 다수수용자들에게 퍼지기 시작하면, 더 이상 기술자들의 문제가 아니라, 비즈니스의 문제이고, 현업의 문제가 되는 것이다. 그들에게 플랫폼이나 기술은 도구이지 그 자체가 본질은 아닌 것이다. 기업 입장에서도, 빅데이터를 이용한 매출증대나 비용축소가 궁극적인 목적이지, 기술적으로 우아한 시스템을 구축하는게 최종 목적이 아닌 것이다. 물론 포털이나 통신사와 같이 플랫폼 경쟁력 자체가 사업의 본질이고, 지속적으로 진화시킬 필요가 있는 경우에는 기술 내재화쪽으로 진행되고 있다. 하지만 대다수의 일반 기업들에겐 그 자체를 스스로 소화하기에는 너무나 버거운 것이고, 심지어 그 일을 할 수 있는 사람도 찾기 힘든 상황이다. 이런 현실에서 기술만 얘기하고 플랫폼 구축만 강조하는 분위기는 자칫 기업들의 무게중심을 흩트리고, 과거 실패한 IT 기술들의 전철을 밟게 되지 않을까 우려된다.

올바른 빅데이터 기술 생태계를 만들기 위한 노력: PlatformDay

나 역시 Hadoop을 중심으로 사업을 하고 있고, 플랫폼 기술이 제대로 자리잡아 국내의 기술 생태계, 개발자 생태계가 좀 더 윤택해 졌으면 하는 바램이다. 하지만, 그것은 이 기술을 하는 우리의 몫이지 기업 고객의 몫은 아닌 것 같다. 일반 기업은 빅데이터를 잘 활용해서 데이터 중심 기업으로 진화하고, 성과를 내고 미래 경쟁력을 갖추는게 그들의 몫이다. 이것을 잘 할 수 있도록 도구를 지원해 주고, 노하우를 전수해 주는게 우리같은 회사가 할 몫이다. 본질의 주객이 전도되지 않아야 한다.

PlatformDay는 기술쟁이로서, 우리의 몫이라고 생각하는 일을 하는 것이다. Hadoop을 비롯한 다양한 오픈소스 빅데이터 기술이 실제로 여러 곳에서 활용되고 있음을 대중에게 알리고, 이를 통해 자극받은 개발자들이 이 세계에서 새로운 기회를 찾게하고, 고객들에게 빅데이터 기술에 대한 믿음을 주는 것이다. 지금까지 7년을 개최해 오면서 이러한 소기의 목적을 달성했다고 자부한다. 여러 개발자들이 PlatformDay를 통해 빅데이터 기술에 대한 꿈을 꾸고, 그길로 업을 삼고, 오픈소스에 관심을 가지게 되었다. 이제 받은 것을 돌려줘야 할 때가 아닌가 싶다. 지금까지 빅데이터 1세대 개발자분들께서 바쁜 일정 쪼개가며 발표를 해 주었다. (그 분들께 진심으로 감사드린다) 이제 그 자양분을 받고 자란 2세대 개발자, 분석가, 기업들이 나서야 할 차례다. 2013년 PlatformDay 컨퍼런스에선 그런 분들의 발표를 많이 만날 수 있길 기대한다. (발표 참여를 희망하시는 분들은 발표제안요청서(CFP)를 참조)

Written by zeronova

2013/09/13 at 3:45 오후

Big Data에 게시됨

시민 기상 관측소, 시민의 힘으로 날씨를 맞춘다!

with 2 comments

최근 폭염과 열대야, 잦은 집중호우등 변덕스런 날씨로 인해 짜증이 극에 달하고 있다. 이런 날씨를 제대로 예측해 주지 못하는 기상예보 역시 짜증을 증가시킨 책임을 피할 순 없을 듯 하다. 지구적으로 기상이 변하고 있고, 이상기후현상이 잦아지고 있어, 기상청만 탓할 수 있는 문제는 아닌 듯 하다. 이런 변화에 좀 더 능동적으로 대응할 수 없을까? Crowdsourced weather data가 하나의 가능성으로 떠오르고 있다.

Crowdsourced data를 잘 활용할 수 있는 분야 중에 하나가 바로 날씨다. 아니나 다를까 일반 시민을 기상 관측소 내지는 기상 센서로 삼아서 세밀한 지역의 날씨와 온도 등을 관측하고 심지어 날씨를 예측하고자 하는 서비스들이 등장하고 있다. Social weather 서비스라고도 하며, Weathermob, Weddar, WeatherSignal 등이 대표적이다. 사용자 스마트폰에 앱으로 설치되어 각 지역의 현재 날씨 관련 정보를 모으고 이를 집계하거나 분석하여 다시 사용자에게 날씨정보 서비스를 제공한다.

1. Weathermob

현재는 아이폰앱만 제공되고 있고, 135개국에 10만명의 사용자가 있고 110만 달러 정도 투자받았다. 사용자가 그 지역의 날씨를 직접 리포팅하는데 방식은 간편하고도 직관적이다. 세 가지 질문에 답을 선택하면 된다. “The weather is” (예. light rain), “I’m feeling” (예. cheerful), “It’s the weather for” (예. shopping) 더불어, 사진이나 동영상, 텍스트를 함께 보낼 수 있다. Gamification도 적용하여, 리포팅을 많이 하는 경우 그 지역에 ‘Bureau Chief’ 타이틀을 준다. (Foursquare와 유사) 일종의 기상캐스터 지위를 부여하는 것이다. Weathermob만의 특징으로 주장하는 것이 다른 서비스들은 현재 날씨 정보만 제공하는데 반해 Predictive Analytics를 통해 날씨 예보도 제공한다. 아마 기존 기상예보 정보와 자신들의 데이터를 함께 분석하지 않을까 싶다.

iPhone Screenshot 1iPhone Screenshot 2iPhone Screenshot 3iPhone Screenshot 4

< Weathermob App >

2. Weddar

아주 심플한 형태로 날씨를 리포팅한다. 날씨에 대해 어떻게 느끼는지 질문에 대해 사용자는 Perfect, Hot, Hell, Good 등의 9가지의 느낌과 Cloudy, Rainy, Windy, Snowy의 4가지 옵션으로 리포팅하게 되어 있다. 여기도 리포팅 수에 따라 순위를 매겨서 참여를 독려하는데, 아직은 초보적인 수준인 듯 하다. 147개국 13만 다운로드가 되었다고 하는데(안드로이드 버전이 있어서 다운로드가 더 많은 듯), 완성도는 Weathermob이 더 우수하다.

iPhone Screenshot 1iPhone Screenshot 2iPhone Screenshot 3iPhone Screenshot 4

< Weddar iPhone App >

3. WeatherSignal

이전 포스팅에서 잠깐 언급한 서비스인데, OpenSignal 서비스하다가 덤으로 개발한 서비스다. 접근방법이 Weathermob이나 Weddar와 전혀 다르다. 휴대폰 배터리 온도를 측정하여, 외부 기온을 유추하는 것이다. 사용자가 일일이 입력할 필요가 없다는 점에서 가장 우아한 방법이지만, 아직은 정확도나 예측력 등은 한계가 있다. WeatherSignal은 스마트폰에 온도, 습도, 기압 등 기상관련 데이터를 측정할 수 있는 센서가 더 많이 탑재되길 기대하고 있고, 이들 데이터를 기반으로 날씨를 예보하는 방향으로 진화하고 있다. 현재 이런 기상 관련 센서가 가장 잘 구비된 폰이 바로 삼성 갤럭시 S4라고 한다. (나도 그것 때문에 조만간 S4로 갈아타려고 한다)  자세한 설명은 아래 링크들을 참고.

 WeatherSignal wants to create crowdsourced weather reports using Android phone sensors WeatherSignal wants to create crowdsourced weather reports using Android phone sensors WeatherSignal wants to create crowdsourced weather reports using Android phone sensors WeatherSignal wants to create crowdsourced weather reports using Android phone sensors

< WeatherSignal Android App >

Crowdsourced weather data의 가치

이 서비스들을 실제 휴대폰에 설치하고 사용해 보면 그닥 실용적이라는 느낌이 들지 않는다. 기존 일기 예보에서 주는 정보와 크게 다르지 않다는 느낌이다. 내가 관심있는 정보는 몇시간 후 퇴근할 때 비가 올지, 혹은 주말에 여행가는데 비가 올지 등 예보와 관련된 것인데, 이 서비스들은 주로 현재 기온이나 날씨 정보를 알려주는 것이 주목적이라, 예보 기능이 떨어진다. 자, 그럼 이렇게 많은 사용자들의 참여로 쌓아놓은 데이터와 이를 가공한 서비스는 도대체 무슨 가치를 가지는 것일까? 여기 몇 가지 가능성에 대해 나름대로 상상해 보자.

  • 더 촘촘한 지역적 데이터로 기상 관측의 정확도를 향상: 전 세계적으로 약 3만개 정도의 기상관측소가 있고 이곳의 관측 데이터로 예보를 하는 것인데, 지금도 대략 30-40% 정도가 틀린다고 한다. Crowdsourced weather data는 사용자 휴대폰을 일종의 작은 기상관측소로 활용하여 훨씬 많은 수의 관측소가 촘촘한 간격으로 데이터를 쏟아내는 것이라 볼 수 있다. 이 데이터는 기존 관측 데이터가 커버하지 못하는 missing information을 매꿔줄 수 있을 것이다. 두 데이터의 결합으로 더 정확한 예보가 가능해 질 수 있고, 진정한 빅데이터의 활용 케이스가 될 수 있다.
  • 일기예보 시스템이 갖춰지지 않았거나 부정확한 나라에서 활용: 실제로 Weathermob의 다운로드가 중국, 사우디아라비아, BRIC, 제3세계 국가 등에서 늘고 있다고 한다. 특히 최근 중국에서 태풍 발생이후 중국 다운로드가 급격히 증가했다고 한다. 중국은 광대한 국토에 비해 이를 세세히 커버할 수 있는 기상시스템이 부족하고, 재난 경보를 전파시키는 것도 쉽지 않다. 적절한 규모의 참여자만 확보할 수 있다면, 오랜 시간이 걸리는 기상 시스템 구축을 기다리는 것보다 현실적인 대안이 될 수 있다.
  • 지역적으로 세분화된 기상 정보 제공: 일기 예보를 보면 서울, 경기, 부산, 광주 등 각 도시의 날씨를 알려준다. 하지만 서울이라고 날씨가 다 같지 않다. 지금 잠실에서 비가 오고 있지만, 여의도에선 구름만 잔뜩 끼어 있을 수 있다. 여의도에서 근무하고 있는데, 회의 때문에 잠실로 가야한다면 현재 잠실의 날씨가 궁금하지 않을까? 이렇게 지역적으로 세분화된 기상 정보를 제공하는데는 Crowdsourced data가 정답이 될 수 있다. 또한 해외여행 가기 전에 정확한 목적지의 날씨를 알 수 있다. 그것도 현지인이 올려준 날씨 관련 사진과 함께… 태국 코사무이로 휴가를 가는데, 방콕 날씨를 들어봐야 무슨 소용이 있겠는가!
  • 갑작스런 기상이변이나 재난에 대한 신속한 경보 제공: 국내만해도 최근들어 열대성 스콜과 유사한 국지성 집중호우가 빈번히 발생하고 있다. 점심식사를 위해 회사 근처 식당을 가다가 갑작스런 집중호우를 맞게 된 사람이 앱으로 집중호우를 리포팅하고, 집중호우 정보에 대해 경보를 알려주도록 설정되어 있는 인근 지역 직장인들은 우산을 챙겨갈 수 있게 된다. 또한 미국에선 토네이도에 의한 피해가 매년 발생하는데, 휴대폰을 통해 보다 지역적이고 즉시적인 경보가 가능할 것이다. 예전에 트위터 등 SNS를 통해 전파되던 정보 중에 기상과 재난 관련 정보를 전파하는 특화된 채널 역할을 할 수 있다.

Crowdsourced weather data의 수익모델

앞서 살펴 본 것처럼 Crowdsourced weather data는 서비스 자체로서도 사용자에게 직접적인 가치를 줄 수 있으며, 수집된 전체 데이터셋을 분석함으로써 보다 의미있는 가치를 뽑아낼 수 있다. 하지만, 돈을 어떻게 벌지는 금방 와 닿지 않는다. 세 곳도 아직 그에 대한 뚜렷한 대책이 있어 보이진 않는다. 그나마 Weathermob이 가장 구체적인 아이디어를 개발 중이다. 바로 데이터 자체를 다른 곳에 제공하는 것이다. 데이터 거래 시장 서비스는 이미 Data Market과 같은 서비스들이 등장하기 시작했다. 헷지 펀드들도 더 정확한 투자를 위해 데이터를 사들이고 있다. 운송 회사, 보험 회사, 보안 회사 등도 실시간의 정확한 날씨 정보가 필요하다. 글로벌 기업들에게는 제 3 세계 국가들이나 BRIC 등에서 사업을 하기 위해 믿을만한 기상 정보 채널로서, Crowdsourced weather data를 활용할 수 있다. 심지어 Weathermob은 이렇게 데이터를 팔아서 얻은 수익을 사용자에게 분배하는 모델도 고려 중이라고 한다. 개개인의 데이터가 돈으로 환산되는 시대가 오고 있는 것이다.

Written by zeronova

2013/08/23 at 10:40 오전

Big Data, Crowdsourced Data에 게시됨

OpenSignal: Crowdsourced data로 3G와 LTE 커버리지 지도를 그리다

with 2 comments

재미난 회사 OpenSignal을 알게 된건 그들이 사이드 프로젝트로 진행했던 WeatherSignal 때문이다. 휴대폰 배터리의 온도를 측정해서 실제 기온을 측정해 보자는 아이디어다. 그게 어떻게 가능할까? 자세한 내용은 “배터리를 온도계로 만드는 데이터 과학“에서 볼 수 있다. (상세한 내용은 OpenSignal 블로그에서 확인) 간단히 얘기하자면, 안전을 위해 휴대폰은 배터리 온도를 지속적으로 측정하는데, 이 온도가 휴대폰 사용에 따라서도 변하지만, 외부 온도에 영향을 받을 것이고, 이 데이터를 여러 휴대폰으로부터 모으면, 실제 기온을 맞출 수 있을 것이라는 가정이다. 이 프로젝트에선 6개월치 데이터로 배터리 온도와 실제 온도 사이의 상관성을 찾아보았더니 꽤나 높은 상관관계(Pearson coefficient of 0.82)를 보인다는 재밌는 결과를 얻게 된다. 배터리 온도 데이터에 대한 정말 예상치 못한 활용 아닌가!

WeatherSignal

WeatherSignal

OpenSignal: 전 세계의 Wireless Coverage Map을 그리다.

WeatherSignal 프로젝트가 가능할 수 있었던 것은 OpenSignal이 모아놓은 휴대폰 센서 데이터들이 있었기 때문이다. OpenSignal은 휴대폰 사용자들이 자발적으로 설치한 앱을 통해 3G, LTE, WiFi 등의 신호 강도와 업링크/다운링크의 속도 등의 데이터를 수집하여, 전 세계의 무선 통신 커버리지 지도를 그리는 것이다. 앱을 설치하게 되면, 지속적으로 관련 데이터를 OpenSignal 서버로 보내게 된다. 휴대폰에서 데이터를 보낼 때 단말을 식별할 수 있는 정보는 제거되고, 최소한의 배터리 소모만 일으키도록 만들어졌다고 한다. 서버로 모아진 데이터는 집계되고 지도 위에 반영되어 아래와 같은 커버리지 맵을 볼 수 있게 된다. 그리고 이 데이터는 API 형태로 공개되어 다른 서비스에서도 활용 가능하다.

OpenSignal wireless coverage map

OpenSignal wireless coverage map

그럼 앱을 설치한 사용자들에게는 무슨 혜택이 있을까? 앱을 통해 현재 위치의 신호 강도와 주변 지역의 통신망 현황을 알 수 있다. 또한 업로드/다운로드 속도와 주변 WiFi AP 위치 등을 알 수 있고, 무엇보다 휴대폰의 데이터 사용량을 트래킹해 준다. 실제 사용해 본 바로는 흥미 이상의 특별히 실용적인 앱은 아니다. 오히려, 전 세계 무선망의 커버리지를 그리고 이를 통해 통신 서비스 개선에 도움을 준다는 공익 차원이 더 강하지 않을까 싶다.

iPhone Screenshot 1iPhone Screenshot 2iPhone Screenshot 3iPhone Screenshot 4

< OpenSignal iPhone App >

Crowdsourced data: 사용자 참여를 통해 얻어낸 빅데이터의 힘

사실 휴대폰의 신호강도나 속도 관련 데이터는 휴대폰 자체에서 사용하기 위한 것이다. 주변 기지국의 신호강도를 탐지하여 가장 우수한 기지국으로 연결한다든가, 이동시 핸드오프할 기지국을 찾는 등의 통신 자체와 관련된 기능을 위해 필요한 데이터인 것이다. 하지만 이런 개별 데이터를 모으면, 개별 데이터가 주는 가치를 넘어서는 집단적인 가치(Collective Value)를 얻어낼 수 있다. 즉, 어느 기관이나 국가에서도 그릴 수 없었던 높은 정밀도의 무선망 커버리지 맵을 그릴 수 있다. 현재 OpenSignal은 50억개 이상의 시그널을 읽어 들여 80만개 이상의 기지국과 12억개 이상의 WiFi AP를 탐지했다. 이 수치는 참여자들이 늘어날수록 증가될 전망이고 커버리지 맵은 점점 더 정확하고, 정밀해 질 것이다.

Crowdsourcing은 이미 다양한 분야에 응용되어 창조적인 서비스들을 만들어내고 있다. 펀딩, 디자인, 개발, 연구 등 다양한 분야에 활용되고 있지만, 데이터 관점에서 Crowdsourcing을 접목하기 시작한 것은 비교적 최근이며, 빅데이터 흐름과 맞닿아 점점 관심이 높아지고 있다. 빅데이터에서 매우 어려운 부분이 의미있는 규모의 데이터를 얻는 것인데, Crowdsourced data가 좋은 대안이 될 수 있다. 적절한 수의 참여자만 모을 수 있다면 빅데이터로서의 가치를 얻을 수 있다. 즉, 데이터 자체가 Noisy하더라도 의미있는 정보를 뽑아낼 수 있다. WeatherSignal에서도 사용자에 따라 휴대폰을 주머니에 넣어두거나 에어콘이 빵빵한 환경에서 사용하는 등 원래 가설에서 벗어나는 데이터를 생성하는 경우가 있겠지만, 수많은 휴대폰의 데이터를 집계하다보면, 대략적으로 평균적인 값을 뽑아낼 수 있다. more data can beat cleaner data, 그들의 경험에서 나온 교훈이다.

물론 Crowdsourced data는 Privacy 이슈와 참여자에게 어떤 가치를 제공할 것인가라는 두 가지 중요한 이슈를 풀어야 한다. 이를 잘 풀 수 있다면 Startup을 도전해 볼 만한 좋은 주제가 아닐까 싶다.

Written by zeronova

2013/08/21 at 8:51 오전

Big Data, Crowdsourced Data에 게시됨

더 나은 자동차 경험을 위한 Ford의 빅데이터 활용

leave a comment »

자동차 산업만큼 빅데이터에 관심을 가진 분야도 많지 않을 것이다. 하필 자동차 제조사들이 빅데이터에 일찍부터 관심을 가지게 된 것은 자동차가 엄청나게 많은 데이터를 쏟아내는 센서 덩어리라는 특성과 볼보의 성공적인 빅데이터 활용사례 덕분이라고 생각한다. 그래서 최근 대부분의 자동차 제조사들은 빅데이터를 접목하기 위한 프로젝트를 진행 중이며, 그 중에서도 오늘은 Ford 사례를 소개하고자 한다. 아래 기사들을 참고.

사용자 경험을 개선하기 위해 빅데이터 활용

최근 전기차와 하이브리드 자동차의 중간 형태인 플러그인하이브리드(Plug-in Hybrid Electric Vehicle:PHEV) 자동차가 대안으로 떠오르고 있다. 기본적으로 외부 충전한 배터리의 전기동력으로 주행하다가 배터리 방전시 일반 하이브리드 자동차처럼 내연기관과 배터리를 동시에 사용하는 것이다. 자세한 설명은 ETRI 리포트(플러그인 하이브리드카(PHEV) 기술개발 동향)를 참조하기 바란다.

하지만 주동력원이 배터리이다 보니, 운전자 입장에서는 배터리 방전 여부와 충전소 위치에 대해 민감할 수 밖에 없다. Ford의 PHEV 자동차들에는 센서 데이터를 수집해서 배터리 잔량, 최저 비용 충전 알림, 인근 충전소 찾기 등의 정보를 운전자의 스마트폰 앱으로 보내준다. 이를 통해 PHEV 자동차의 불안감을 해소하여 보다 나은 사용자 경험을 제공한다.

myford

MyFord Mobile 서비스 구조

좀 더 상세히 들여다 보면, Ford의 PHEV인 Ford Fusion Energi와 C-MAX Energi에서는 시간당 25 GB의 센서 데이터가 생성되고, 이를 이동통신망을 이용해 Ford의 클라우드 컴퓨팅 서비스에 모아서 데이터 처리를 한 후 다시 운전자의 스마트폰 앱(MyFord Mobile)으로 필요한 정보들을 보내준다.

iPhone Screenshot 1iPhone Screenshot 4iPhone Screenshot 5iPhone Screenshot 2

< MyFord Mobile Screenshot >

MyFord 모바일앱 소개 동영상을 보면 배터리 관련 정보 이외에도 운전 스타일, 운전 기록, 줄인 CO2 배출량 등 운전과 관련된 다양한 정보를 제공하고 있다. 이런 정보들이 차량에서 수집된 센서 데이터를 정제하여 제공되는 것인데, 아직 복잡한 분석의 단계까지는 아닌 것 같다. 앞으로 센서 데이터 패턴을 분석하여 고장 진단이나 정비 시점 추천 등의 안전성 향상 기능이 추가될 수 있고, 여러 운전자들의 센서 데이터를 함께 분석하여 소셜 드라이빙 서비스로 발전할 가능성도 점쳐볼 수 있다.

자동차 설계와 개발에 데이터 기반 의사 결정

자동차를 설계할 때 고객 니즈를 정확히 판단하여 반영하는 것이 중요하다. 지금까지는 고객 니즈를 파악하기 위해 설문조사나 포커스그룹 인터뷰 등의 제한된 샘플 대상의 조사가 일반적이다. Ford Escape SUV 개발에서 트렁크 오픈 방법에 대해 수동으로 할지, 자동으로 할지 결정할 필요가 있었는데, Ford 개발팀은 소셜 미디어의 데이터를 분석하여, 뒷범퍼 아래 부착된 센서에 발을 가져다 대면 자동으로 트렁크를 열 수 있도록 설계하였다. (핸즈프리 파워 트렁크) 아마도 소셜 미디어에서 짐을 들고 트렁크를 열어야 하는 경우 불편함을 호소하는 목소리를 캐치하지 않았을까 싶다. 설계와 개발에 전문가의 정성적인 판단보다 데이터 기반 의사결정을 내린 좋은 사례라 할 수 있다.

핸즈프리 파워 트렁크

빅데이터 활용을 위한 Ford의 노력

위의 두 가지 사례는 사용자가 직접 체감할 수 있는 결과를 도출한 경우다. 하지만 Ford의 빅데이터 활용은 이뿐만이 아니라, 차량 성능 개선을 위해 4백만대 이상 차량의 센서 데이터를 수집, 실시간으로 분석하여, 운전 패턴과 외부 환경(날씨, 도로 등)에 따라 차량이 어떻게 반응하는지 탐구하고 있다. 또한 차량 동작 감시를 위한 74개 이상의 센서를 탑재하여, 차량 동작 모니터링을 하고 있다. 테스트 차량의 경우 한대당 시간당 무려 250 GB 데이터, 즉 하루 6 TB의 엄청난 양을 쏟아내고 있다. 이와 같이 자동차 동작과 운전 등에 대한 정확한 분석은 새로운 자동차를 설계하고 개발할 때 객관적인 정보를 제공하고, 데이터 기반 의사결정을 할 수 있도록 도울 것이다.

이 외에도 공급망 최적화를 통해 운영 효율을 극대화하기 위해 부품 입고부터 고객 납품까지 공급망의 전과정에 빅데이터를 수집/분석하고 이를 통해 공급망 전 과정의 완전하고 상세한 뷰를 제공한다. 소셜 미디어 데이터는 고객 니즈 분석에도 활용되지만, 어떤 상품이나 서비스를 고객과 매치해야 하는지 결정하는데도 활용될 전망이다.

Ford는 이러한 빅데이터 활용을 전담하기 위해 실리콘밸리에 빅데이터 연구소를 오픈하고, 다양한 빅데이터 도구들을 검토하고 활용하고 있다. 특히 빅데이터 플랫폼으로 Hadoop을 중심으로 이용하고 있고, 분석 도구로서 R을 사용하고 있다. 이 외에도 데이터 마이닝, 텍스트 마이닝을 위한 오픈소스도 다수 활용하고 있다고 한다. Ford가 데이터 중심 기업으로 진화하는데는 CEO Alan Mulally의 데이터 기반 경영에 대한 확고한 의지가 한몫하고 있다. 그가 회의 때마다 하는 질문은 한번 새겨 볼 만하다.

How are we doing against our objectives? Quantitatively, are we hitting whatever the metrics are, and if we’re missing them, then why?

Written by zeronova

2013/08/19 at 2:03 오후

Big Data에 게시됨