ZERONOVA

Data, Open, Share, Platform, Cloud, Education

서울시 심야버스 노선 최적화 빅데이터 활용사례

with 4 comments

아마도 국내에서 공공 데이터 활용 분야에서 가장 노력 많이하고 성과를 내고 있는 곳 중에 하나가 서울시청일 것이다. 이미 열린데이터광장을 통해 2-3년 전부터 공공 데이터를 오픈API 형태로 개방하고 있고, 최근에는 서울시 현안 문제를 빅데이터로 해결하려는 시도를 민간기업과 협력하여 수행하고 있다. 그 중에 가시적인 성과를 내고 있는 것이 단연 심야버스 노선 최적화에 빅데이터를 활용한 사례라고 할 수 있다. 심야에 대중교통이 끊어진 상태에서 택시를 잡기위해 고군분투를 해 본 사람이면, 자정부터 새벽 5시까지 운행하는 심야버스에 기대를 걸어봄직하다. 하지만 문제는 내가 승차하고자 하는 곳에 심야버스가 정차하느냐이다. 즉, 좋은 의도에서 시작했지만, 실제 시민들의 활용도가 높지 않다면 무용지물이 되는 것이다.

이것을 결정하는 것이 심야버스 노선 최적화 문제다. 4월19일부터 3개월동안 2개 노선이 시범적으로 운영되고 있고, 이후 6개 노선으로 확대할 계획이다. 자, 여기서 그럼 노선을 어떻게 정할 것이냐는 과제가 있는데, 이는 결국 밤시간대 유동인구가 많은 구간을 묶어서 노선을 만드는 문제로 귀결된다. 그럼 유동인구가 많은 구간을 어떻게 정할 것인가? 큰 고민없이 전형적인 방법으로 접근한다면, 아마도 버스 노선을 담당하는 전문가들의 직관이나 예전 버스 운행 데이터를 기반으로 할 가능성이 높다. 이 방법이 정말 정확할까? 여기서 우리는 빅데이터를 활용할 수 있는 접점을 찾을 수 있다. 지역별 유동인구를 파악할 수 있는 데이터가 무엇일까를 고민해 보는 것이다. 신용카드 결제 데이터, 휴대전화 통화 이력 데이터, 택시 스마트카드 데이터 등 좀 생각해 보면 직감에 의해서가 아닌 데이터에 의한 정량적 유동인구 분포도를 그려낼 수 있는 가능성을 찾을 수 있다.

사실 이 정도의 활용 아이디어는 아이디어도 아니다. 누구나 생각할 수 있는 정도지만, 정작 중요한 것은 실제 그대로 실행해 보기는 정말 쉽지 않다는 사실이다. 이를 위해 서울시는 KT와 MOU를 맺고, 휴대전화 이력 데이터에서 유동인구 통계 정보를 얻을 수 있는 채널을 마련한다. KT 역시 휴대전화 이력 데이터라는 매우 가치있지만 프라이버시 이슈 때문에 잘 활용되고 있지 못하는 데이터를 공익차원에서 분석하고, 통계정보(프라이버시를 침해하지 않는 수준)를 제공함으로써 데이터 활용 가치를 높일 수 있는 계기가 된 것이다. 결국 이런 공공과 기업의 니즈를 잘 파악하고 함께 참여할 수 있는 그림을 그리고 실행한 것이 성공의 핵심이 아니었을까 싶다. 구체적인 방법에 대해선 아래 기사에서 잘 정리했으니 참고.

간단하게 요약하자면 아래와 같다.

  1. 유동인구 밀집도 분석: 일단 서울시를 1km 반경의 1,250개 헥사셀 단위로 구분한다. 그리고 한달치 KT 휴대전화 이력 데이터로 심야시간(0시~5시) 통화량 분석을 해서 구역별 유동인구 밀집도를 분석하고 이를 헥사셀 단위로 시각화한다.
  2. 유동인구 기반 노선 최적화: 기존 노선의 시간/요일별 패턴을 분석하고, 노선 부근의 유동인구 통계로 가중치를 계산하여, 노선을 최적화한다.
  3. 유동인구 기반 배차간격 조정: 정류장 단위로 통행량을 추정하고, 통행량을 선의 굵기로 표현하여 헥사셀로 구분된 맵에 시각화함으로써 최종적으로 요일별 배차 간격 조정을 결정한다.
서울시 심야버스 노선 최적화

서울시 심야버스 노선 최적화

이렇게 나온 8개 노선에 대한 정류소와 노선 변경안을 버스정책과에 제안하고 함께 협력하여 적용하고 있다고 한다. 이것이야 말로 데이터 기반 의사결정의 훌륭한 본보기라고 할 수 있다. 그런데 이 분석과정에서 주목해 봐야 할 점이, 여기에 활용된 모든 데이터가 다 대용량인 것은 아니라는 점이다. 유동인구 통계를 얻기 위한 휴대전화 이력 데이터 분석 부분이 빅데이터에 해당하고 이를 분석하기 위한 도구로 Hadoop을 활용한 것이다. 하지만 나머지 과정들은 스몰 데이터 문제이고, 도구 역시 스몰 데이터를 분석하기 위한 도구면 충분한 것이다.

빅데이터의 중요한 활용 중 하나가 이와 같이 기존 분석이나 스몰 데이터의 정확도를 높이는 재료로서 활용하는 것이다. 꼭 예전 분석과 빅데이터 분석을 나눌 필요없다. 빅데이터, 스몰 데이터의 구분 역시 실용적이지 못하다. 필요한 곳에 필요한 데이터와 분석을 이용하면 되는 것이다. 서울시 심야버스 노선 최적화는 빅데이터와 스몰데이터가 함께 활용되었을 때 긍정적인 시너지를 얻을 수 있음을 확인해 준 사례이다. 이런 추세는 앞으로 점점 늘어날 전망이다. 기존에 확보된 스몰데이터 역시 엄청난 가치를 품고 있는 정보이고, 기존에 활용하지 않았던 데이터들(로그, 비정형 데이터 등의 빅데이터) 역시 잘 캐보면 정보의 원석을 찾아내어 스몰데이터와 결합할 수 있는 가능성들이 많기 때문이다.

심야버스 노선 최석화 분석에 대해 더 궁금해 하시는 분들을 위해 서울시 김영완 사무관님께서 발표하신 자료 중 알고리즘 관련 슬라이드 몇장 공유하니 참고하시길…

노선 검증 알고리즘

노선 검증 알고리즘

통행량 산출 알고리즘

통행량 산출 알고리즘

심야버스 노선개발 상세화면

심야버스 노선개발 상세화면

Advertisements

Written by zeronova

2013/08/07 , 시간: 2:49 오후

Big Data에 게시됨

4개의 답글

Subscribe to comments with RSS.

  1. […] 조기 경고를 하거나, 국가적 정책변화를 유도하는 것이다. 얼마전 소개한 서울시 심야버스 노선 최적화 사례 역시 공익적 목적을 위해 빅데이터를 활용한 경우라 볼 수 있지만, […]

  2. Prof. Kim's Daily Life에서 이 항목을 퍼감.

    김종현

    2013/08/25 at 1:02 오전

  3. […] 객관적인 사실이 잘 조합된 케이스입니다. 여기에 대해선 제 블로그글 “서울시 심야버스 노선 최적화 빅데이터 활용사례”을 […]

  4. 빅데이터에 대한 레포트가 있어서 잘 참고 합니다 ^^

    Paulizhihno

    2014/09/28 at 3:17 오후


답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: