ZERONOVA

Data, Open, Share, Platform, Cloud, Education

유통 빅데이터 사례: Sears Holdings

leave a comment »

Sears Holdings는 Sears 백화점, Kmart 등을 운영하고 있는 미국의 거대 유통 회사다. 한 때 잘나가는 유통회사였지만, Walmart, Target 같은 경쟁자에 밀리고, Amazon.com 같은 온라인 유통회사에 위협받고 있다. 이는 매출로서 드러나고 있는데, 2008년 500억 달러에서 2011년 420억 달러로 감소한 반면, Amazon.com은 동기간 190억 달러에서 480억 달러로 급성장했다.

이와 같은 경쟁환경 속에서 새로운 돌파구를 찾던 Sears는 고객 맞춤형 마케팅 및 로열티 프로그램인 “Shop Your Way” 멤버쉽을 시작하게 된다. 한마디로 마케팅(캠페인, 쿠폰, 오퍼 등)을 개별 고객 단위로 개인화하겠다는 것이다. 하지만 기존 IT 시스템으로는 이런 수준의 개인화 마케팅을 지원하기 불가능한 것이 문제였다. 이에 대한 해결책으로 Phil Shelley CTO가 Hadoop 플랫폼을 적용하기로 결정하고 빅데이터 프로젝트를 시작하게 된 것이다. 이와 관련한 기사와 발표는 아래 참고.

전형적인 기업 IT 시스템과 같이 Sears 역시 다음과 같은 문제점을 안고 있었다.

  • 고비용 장비 구조: 메인프레임과 UNIX 시스템 위주로 구성됨
  • 짧은 데이터 저장 기간: 용량의 한계로 90일 전까지의 데이터만 저장
  • 긴 캠페인 분석 소요시간: 6주 소요 (메인프레임, Teradata, SAS로 구성)

이를 해결하기 위해 UNIX 시스템을 Linux로 교체하고, 여러 종류의 데이터베이스를 MySQL, InfoBright 등으로 consolidation 하는 등의 IT Transformation을 실시하면서 동시에 아래와 같이 Hadoop 플랫폼을 구축하게 된다.

  • 2010년 초 20-30개 노드로 시작하여 2012년 거의 300 노드, 2PB까지 확장
  • 대부분 정형 데이터 저장 (customer transaction, point of sale, and supply chain)
  • 모든 데이터를 집계없이 개별 트랜잭션 단위로 저장하고, 필요할 때마다 리팩토링하여 활용
  • Ad-hoc 질의와 리포팅을 위해 Datameer 도입 –> 6-12주 소요되던 interactive report 제작이 3일로 단축
  • 메인프레임과 Hadoop간 데이터 Import/Export 구현
Sears Holdings Hadoop Architecture

Sears Holdings Hadoop Architecture

Hadoop 기반의 빅데이터 플랫폼을 통해 비용절감이나 성능 향상과 같은 정량적인 효과도 얻었고, 생산성 향상과 데이터 오너쉽이 확대되는 긍정적인 결과로 가져왔다. 상세한 효과는 다음과 같다.

  • 비용 절감: 메인프레임 비용 매년 수천만 달러 절감
  • 저장공간 확보: 2년 데이터 보관 가능
  • 성능 향상: 배치 처리 성능 20-100배 향상, 기존 IBM DataStage ETL 10시간에서 17분으로 줄임
  • 생산성 향상: 메인프레임 3000~5000라인 코볼 작업을 수백 라인의 Pig 코드로 축소
  • 데이터 오너쉽: IT 담당자 도움없이 현업이 직접 리포트 제작

그들이 빅데이터 구축 경험을 통해 여러 교훈을 얻었고, 심지어는 MetaScale이라는 빅데이터 전문회사를 스핀오프하여 레거시 시스템을 Hadoop 시스템으로 전환하는 Professional Service를 제공하고 있다. Sears 사례는 규모가 어느 정도 있는 기업에서 명확한 비즈니스 니즈보다는 IT 인프라 개선을 위해 Hadoop을 도입하여 성과를 거둔 좋은 사례라 할 수 있다. 그런 점에서 그들이 얻은 교훈을 곱씹어 보는 것 역시 빅데이터 도입을 고민하는 이들에게 도움이 될 수 있다.

  1. 가능하면 데이터 구조를 최대한 심플하게 유지하라
    • 빅데이터에선 저장 공간을 절약하는게 목표가 아니라, Join 등의 복잡한 관계를 제거하는게 중요
    • 데이터를 분리/여러개 파일로 쪼개 저장하지 말고, denormalize해서 하나의 빅파일에 저장
    • 스키마를 데이터 집어 넣을 때 적용하지말고, 꺼내서 사용할 때 적용
    • 원시 데이터 형태를 유지하고, 필요할 때 꺼내서 필요한 형태로 처리하여 유연하게 활용
    • 3년 지나서 새로운 쿼리나 분석이 필요하더라도 스키마 걱정이 없음, 그냥 원시 데이터를 가져다가 필요한 형태로 변환하여 사용
  2. ETL must die
    • 기존에 ETL이 필요했던 이유는 데이터를 한 곳에 담을 수 없었기 때문
    • ETL은 비효율적이고 낭비적인 작업이며, 데이터의 다수 복제본을 만들어냄
    • Hadoop으로 인해 데이터를 한 곳에 담을 수 있으므로 ETL 필요없이 그때그때 활용
    • 반대의견: 기존 시스템과의 공존을 위해선 ETL 작업이 필요한 경우 많음
  3. Hadoop이 Data Hub 역할을 하면서 기존 레거시 환경을 대체
    • 반대의견: 기존 비즈니스 문제를 맡고 있는 레거시 환경과 공존 필요
Sears Holdings Hadoop Approach

Sears Holdings Hadoop Approach

Sears Holdings 경우 빅데이터 시스템의 도입은 비용절감이 1차적인 목표였지만, 구축 이후 데이터가 쌓이고, 분석 인프라가 확보됨으로 인해 원래 목표보다 다양하게 활용되는 케이스다. IT 부서 주도로 인프라 개선으로 접근하는 경우 이러한 접근이 합리적이다. 즉, 비용절감이나 성능개선의 1차 목표를 가지고, 도입하여 유형의 이득을 증명하고, 이후에 현업의 참여를 통해 활용 가능성을 확대하는 것이다. 또한 Hadoop을 Data Hub로서 모든 원시 데이터를 저장하고, 필요한 경우 꺼내서 적절히 변환 및 결합하여 원하는 형태로 활용한다는 것은 앞으로 데이터 활용을 위한 프로세스가 어떻게 변할지 시사하는 바가 크다.

Advertisements

Written by zeronova

2013/08/05 , 시간: 5:25 오후

Big Data에 게시됨

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: