‘빅데이터(Big Data)’, 최근 1~2년 새 누구나 한두 번쯤 들어본 떠오른 IT 업계의 최대 화두, 하지만 그 익숙함에 비해 아직 많은 이들이 빅데이터의 정확한 정의와 그 의미에 대해서 궁금증을 갖고 있다. 하여 beSUCCESS에서는 그 궁금증을 해결하기 위해 빅데이터 전문가 kt NexR의 한재선 대표이사를 만나 빅데이터에 관한 이야기를 들어보았다. 또 이 빅데이터 트랜드를 통해 우리 스타트업계가 새로운 기회를 잡을 수 있는가에 대해서도 그에게 전문가적인 견해를 물었다.
빅데이터란 무엇인가요?
사람들이 빅데이터의 정의를 많이들 혼란스러워합니다. 빅(Big)이라는 단어 때문에 데이터가 얼마만큼 커야 ‘빅’이냐 하는 논란도 있었죠. 하지만 빅데이터를 이야기할 때 사이즈 관점에 신경 쓸 필요는 없습니다. 중요한 건 우리가 지금까지 데이터를 잘 활용을 못 했다는 건데요. 데이터를 저장만 하거나, 또는 그 저장조차 안 하는 것이 대부분이었습니다.
그런데 구글, 아마존 같은 글로벌 기업들이 그들이 저장한 데이터를 가지고 새로운 가치를 만드는 데 성공하면서...
아마존은 이용자가 물건을 구매한 내용을 저장하고, 소비 패턴을 분석하여, 이용자가 상품 구매 시 이용자 기호에 맞게 연관 상품을 추천하는 “you might also like…”기능을 추가, 구매를 유도하여 매출 증대(30%)를 이루었음.
구글은 감기에 대한 검색어를 분석해서, 독감을 예측하는 시스템을 구축하였는데, 예측값과 실제 독감데이터와 유사한 결과를 얻었음. 오히려 2주 정도 빠른 경향을 보여, 감기 예측에 성공. (이러한 예측시스템을 마케팅 등에 도입한다면??)
다른 기업, 금융, 제조, 공공, 유통 등 다양한 분야에서도 우리도 저렇게 데이터 기반으로 비즈니스를 체인지 할 수 있겠구나 하는 마인드가 생겨나며 데이터의 가치를 다시 보기 시작한 것이지요, 이처럼 데이터를 저장하고, 분석하고, 이를 통해 새로운 결과를 만들어 새로운 비즈니스 기회를 창출하고자 하는 것이 지금의 빅데이터에서 하고자 하는 것입니다.
우리나라에서도 빅데이터를 비즈니스에 활용한 예를 찾아 볼 수 있다. KT의 전화로그 데이터 DB를 빅데이터 플랫폼으로 전환하여 5년간 500억을 절감한 사례, BC카드의 카드 승인 거절의 전수 데이터를 분석하여, 시스템 오류를 발견, 개선을 통해 월 100억 정도의 매출 개선, 휴대폰 판매 영업대리점 등이 고객 정보유출 시키는 패턴을 파악하여, 영업점이 이 같은 정보유출 시도를 감지하고 이를 방지하는 시스템 개발 등, 알게 모르게 빅데이터를 활용해 실제 비즈니스에서 가치를 만들어내는 일들이 많아지고 있다.
그럼 이렇게 빅데이터(분석)에 대한 활용이 가능하게 된 원인은 무엇이 있을까요?
지금까지는 방대한 데이터에 관한 저장기술이 부족했고, 저장소에 대한 가격이 비쌌죠. 또 어찌어찌해서 데이터를 저장했다 하더라도 데이터를 로드하고 분석하는데 엄청난 시간이 걸렸기에 빅데이터 분석이 불가능했었어요. 하지만 지금은 저장기술도 발전하고, 저장소 가격도 싸지고, 또 처리 기술이 발전하면서 빅데이터에 대한 활용이 가능하게 되게 된 것이지요. 이러한 빅데이터 활용에 가장 큰 역할을 한 것이 하둡이라는 오픈소스 입니다.
하둡(Hadoop), 구글은 검색 데이터가 쌓이면서 데이터에 대한 저장 및 처리를 고민하게 되었는데, 데이터의 저장 및 처리를 위해 비싼 비용 및 관리 상의 문제가 있는 서버를 늘리는 등의 HW적 방법 대신 SW로 처리할 수 있는 분산 파일 시스템(Google File System)과 분산 처리 시스템(MapReduce)을 만들었다. 그리고 구글은 이 시스템의 알고리즘을 논문으로 발간했는데, 다른 오픈소스 커뮤니티의 검색엔진을 사용하던 ‘더그 커팅’이라는 개발자가 구글과 마찬가지로 쌓이고 있던 데이터를 처리해 보고자, 발행된 구글의 논문 알고리즘을 오픈소스로 구현하고, 자식이 가지고 놀던 인형의 이름을 따서 하둡이라 명명하였다.
하둡을 통해서 빅데이터의 저장/처리/분석이 가능해지게 되었지요. 야후가 2007년에 하둡을 적용하면서 하둡의 완성도가 높아졌으며 이후 많은 기업이 하둡을 이용하면서 하둡은 빅데이터 분야의 표준 플렛폼이 되었지요. 또 하둡과 연결되는 다른 오픈 소스(Nosql 몽고DB, 카산드라)나, 하둡 상에서 빅데이터 분석을 더 쉽게 할 수 있게 해주는 하이브나 피그 등 굉장히 다양한 하둡 오픈소스 에코시스템이 형성되었는데…이 하둡 생태계가 지금의 빅데이터를 가능하게 해 준 것인데요. 다시 말하면 하둡이라는 오픈소스가 바로 빅데이터라는 용어를 탄생시킨 핵심기술이라고 볼 수 있습니다. 또 하둡 생태계 안에서 빅데이터 관련된 비즈니스를 하고자 하는 이들이 나타나기 시작했지요.
어떤 빅데이터 관련 비즈니스들이 등장했고, 스타트업이 이러한 비즈니스에 어떻게 접근할 수 있을까요?
미국의 경우 빅데이터를 다루는 스타트업이 모바일 앱 서비스 분야와 대등할 만큼, 수도 많고, 투자도 잘 받고 있습니다. 가장 대표적인 회사로 클라우데라(Cloudera)가 있는데요. 구글에서 빅데이터 주도하던 친구가 창업했는데, 하둡 에코시스템을 패키징 하여 엔터프라이즈 기업들에게 제공을 해서 큰 성공을 거두었죠. 마치 레드햇 처럼.
레드헷, 대기업은 리눅스 같은 좋은 오픈소스를 사용하고 싶은 경우에도, 이를 설치하거나 A/S등 유지 보수하는 문제 탓에 오픈소스 사용을 꺼리는 경향이 있다. 레드햇은 이러한 문제점을 해결해 주고자 리눅스를 기업에 맞게 설치 관리해 주는 서비스를 제공하여 큰 성공을 거두었다.
하둡, 그리고 관련 오픈소스로 빅데이터를 분석하고 싶어도, 오픈소스를 직접 가져다 기업에 맞게 설치하고 유지보수 하는 것 역시 쉬운 일은 아니에요. 해서 클라우데라는 빅데이터 분야의 레드햇으로 포지셔닝해서 레드햇과 만찬가지로 굉장히 성공적인 결고를 얻고 있습니다.
그 외에도 호톤웍스(야후에서 스핀오프), 맵알, 데이터미어 등 빅데이터 관련 스타트업들이 속속들이 등장하고 있고, 스타트업 분야의 거대한 분야를 만들고 있어요.
하지만 이러한 빅데이터 관련 사업은 B2B면서 패키지 소프트웨어를 만들고 판매를 해야 하는 성격이라 기술뿐만 아니라 영업, 마케팅 등의 뒷받침이 있어야 하기에 스타트업이 도전하기엔 어려운 분야입니다. 아직 국내에서 이런 종류의 스타트업들이 잘 보이지 않아요. NexR도 KT에 인수되면서 좋은 시너지를 내고 있는 경우라 할 수 있죠.
그럼에도 빅데이터 분야에 새로운 스타트업이 도전해 볼 수 있을까요?
최근 빅데이터와 함께 중요하게 떠오르는 트렌드가 오픈데이터입니다. 그리고 얼마 전 발표된 정부 3.0이 그 대표적인 케이스라 할 수 있고 스타트업들이 도전해 볼 만한 분야가 아닐까 싶습니다. 정부 3.0이란 정부에서 하는 모든 일을 다 데이터로 오픈시키겠다는 얘기인데요(돈 얼마 쓰고 있고, 보고서 공개하고 등등) 그러면 이 공공데이터가 시장에 쏟아지게 되는데, 이 데이터를 활용 해서 새로운 가치, 비즈니스를 창출하라는 것이 정부 3.0이 하고자 하는 것입니다. 결국, 데이터로 새로운 비즈니스를 창출하고 그 기반으로 창업도 많이 되고, 산업도 활성화 시키고자 하는 것이 정부의 궁극적인 목표지요.
이런 공공데이터, 기업들도 정부와 마찬가지로 데이터를 어떤 식으로든 공개 할 것인데, 그 데이터는 공개는 되었지만 가공된 데이터가 아니기에 가치가 떨어지지요. 이 데이터들을 잘 가공하면 굉장한 고부가 가치의 정보를 만들 수 있습니다.
예를 들자면 휴대폰으로 통화할 때마다 기록되는 데이터 로그, 이 자체는 의미가 없는데, 최근 KT가 30억 건의 심야 휴대폰 통화 로그를 분석하여 심야 유동인구 패턴을 도출, 서울시에 제공했어요. 이를 토대로 심야버스 노선이 만들어졌죠.
(관련기사 http://www.zdnet.co.kr/news/news_view.asp?artice_id=20130702115100, 과거 버스 노선은 직관적으로 만들어졌다고 함)
이것이 바로 빅데이터를 통한 가치창출입니다. 이런 좋은 사례들이 지속해서 개발되고, 유사하게 데이터들이 공개되기 시작하면 이 데이터 기반의 사업들이 새로운 기회가 될 것입니다. 서울 버스앱도 처음에 데이터 공개 안 됐을 때는 힘겹게 만들었는데 이제 데이터가 공개돼서 쉽게 만들 수 있지요. 이처럼 공개되는 데이터 기반으로 앱, 게임도 만들 수도 있고, 상권분석 서비스 같은 B2B 비즈니스도 가능할 수 있겠지요.
그런 가능성, 굉장히 혁신성과 창의성을 시험해 볼 수 있는 재료들이 쏟아져 나올 수 있고 그것들을 활용할 스타트업들이 나올 수 있다는 겁니다. 지금은 앱이나 서비스는 기획 요소가 중심이 되는데, 이제 데이터에 기반을 둔 어떤 예전에 경험하지 못했던 그런 모델들이 나올 수 있는 충분한 배경이 된다는 것이죠.
또 다른 가능성으로는, 빅데이터 분야에 아직 해결되지 않고 있는 이슈에 대한 해결책 제시를 들수 있습니다. 예를 들자면, 글로벌 기업인 경우 공장, 지점 이 전 세계에 흩어져 있는데, 빅데이터 분석을 하기 위해서는 세계에 흩어져 있는 데이터를 한곳에 모아야 하거든요. 근데 네트워크 문제도 있고, 데이터 양도 어마어마해서, 그 데이터들을 빠른 시간 내에 한곳으로 집중시키는 것은 아직도 풀기 어려운 문제입니다. 하지만 지속적으로 제기될 수 있는 문제인데, 이 문제를 해결해 줄 수 있는 기술을 개발한다면, 기술기반의 접근이기에 한국뿐만 아니라 글로벌에서도 큰 성공을 거둘 수 있습니다. 이처럼 빅데이터에서 제기되는 이슈들 중에 기술적으로 니치한 시장을 잡아서 그것을 해결하는 식으로 나가면 훨씬 더 가치 있고 글로벌 하게 성장할 가능성이 있습니다.
beSUCCESS : 최근 한국 스타트업 생태계에서 기술을 핵심역량으로 비즈니스를 펼치는 기업이 부족하다는 것이 본 기자의 아쉬움이다. 결국 시대의 흐름을 읽고, 소비자/사용자들의 직면한 문제를 해결해 주는 것이 바로 비즈니스, 이제 빅데이터라는 큰 흐름속의 여러 이슈들은 스타트업에게 분명 새로운 기회이며, 기술 기반의 새로운 스타트업이 등장할 토대가 될 수 있다. 빅데이터의 바람을 타고 순항하는 한국 스타트업의 등장을 기대해 본다.
Editor's note: kt NexR(www.nexr.com, 빅데이터 전문 기업, 빅데이터 플랫폼, 솔루션 등을 개발) 의 한재선 대표는 카이스트에서 박사학위를 받고, 2007년 스타트업으로 NexR을 설립, kt와의 M&A를 통해 Exit를 달성한 후, 현재 kt NexR의 대표이사 및 CTO를 맡고 있는 동시에 카이스트 정보미디어 경영대학원 겸임교수로 학생들을 지도하고 있습니다.