본문 바로가기

지하작업실

되돌아보는 2013 국가 정보화 트렌드 전망의 10대 기술 - 1. 빅 데이터

정보화 진흥원에서 2013년의 정보화 트렌드 전망에서 첫 번째로 꼽는 기술을 빅데이터로 꼽았다.


난 2011년 어딘가 흘러가는 기고문에서 이 단어를 처음 듣고 아 그런가보다 했다. 

단어에 대한 정확한 정의를 하지 않았다.


그냥 큰 덩어리를 어쩌구 저쩌구 하겠구나... 이런 생각을 했을 뿐...


이렇게 생각했다가, 덕분에 구직 시장에서 트렌드 기술을 물어볼때 처참하게 발려봤다. 솔직히 좀 쪽팔리기도 팔렸음.


빅데이터에 대한 정의는 다음과 같다.


빅 데이터(영어: Big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합[1] 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술[2]을 의미한다. - 위키피디아에서 발췌


간단하게 생각하면, 자료를 표 안에 넣어서 지지고 볶을만한 그런 수준이 아닌 그거보다 더 큰 그런 어마어마한 녀석들, 혹은 정형적인 데이터의 연속이 아닌 사람의 대화나 SNS에서 오가는 대화 처럼 일정한 틀이 없는 것들에서 공통의 것들을 추출해서 결과를 분석하는 기술들을 말한다.


내가 무슨 말을 하는지 내가 모를 수 있기 때문에 이러한 예를 들어본다면,

선거철에 SNS에서 나온 정치인 관련 이야기에서 정치인, 정당, 지지등을 분석하고 이에 대한 긍정 혹은 부정등을 추출하여 선거 전략등에 사용할 수 있는 그런 기술이다.


더 쉬운 예로는 내가 amazon.com에서 물건을 샀는데, 그 물건을 산 사람의 구매 패턴을 분석해서 그 물건과 비슷한 것을 매칭시켜주는 것도 빅데이터의 한 예이다.


빅 데이터가 갖는 특징은 

일단 데이터가 테라바이트 (1테라는 1024기가, 1기가는 1024메가) 단위의 데이터 양으로 정의되거나, 데이터의 수집이나 분석의 시간이 꽤 오래 걸리는 작업으로 정리된다.  하지만 빅 데이터는 단순히 데이터의 양만이 늘어나는 것에서 데이터의 양 (Volume), 


데이터 속도 (Velocity),

거대한 데이터를 데이터의 처리속도(트랜젝션 Transactions)와 수집 및 분석속도가 느리면 빅데이터를 도입할 필요가 없기에, 

수집, 처리, 분석속도를 보는 것이 빅데이터의 특징이다.


예를 들면 대선 후보에 대한 긍/부정을 조사하는데, 전수조사한다고 문 두들긴다고 생각하면, 

이에 걸리는 시간은 엄청날텐데, 빅데이터는 이 방법을 어떻게 할 것인지에 대해서도 다루고 있단 말이지 


그리고 데이터 다양성(Variety)등 세가지 요소의 복합적인 변화를 특징으로 하고 있다.

예전의 데이터베이스에서는 다룰 수 있는 내용은 로그파일이나, 정형적인 데이터등을 통해서 데이터를 정제 및 가공할 수 있었다면 빅데이터라는 녀석은 소셜미디어에서 내가 끄적거리는 하나의 글이나 사진, 동영상 등도 가공할 수 있는 정보 가운데 하나가 된다.


이를 3V라고 한다 (3S가 떠오르지만... 참아야지...)




위의 자료는 IBM에서 발표한 자료를 이용한 인포그래픽이다.

내용은 기업의 활동에서 빅데이터를 참조하는 비중이나 이 내용을 참조하는 위치를 인포그래픽으로 나타냈다.


현재 40%가 넘는 기업들이 빅데이터에 대해 탐색하는 단계이고, 

빅데이터는 소비패턴을 분석하기 위해 사용하는 것이 38%정도일듯 싶다(오역으로 인해 번역이 영 아니라면... 바꿔야지)


이러한 빅데이터를 얻는 방법으로는 거래에 의한 분석이 90%이고, 로그데이터나 이메일등이 상당수 차지하고 있다는 것을 알 수 있다. 비즈니스 측면에서 SNS를 이용하는 것은 약 39%정도이다. 


SNS의 자료를 긁는 것 자체도 시간이 오래걸릴뿐 더러, 정형화되지 않은 데이터를 분석하는 시간도 꽤 오래걸리고,

원하는 것들을 뽑아서 결론을 내기까지도 오래걸리기 때문이겠다.




이건 포브스에서 발표한 빅데이터와 관련된 기술과 그에 대한 기업과 서비스들을 다루고 있다.


아직 엄청나게 많은 내용들이 내 머릿속에 들어오고 있는데, 이 내용들은 차후에 빅데이터에 대해 서비스들과 기술에 대해 더 깊게 들어갈때 찾아보는 것으로 하자.



참고로 데이터베이스가 처음 나오고 나서 비즈니스 시장에서는 꽤 괜찮은 통계 분석의 도구가 되었었다.


예를 들면, 멤버쉽 카드 서비스를 구축한다는 가정한다면, 어느 브랜드, 어느 점포, 어느 제품이 가장 많이 팔리는지, 연령대에 의한 소비패턴등을 분석하여, 판매에 최적화된 서비스를 제공할 수 있는 것이 지금의 데이터베이스를 이용한 서비스라면


빅데이터는 여기서 더 나아가 과학,통계학, 의학, 그리고 정부의 정책등을 세우는데에도 꽤 큰 영향을 끼치고 있다.


쉬운 예로는 서울시의 심야버스 정거장과 노선을 계획 할 때도, 심야시간 택시 승차 데이터, 그리고 버스 정류장에서 시민들이 가장 많이 타고 내리는 정류장등을 모두 분석하여 만들었다고 생각하면 된다.






여기부터는 주관적인 생각 -


빅 데이터라는 용어 자체는 사람들 사이에서 회자되기 시작한 것은 얼마 되지 않았지만, 

빅 데이터는 데이터베이스에서 진화한 기술이라 생각하고 접근하면 쉬울듯 싶다. 


현재는 데이터 베이스에서 약간 진화한 모습을 갖추고 있지만, 

많은 회사들이 빅 데이터에서 나오는 자료를 갖고, 개개인 소비 취향이나 심리등에 맞춘 마케팅 활동이나 정책을 세우는데 사용되리라 생각된다.


아직 이 분야에 깃발을 꽂은 회사는 없다는 생각도 들고, 이 분야의 치열한 싸움을 앞으로 기대해도 재미있을 듯 싶다.



2013/11/17 - [지하작업실] - 되돌아보는 2013 국가 정보화 트렌드 전망의 10대 기술 - 들어가며