Big Data (빅 데이터), 단순히 직역하면 "많은 데이터" 라고 할 수 있습니다.
요즘 새로운 일을 한다거나 무언가를 개선하려고 할 때마다 "Big Data 해야한다.", "Big Data 필수다." 하는 말을 들어보셨을 겁니다. 많은 데이터, 도대체 그것이 무엇이길래 사람들이 이렇게 말을 하는 것일까요?
그냥 많은 데이터라는 뜻이 아닌 Big Data 가 무엇을 의미하는지, 근본이 무엇인지, 왜 중요한지, 어떤 분야에, 어떻게 활용하는지 등등 Big Data에 대해 알아가 보도록 하겠습니다.
제일 먼저 Big Data 의 정의에 대해서 알아보는 시간을 갖겠습니다.
목차
Big Data (빅 데이터) 란?
보관해야 하는 데이터 양이 점점 많아짐에 따라 기존에 관리하던 데이터베이스가 한계에 다다라서 더 이상 관리가 힘들 때, 관리도구의 능력을 넘어서는 수백, 수천 테라바이트 또는 수십 페타바이트 이상의 정형화된 또는 비정형화된 데이터를 Big Data (빅 데이터) 라고 합니다. 그리고 이렇게 데이터가 쌓여 있을 때, 이런 망대 한 데이터를 가지고 어떠한 가치를 추출하고 결과를 분석하는 기술 역시 통상적으로 Big Data (빅 데이터) 라고 불리고 있습니다.
즉, Big Data (빅 데이터) 란? 기존의 데이터 처리 소프트웨어로는 데이터의 수집, 저장, 분석 및 처리가 어려울 정도의 망대하고 방대한 데이터를 의미합니다.
참고로 Big Data (빅 데이터) 라는 용어는 1990년대 말부터 통용되기 시작하였고, 박상현이라는 분이 이 용어를 대중화시켰다고 합니다.
Big Data (빅 데이터) 의 필요성
여러 종류의 Big Data 에 대한 생성, 수집, 분석, 표현 등이 특징이 되는 Big Data 기술은 날이 갈수록 발전하고 있으며, 꾸준히 변하고 있는 현대 사회를 정확히 예측하게 하기 위해서 꼭 필요한 것입니다. 더구나 점점 개인화되어가고 있는 요즘 사람들에게 개인별 맞춤형 정보를 제공하고 관리, 분석하기 위해서라도 필요한 활동이며, 과거에는 불가능했던 기술들을 현대에 들어서는 실현시키기도 합니다. 이러한 Big Data 현상은 기업들의 고객 데이터 수집 활동에 맞물려 스마트폰 보급, SNS 활성화 등 멀티미디어 콘텐츠의 폭발적 증가, 그리고 사물 통신망의 저변 확대로 사회 전반적으로 아주 빠르게 확산되고 있는 것이 현실입니다.
현대 사회의 Big Data 는 정치, 사회, 경제, 문화, 과학 등 모든 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공할 수 있으며, 시간이 가면 갈수록 분야별 성공 사례가 알려지고 있어 그 중요성이 부각되고 있습니다. 이에 맞춰 세계 경제 포럼은 2012년 떠오르는 10대 기술 중 그 첫 번째를 Big Data 기술로 선정했으며, 대한민국 지식경제부 R&D 전략기획단은 IT 10대 핵심기술 가운데 하나로 Big Data 를 선정했다고도 합니다.
Big Data (빅 데이터) 의 접목 결과
현대 사회의 대부분의 기업들은 온라인 및 오프라인 모든 곳에서 사용자 정보, 소비자 행태에 대한 정보를 수집하고 있고, 적극적으로 고객 관련 정보를 수집하려 하고 있습니다. 이는 더 많은 양의 데이터를 담을 수 있는 스토리지와 수집한 데이터를 적재적소에 사용하기 위해 정교한 분석 능력을 필요로 합니다.
한 예로 국내 유통 업체 xxx는 매달 20억 건 이상의 고객 데이터를 수집하고 있다고 합니다. 고객마다 다른 소비 행태를 가지고 있는 것을 감안하여 20억 건이라는 방대한 양의 데이터를 수집하여 개개인 고객별 맞춤형 서비스를 제공한다고 합니다. 이에 따라 요즘 시대를 살아가는 고객들은 오늘, 한 달 뒤 내가 무엇을 사야 할지 고민하지 않게 되었습니다. 유통 업체가 고객이 지금 시기에는 이 제품이 필요하다. 어떤 것이 떨어졌을 것이다. 를 예측하여 고객이 필요로 하는 것, 지금 고객에게 필요한 것 등을 판단해서 알려주기 때문입니다.
Big Data (빅 데이터) 의 문제점
하지만 Big Data 의 필요성 만으로 모든 상황에 적용되고 모든 것이 허용되는 것은 아닙니다. Big Data 의 문제점들 역시 화두가 되고 있는 것이 현실입니다. 가장 화두가 되는 그것은 바로 사생활 침해와 보안이라는 부분입니다.
Big Data 는 수많은 개인들의 수많은 정보의 집합을 기본으로 하여 이루어져 있기 때문에 빅데이터를 수집, 분석할 때에 개개인들의 사적인 정보까지 수집하여 관리하는 Big Brother 의 모습이 될 수도 있는 것이 가장 큰 문제점입니다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면? 뉴스에서 종종 보이는 대기업들의 데이터 베이스 해킹 또는 누출 건 등이 그 한 예로써 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수밖에 없고, 모든 사람들이 걱정하는 부분이 바로 이 부분입니다.
빅데이터란 디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 빅데이터 환경은 과거에 비해 데이터의 양이 폭증했다는 점과 함께 데이터의 종류도 다양해져 사람들의 행동은 물론 위치정보와 SNS를 통해 생각과 의견까지 분석하고 예측할 수 있다.
지속적인 Data 의 증가
현대 사회를 살아가는 사람들에게 SNS 란, 떌래야 땔 수 없는 것이 되어 버렸습니다. 2010년대 중반 이후, 이러한 SNS의 급격한 확산으로 인해 비정형 데이터의 양 역시 급속도로 증가하고 있습니다.
동영상 플랫폼으로 유명한 유튜브의 경우, 22년 12월 국내에서 모바일 시총 총 사용 시간은 14억 7302만 시간, 23년 12월 한 달 총 사용시간은 약 16억 2897만 시간으로 1년 사이에 약 1억 5000만 시간이 늘어났다고 합니다. 이용자 역시 4102만 1401명으로 이용자들 별로 쌓이는 데이터가 얼마나 방대할까요? 유튜브의 경우 어떤 한 영상을 시청하고 이어서 비슷한 영상을 시청하게 되면 알고리즘에 접촉되어 비슷한 종류의 콘텐츠를 자연스럽게 추천합니다. 단 2개의 동영상만을 시청했는데도 말이죠. 이 역시 Big Data 를 통한 알고리즘이며, 이 알고리즘을 통하여 더 많은 Data 가 지금 이 순간에도 저장되고 있습니다. 참고로 국내 사용 앱 순위 1위인 카카오톡은 23년 12월 월간 이용자 수는 4102만 1737명, 이용 시간은 약 5억 945만 시간이라고 합니다.
Big Data 빅 데이터의 정의에 대해서 알아보았습니다.
다음에는 Big Data 빅 데이터 특징과 그 의미에 대해서 알아가 보도록 하겠습니다.