본문 바로가기
카테고리 없음

빅데이터 특징과 의미

by Jeff Hardy 2024. 2. 7.

Big Data (빅 데이터), 단순히 직역하면 "많은 데이터" 라고 할 수 있습니다.

요즘 새로운 일을 한다거나 무언가를 개선하려고 할 때마다 "Big Data 해야한다.", "Big Data 필수다." 하는 말을 들어보셨을 겁니다. 많은 데이터, 도대체 그것이 무엇이길래 사람들이 이렇게 말을 하는 것일까요?

그냥 많은 데이터라는 뜻이 아닌 Big Data 가 무엇을 의미하는지, 근본이 무엇인지, 왜 중요한지, 어떤 분야에, 어떻게 활용하는지 등등 Big Data에 대해 알아가 보도록 하겠습니다.

 

두번째 시간에는 Big Data 의 특징과 의미에 대해서 알아보는 시간을 갖겠습니다.

 

 

 

Big Data (빅 데이터) 특징과 의미

 

前 메타그룹 現 가트너의 애널리스트인 더그 레이니 (Doug Laney) 라 사람이 그의 연구 보고서와 관련 강의에서 데이터의 급성장에 따른 이슈와 기회를 정의하였고, 그것이 Big Data 의 대표적 특징, 세가지 V 로 설명 되어지고 있습니다. 세가지 V 는 첫번째 데이터의 양 (Volume), 두번쨰 데이터 생성 속도 (Velocity), 세번째 형태의 다양성 (Variety) 입니다. 

 

먼저 데이터의 양 (Volume) 은 지난 시간에 말씀드린 것과 같이 Big Data 의 직언과 동일하게 많은 양의 데이터를 이야기 합니다. Big Data 자체가 데이터의 양이 많다는 것을 의미하는 특성입니다.

 

두번째 속도 (Velocity) 는 많은 양의 데이터를 빠르게 수집하고, 또 처리하며 분석할 수 있는 속성이라고 합니다. 복합적인 환경에서 디지털 데이터는 매우 빠른 속도로 생산되며 이 데이터 자체가 실시간으로 저장 되어지고, 또 바로바로 분석처리 되고 있습니다. 

 

다양성 (Variety) 은 많은 양의 데이터가 수집되는 만큼 데이터의 종류 역시 매우 다양하다는 것을 의미합니다. 데이타는 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있습니다. 여기서 비정형 데이터라 함은 사진, 오디오, 비디오, 소셜 미디어 데이터, 로그 파일 등과 같은 데이터를 이야기 합니다.

 

최근에는 기존에 알려진 Big Data 의 특징 세가지 V 외에도 가치 (Value) 와 복잡성 (Complexity) 을 추가하여 다섯가지 V 라고도 일컬어지고 있으며, 다양하고 방대한 규모의 데이터는 미래 여러 방면에서 경쟁력의 우위를 좌지우지하는 중요한 자원으로 활용될 수 있다는 점에서 Big Data 는 주목받고 있습니다.

 

대규모 데이터를 분석해서 의미있는 정보를 찾아내는 시도는 과거에도 존재했습니다만, 현재의 Big Data 환경은 과거에 비해 데이터의 양은 물론 데이터의 질과 다양성 측면에서 차원이 다릅니다. 이런 관점에서 Big Data 는 과거 산업혁명 시기의 석탄과 같이 현재의 IT와 스마트혁명 시기에 혁신과 경쟁력 강화, 생산성 향상을 위한 중요한 원천으로 여겨지고 있습니다

 

 

 

Big Data 의 새로운 V

 

Big Data 의 새로운 V  - 정확성 (Veracity)

Big Data 시대에는 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있습니다. 하지만 이렇게 얻어낸 패턴이 잘못된 정보 또는 패턴이라면 어떨까요? 정보의 양이 많아지는 만큼 데이터의 신뢰성은 떨어질 수 밖에 없는게 실상 입니다. 따라서 Big Data  를 분석하는데 있어 기업이나 기관에서 수집한 수많은 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 할 필요성이 논의되기 시작하였고, 그리하야 새로운 속성인 정확성 (Veracity) 이 새로운 특성으로 제시되고 있습니다.

 

Big Data 의 새로운 V  - 가변성 (Variability)

똑같은 이야기를 들어도. 동일한 책을 읽은 후에도 사람마다 느끼는 바와 생각 그리고 의견이 다 다릅니다. 이에 확장되어 소셜미디어에서 자신의 이야기 또는 개인적인 소견을 웹사이트를 통해 자유롭게 게시하는 것이 쉬운 요즘, 작성자의 의도와는 다르게 글이 표현되면 글을 읽는 독자들에게서 오해를 불러일으킬 수 있는 소지를 제공하게 됩니다. 이처럼 데이터가 맥락에 따라 의미가 달라진다고 하여 Big Data 의 새로운 속성으로 가변성 (Variability) 이 제시되고 있습니다.

 

Big Data 의 새로운 V  - 시각화 (Visualization)

Big Data 는 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정을 거칩니다. 이때 중요한 것은 정보의 사용대상자의 이해정도이며 그렇지 않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무용지물이 될 수 있기 때문이다.

 

 

 

Big Data 의 처리 기법

 

위에서 설명한 특징들을 기반으로 분석, 활용을 위한 Big Data 의 처리 기법은 크게 분석 기술과 표현 기술로 나눌 수 있습니다.

 

분석 기술

Big Data 에서 데이터 처리란, 문제를 여러 개의 작은 연산으로 나누고 이를 재취합하여 하나의 결과로 만드는 것을 뜻하며, 대부분의 Big Data 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 Big Data 에서도 그대로 사용되고 있습니다. 추가로 현대에는 소셜 미디어 등 비정형 데이터의 증가로 인해 분석기법 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목받고 있습니다.

 

몇가지 분석 기술들을 추가로 소개하도록 하겠습니다.

 

 - 텍스트 마이닝 : /반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반을 두어 유용한 정보를 추출, 가공

 - 오피니언 마이닝 : 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별

 - 소셜 네트워크 분석 : 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정

 

 

표현 기술

 

Big Data 분석 기술을 통해 분석된 데이터의 의미와 가치를 어떻게 표현하느냐 역시도 매우 중요합니다. 말로 풀어서 설명하는 것보다 시각적으로 표현하는 것이 이해하기도 쉽고, 받아들이기도 쉽다는 것은 누구나 다 아는 이야기 입니다. 이처럼 데이터 분석 결과물을 시각적으로 잘 표현할 수 있는 기술로 대표적인 것으로는 R 그리고 MINITAB 등이 있습니다.

 

R과 MINITAB 으로 Box Plot, Dot Plot, Box Plot, Histogram 등 여러 가지 시각적인 결과물을 표현할 수 있으니 이 부분을 기억하시고 꼭 활용해보시길 권합니다.

 

 

 

Big Data 빅 데이터의 특징과 의미에 대해서 알아보았습니다.

다음에는 Big Data 빅 데이터의 활용 사례에 대해서 알아가 보도록 하겠습니다.