Big Data (빅 데이터), 단순히 직역하면 "많은 데이터" 라고 할 수 있습니다.
요즘 새로운 일을 한다거나 무언가를 개선하려고 할 때마다 "Big Data 해야한다.", "Big Data 필수다." 하는 말을 들어보셨을 겁니다. 많은 데이터, 도대체 그것이 무엇이길래 사람들이 이렇게 말을 하는 것일까요?
그냥 많은 데이터라는 뜻이 아닌 Big Data 가 무엇을 의미하는지, 근본이 무엇인지, 왜 중요한지, 어떤 분야에, 어떻게 활용하는지 등등 Big Data에 대해 알아가 보도록 하겠습니다.
세번째 시간에는 Big Data 의 활용 사례에 대해서 알아보는 시간을 갖겠습니다.
목차
Big Data 의 활용 사례
정치 분야 사례
첫번째로 너무나 잘 알려진 실화죠? 먼저 2008년 미국 대통령 선거 사례 입니다.
2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보 선거 캠프에서는 유권자 개별 상세 정보를 조사 및 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략' 을 전개했습니다. 당시 오바마 캠프는 인종, 종교, 나이, 가구형태, 소비수준과 같은 기본 인적 사항으로 유권자를 분류하는 것을 넘어 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화나 개별 거주지 방문 또는 소셜 미디어를 통해 유권자 정보를 수집하였고, 수집된 데이터는 오바마 캠프에 취합되어 유권자 데이터베이스를 구축하여 유권자 성향 분석, 미결정 유권자 선별 , 유권자에 대한 예측을 해나갔습니다. 이를 바탕으로 ‘유권자 지도’ 를 작성한 뒤 ‘유권자 맞춤형 선거 전략’ 을 전개하여 비용 대비 효과적인 선거를 치를 수 있었다고 합니다.
정치분야 두번째로 대한민국 제19대 총선 사례 입니다.
우리나라 중앙선거관리위원회는 대한민국 제19대 총선부터 인터넷 상의 선거 운동을 상시 허용한 사실을 알고 계셨나요? 이에 소셜 미디어 상에서 선거 관련 데이터는 증폭되었으며, 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등 소셜 네트워크 활용하는 선거 운동이 중요하다고 인식하였습니다. 하지만 인터넷 상 선거 운동 허용 초기인 2010년 제5회 지방 선거 및 2011년 재보궐선거의 여론조사 결과와 실제 투표 결과는 큰 차이가 발생하여 문제시 되기도 했었습니다. 이에 여론 조사 기관들은 기존 여론조사 방식으로 예측 결과를 보완하고자 BIg Data 를 활용하여 SNS 여론 분석을 실시하게 되었습니다. 하지만 그당시 SNS 이용자의 대다수가 수도권 20 ~ 30대였기 떄문에, Big Data 를 이용한 대한민국 19대 총선에 대한 SNS 분석 결과는 수도권으로 한정되어 일치하는 한계를 드러내기도 했었습니다.
경제 및 경영 분야 사례
아마존 이라는 기업은 들어보셨을 겁니다. 아모존의 추천 상품 표시, 그리고 구글 및 페이스북 맞춤형 광고 사례 입니다.
아마존은 모든 고객들의 구매 내역을 데이터베이스에 기록하고, 이 기록을 분석해 소비자의 소비 취향과 관심사를 파악하는 대표적 기업 입니다. 이런 Big Data 의 활용을 통해 아마존은 고객별로 '추천 상품 (레코멘데이션)' 을 표시하고, 고객 한사람 한사람의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일과 홈 페이지상에서 중점적으로 고객 모두에게 자동적으로 제시하는 활동을 말하는 것 입니다. 아마존의 추천 상품 표시와 같은 방식으로 구글 및 페이스북도 이용자의 검색 조건, 나아가 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여 이용자에게 맞춤형 광고를 제공하는 등 SNS 상에서도 Big Data 의 활용이 증가되어 가고 있습니다.
사회 분야
.
2019년 코로나19 가 중국에서 발발하여 전세계로 확산되는 상황에 이르게 되었었습니다. 나라별로 통계를 이용하여 코로나 확진을 막고자 노력하였습니다. 가장 먼저 중국인에 대한 조사를 시작하였고, 이에 국가별 확진자 수와 중국인 유행생, 그리고 이민자 수에 대한 통계 조사를 통하여 상관 분석을 실시하였습니다. 결과적으로 비교적 강한 양의 상관관계를 가지고 있다라는 분석결과를 알게 되었습니다. 이를 통해 코로나19 감염병 확산을 예측하고 효과적으로 대처하는 방법까지 추가로 확인하게 되었으며, 중국인 자체가 감염증 발생과 확산의 원인은 아니다 라는 사실을 추가로 확인하였습니다. 이는 사회적 이슈에 대해 사실을 알리기 위한 Big Data 활용 분석 사례 입니다.
스포츠 분야 사례
Major League Baseball (통칭 MLB) 의 데이터 야구 라는 말, 한번은 들어보셨을 겁니다.
MLB에는 머니볼 이론이란 말이 있는데요? MLB 내 모든 팀들의 경기 데이터를 철저하게 분석해 오직 데이터를 기반으로 상대팀에 맞게 우리팀 선수들을 적재적소에 배치하는 것, 적절한 타이밍에 교체하는 투수, 그리고 상대팀 투수에 맞게 적절한 선수를 내보내는 대타 등 우리팀의 승률을 높이기 위해 데이터를 다루는 게임 이론을 말합니다. 이는 MLB 오클랜드 어슬레틱스의 구단장 빌리 빈이 리그 전체 25위에 해당하는 낮은 구단 지원금 속에서 최소비용으로 최대효과를 거둔 과거 사례에서 유래 되었습니다. 빌리 빈은 최하위 팀을 4년 연속 포스트시즌에 진출시키고, MLB 최초로 20연승이라는 신기록을 세우도록 탈바꿈 시키키도 했습니다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 빌리 빈을 선정 하여 머니볼 이론이 경영, 금융 분야에서도 주목받았던 적도 있습니다 (2003년).
요즘은 과학기술과 카메라 기술의 발달로 더욱 정교한 데이터의 수집이 가능해졌으며 투구의 궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 야구 경기 진행되는 동안 선수들의 모든 행동과 공에 대한 모든 것을 데이터로 잡아낼 수 있게 되었습니다. 이처럼 정형 데이터뿐만 아닌 비정형 데이터의 수집과 분석, 활용을 통해 최근 야구경기에서 Big Data 의 중요성은 더욱 커지고 있습니다. 야구 경기를 지켜보는 관중들과 시청자들도 선수의 인기만을 쫓는 것이 아니라 팀별 승률이나 선수의 성적을 나타내는 수치들에 관심을 가지며 야구를 관전한다면 그 재미는 배가 될 것입니다. 이처럼 한 선수의 타율에서 팀의 역대 전적까지 모든 것을 숫자로 표현할 수 있기에 야구는 통계 스포츠의 대표 주자 입니다. 야구뿐만 아니라 생활 곳곳에서 활용되는 통계는 복잡한 상황과 설명을 간단한 숫자로 바꿔주는 매우 강력한 도구입니다.
브라질에서 개최된 2014년 FIFA 월드컵 우승국인 독일, 독일 역시 Big Data 를 사용하여 준결승에서 개최국인 브라질을 7:1로 꺾고, 결승에서 아르헨티나와 연장전까지 가는 접전 끝에 1:0으로 승리를 거두었었습니다. 한번도 지지않고 무패행진으로 우승을 차지한 전차군단 독일의 우승의 배경에는 Big Data 가 있었습니다. 독일은 SAP와 협업하여 훈련과 실전 경기에 'SAP 매치 인사이트'를 도입했습니다. SAP 매치 인사이트란, 선수들에게 부착된 센서를 통해 운동량, 순간속도, 심박수, 슈팅동작 등 방대한 비정형 데이터를 수집, 분석한 결과를 감독과 코치의 태블릿PC로 전송하여 그들이 데이터를 기반으로 전술을 짜도록 도와주는 솔루션 프로그램 입니다. 기존에 감독의 경험이나 주관적 판단으로 결정되는 전략과는 달리, SAP 매치 인사이트를 통해 이루어지는 분석은 선수들에 대한 분석 뿐만 아니라 상대팀 전력, 강점, 약점 등 종합적인 분석을 통해 좀 더 과학적인 전략을 수립할 수 있게 도와주는 아주 좋은 프로그램 입니다.
학문 분야 사례
통계학에서 가장 많이 활용되고 있다는 것은 굳이 강조하지 않아도 알고 계실거라 생각합니다. 통계학에서 데이터 마이닝이란, 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다. 여기서 수집되는 Big Data 를 보완하고 마케팅, 시청률조사, 경영 등으로부터 체계화하여 분류하고 예측하며 분석하는 등의 데이터 마이닝을 거쳐 통계학적인 결과를 도출해 내고 있습니다.
또한 생물학과 의학 분야에서 Big Data 를 활용한 사례가 많이 늘어나고 있습니다. DNA, RNA, 단백질 서열 및 유전자들과 같은 경우 샘플 수집과 임상 실험이 어렵기 때문에 정확한 예측과 분석이 중요합니다. 그러하기에 가상 데이터, 조그마한 샘플 데이터에 대한 다방면에서의 분석 데이터가 필요하게 되었고, 이의 발현과 조절에 대한 데이터의 양이 급격히 증가하였습니다. 이에 따라 Big Data 를 활용한 생명의 이해에 관한 논의가 진행되고 있는 것이 현대 의학과 생물학 입니다.
기업 경영 사례
기업을 경영하는 데에도 다양한 데이터를 활용한 Big Data 경영이 주목받고 있습니다. 각 기업들은 데이터 품질을 높이고 방대한 데이터의 처리를 돕는데 집중하고 있고, 자연스럽게 데이터 통합 (Data Integration) 의 중요성이 부각되고 있습니다. 데이터 통합(DI)은 데이터의 추출, 변환, 적재를 위한 ETL 솔루션이 핵심인데 ETL 솔루션을 활용하면 일일이 수많은 데이터를 기업 데이터 포맷으로 코딩하지 않아도 되고 데이터 품질을 제고할 수 있기 때문에 DI는 빅데이터 환경에 꼭 필요한 데이터 솔루션으로 평가받고 있는 단계까지 진입되었다고 합니다.
가장 대표적으로 마케팅 업무를 확인해 보겠습니다. 인터넷으로 시작해서 인터넷으로 마감하는 현대인들의 생활, 스마트폰을 이용해 정보를 검색하고 쇼핑도하고 SNS를 이용해서 실시간으로 글을 남기는 등의 다양하게 인터넷을 이용하는 동안 남는 데이터 흔적, 이런 데이터들을 분석하면 개인의 생활 패턴, 소비성향 등을 예측할 수 있고 기업들은 이런 데이터를 통해서 소비자가 원하는 것들을 미리 예측할 수 있게 되었습니다. 마케팅 분석의 예로써 지역축제의 SNS 분석을 들 수 있는데요. 기존 지역축제의 성공을 측정하는 방식은 경제적 파급효과를 통해 이루어져 왔지만, 축제의 성공 지표는 개최에 따르는 경제성만으로는 평가될 수 없으며, 축제를 즐기는 관광객의 즐겁고 신나는 경험을 통해 투자와 소비로 연결되는 선순환 과정을 확보해야 한다라는 새로운 성공 지표가 화두되고 있습니다. 이를 측정할 방법은 축제를 즐긴 관광객이 남긴 인터넷 상의 '5Ns' 의 추적을 통해 가능합니다. 5Ns 란, 주목 (attentioN), 반응 (reactioN), 표현 (expressioN), 참여 (participatioN), 소비 (consumptioN) 이렇게 5가지 입니다.
기업 경영에서 다른 방면으로 중요한 것이 보안관리 입니다. 보안관리는 Big Data 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리하고 있습니다. 클라우드 및 모바일 환경으로 접어들면서 물리적 / 가상화 IT 시스템의 복잡성이 더욱 높아지고 있고, 이에따라 유무선 네트워크, 프라이빗 / 퍼블릭 클라우드, 모바일 애플리케이션과 기기관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안관리가 중요한 요소로 현실화되고 있는 것이 현실입니다.
Big Data 빅 데이터의 활용 사례에 대해서 알아보았습니다.
지금까지 Big Data 정의, 특징, 의미, 활용 사례까지 알아보았습니다.
다음에는 더 많은 정보를 가지고 이야기 나눌 수 있도록 하겠습니다.