빅데이터가 활용되는 단계는 빅데이터를 보기 좋게 시각화하는 1단계, 전문가가 의사결정을 할 수 있도록 도움을 주는 2단계, 인공지능에 입력해서 곧바로 결과를 도출하는 3단계로 나눌 수 있습니다. 상위 단계로 갈 수 있는가, 아닌가는 인간의 판단력에 대한 과신을 얼마나 내려놓을 수 있느냐, 이해하고 납득하기 어려운 인공지능의 결과를 얼마나 수용적으로 받아들일 수 있느냐에 따라 결정됩니다.
빅데이터를 활용하는 가장 흔한 경우는 빅데이터를 시각화하는 것입니다. 위와 같은 워드 클라우드(Word cloud)가 대표적인 빅데이터 시각화 중 하나입니다. 빈도가 높은 단어는 가운데에 큰 글자로 나타나고, 그렇지 않은 단어는 주변에 작은 글자로 나타나는 방식입니다.
워드 클라우드 이외에도 꺾은선 그래프, 막대그래프, 원그래프 같은 형식으로 빅데이터를 시각화할 수 있습니다. 지도에서 빈도가 높은 지역은 붉은색으로 칠하고 그렇지 않은 지역은 파란색이나 녹색 등으로 칠하는 히트맵(heatmap) 방식도 있습니다. 빅데이터 시각화의 가장 큰 장점은 적은 인력과 시간, 비용을 투입하고도 가시적인 성과를 만들어 낼 수 있다는 것입니다. 빅데이터를 시작화한 것만으로도 대중은 대단한 작업을 한 것과 같은 인상을 받을 수 있습니다. 하지만 빅데이터를 시각화한 결과를 본다고 해서 어떤 결정적인 의사결정이나 결론이 나오기는 힘들다는 단점이 있습니다.
예를 들어서 국내의 축구 선수들의 개인 기록이나 성적을 시각화하는 경우를 생각해 보면, 국가 대표 축구팀 감독이 시각화된 결과를 보고 난 뒤 '선수들이 모두 열심히 운동하는구나'라고 생각할 수 있습니다. 하지만 이 결과로 자신이 기용하려고 했던 선수를 탈락시키거나 반대로 전혀 생각하지도 않던 선수를 선발하는 일은 거의 일어나지 않습니다. 빅데이터의 시각화 결과가 감독의 의사결정에 직접적인 영향을 끼치지는 못하는 것입니다. 이런 수준의 빅데이터 활용이 바로 1단계입니다.
이 같은 1단계의 빅데이터 활용은 수천억 원 이상의 가치가 있는 비행기를 산속에 묻어 놓고 카페 인테리어로 쓰는 꼴입니다. 비행기처럼 큰 가치가 있는 빅데이터를 활용하고 있는 것은 맞지만, 매우 제한적인 수준으로만 활용하고 있기 때문입니다.
빅데이터 활용 2단계에서는 감독이 선수 선발에 필요한 기준이 무엇인지를 먼저 제시하고, 이 기준에 맞게 데이터를 수집한 뒤 결과를 정리해서 감독에게 제공하게 됩니다. 감독이 제시한 선수 선발 기준에 맞게 데이터가 수집되고, 결과가 정리되어 감독에게 제공되므로 감독의 선수 기용에 데어터가 영향을 끼칠 가능성이 상대적으로 높습니다. 하지만 2단계도 결국은 감독의 의사결정이 전체되는 것이고 빅데이터는 보조적인 역할에 그칠 수밖에 없습니다. 2단계의 빅데이터 활용은 비행기를 버스로 활용하는 것과 같습니다. 1단계 활용보다는 조금 더 나을 수 있지만 결국 비싼 비행기를 아쉽게 활용하기는 마찬가지 셈입니다.
빅데이터 활용 3단계에서는 인공지능이 빅데이터를 기반으로 최적의 선수를 곧바로 선발하고, 어떤 선수가 필요하고 어떻게 훈련해야 하는지를 직접적으로 알려 줍니다. 인공지능이 1차적으로 선택한 사항을 감독이 선택할 것인지 아니면 수정 및 보완할 것인지를 결정하게 됩니다.
2014년 브라질 월드컵 준결승전에서 독일이 브라질을 7대 1로 완파하는 놀라운 일이 벌어졌습니다. 국가 대표 간의 경기에서는 이렇게 큰 점수 차가 나오기 힘들고 더군다나 상대팀이 월드컵 개최국인 세계 최강 브라질이었다는 점에서 더욱 놀라운 일이었습니다. 독일 국가 대표팀은 브라질 월드컵이 개최되기 4년 전부터 월드컵에서 우승하기 위해서는 월드컵 본선 토너먼트에서 만날 확률이 높은 브라질을 반드시 꺾어야 한다고 생각하고 철저하게 준비했습니다.
브라질 국가 대표가 될 가능성이 조금이라도 있는 모든 선수들의 시합과 연습 동영상 등 방대한 빅데이터를 수집했습니다. 이렇게 수집한 빅데이터를 인공지능으로 분석하여 브라질을 이기기 위한 전략을 세웠습니다. 바로 독일 국가 대표팀에 어떤 선수가 필요하고, 어떤 전술이 필요하며, 어떻게 훈련해야 되는지를 명확하게 도출했습니다. 인공지능이 도출한 이러한 결과를 감독이 적극적으로 수용하여 철저하게 준비했습니다. 브라질 월드컵 준결승전이 끝난 직후의 인터뷰에서 독일 선수들은 자신들이 준비하고 연습한 대로 패스를 했더니 패스를 한 공간에 브라질 수비수들이 없고, 준비한 대로 슛을 했더니 골키퍼가 반대쪽으로 점프해서 자신들도 놀랐다는 이야기를 했습니다.
빅데이터 활용 3단계는 비행기를 이륙시켜서 태평양과 대서양을 횡단하는 것과 같습니다. 빅데이터 활용 1~2단계와 3단계의 결정적인 차이는 의사결정을 사람이 주도하는가 아닌가에 달려 있습니다. 빅데이터 활용 3단계를 위해 필요한 빅데이터, 인공지능 기술은 이미 많이 성숙해 있고, 대중에게 공개되어 있습니다. 하지만 인간의 판단력이 가장 정확하다고 여기는 개인이나 조직은 3단계까지 나아가지 못하고 있습니다. 빅데이터와 인공지능을 제대로 활용하느냐 또는 그렇지 않느냐는 기술이 아니라 인간의 의지와 사고의 유연성에 달려 있습니다.
빅데이터의 원천은 크게 인터넷, 문서, 센서라고 볼 수 있습니다. SNS 등의 인터넷에 존재하는 방대한 데이터를 웹크롤링(Webcrawling)이라는 기술로 수집하고, 문서상의 데이터는 파싱(Parsing)이라는 기술로 수집합니다. 과거 유비쿼터스 개념이 발전한 현재의 IoT, M2M의 핵심은 센서인데, 센서로부터 방대한 양의 데이터를 수집할 수 있습니다.
웹크롤링, 파싱, 센서로부터 데이터를 수집하고 전처리, 저장하는 과정을 데이터 마이닝(Data mining)이라고 합니다. 데이터 마이닝을 위해서 필요한 기술은 현재 어느 정도 정리가 된 상태입니다. 하지만 이렇게 확보된 빅데이터를 어떻게 분석하고 활용하느냐에 대해서는 정답이 있을 수 없습니다.
빅데이터 분석과 활용 단계가 제대로 진행되기 위해서는 해당 분야에 대한 전문성과 경험이 필요하고 인간이 상상력과 창의력이 필요할 것입니다.