본문 바로가기

DT(Data Technology) 중요성

한 연구의 따르면 인간이 시각, 청각, 후각, 촉각, 미각을 통해 하루 평균 받아들이는 데이터의 양은 약 14GB, 이 중에서 시각 데이터가 전체의 71퍼센트에 이르는 10GB나 됩니다.

 

아침부터 밤까지 눈을 통해서 받아들이는 시각 데이터의 양이 10GB는 엄청난 양인데 이 중에서 단기 기억으로 넘어가는 시각 데이터는 아주 일부분일 수밖에 없습니다. 단기 기억 중에서 일부는 꿈을 통해 기존 이억과 결합하고 나머지 불필요한 기억은 정리되기 때문에 장기 기억으로 넘어가는 것이 극히 일부분입니다.

 

우리는 매일 받아들이는 10GB의 시각 데이터 중에서 극히 일부분을 기억하고 있는 것입니다. 매일 받아들이는 10GB의 시각 데이터를 인간은 모두 저장할 수 없기 때문에 필연적으로 중요하다고 생각되는 것 위주로만 기억합니다.

 

하지만 컴퓨터는 사용자들의 모든 행동을 기록하며 이것을 매일 저장하다 보면 어마어마한 데어터가 쌓이게 됩니다. 빅데이터란 기존 데이터베이스 관리 도구로 데이터를 수집하고 저장하며 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과는 분석하는 기술입니다.

 

 

 

빅데이터에 대한 흔한 오해는 데이터의 양이 많으면 빅데이터이고 그렇지 않으면 빅데이터가 아니라는 것입니다. 제철소 용광로에 온도 센서가 있고, 이 온도 센서가 10분마다 온도 값을 송출하는 경우, 10분마다 1개의 온도 값이 측정되므로 1시간에 6개이고, 온종일 수집되는 온도 값의 수도 144개 밖에 되지 않습니다. 이 144개의 값을 인포메이션으로 거르지 않고 모두 저장한다면 이 데이터는 빅데이터라고 할 수 있습니다. 반면에 연구자가 10억 개의 데이터 중 1억 개의 인포메이션을 선별했다면 이 1억 개의 양은 인포메이션일 뿐 빅데이터는 아닙니다.

 

빅데이터는 데어터의 양으로 구분하는 것이 아니라 전체 데이터 중 일부를 인포메이션으로 선별했는지 여부입니다. 따라서 빅데이터라는 표현보다는 올 데이터라는 표현이 정확합니다. 발생한 데이터를 선별하지 않고 모두 수용했다면 올 데이터, 즉 빅데이터인 것이고 그렇지 않다면 빅 데이터가 아닌 것입니다.

 

빅데이터 양의 80% 정도는 SNS, 웹과 같은 인터넷으로 수집되고 나머지 약 20% 정도는 M2M, IoT과 같은 센서로부터 수집됩니다. 이렇게 빅데이터가 수집되는 원천을 빅데이터 소스라고 부르는데, 이 소스를 통해 새로운 빅데이터가 추가 생성되고, 기존에 생성되었던 빅데이터가 계속 수정되는 특성이 있습니다.

 

 

사람이 빅데이터를 판단하여 분석하는 것보다 인공지능으로 분석하는 것이 더 좋은 이유는 사람의 판단으로 처리하기에는 빅 데어터의 양이 많고, 또 하나는 사람의 논리로 빅데이터를 해석하면 전체 데이터 중 일부분은 깔끔하게 해석되지만 나머지 일부분은 그렇지 않을 수 있습니다.

 

전체 데이터 중 일부를 인포메이션 것과 그렇지 않은 것으로 선별할 때, 인간이 염두에 두고 있는 논리와 관련이 있는 데이터는 인포메이션으로 선별하고, 그렇지 않은 것은 인포메이션이 아닌 것으로 선별했을 가능성이 클 수 있습니다.

 

 

인포메이션 안에 의미 있는 메시지나 패턴이 있는 경우면 기존의 IT로 충분할 수 있습니다. 하지만 인포메이션이 아닌 데이터 안에 의미 있는 메시지나 패턴이 있는 경우에는 IT가 이것을 놓치게 됩니다.

 

바둑의 정석과 같이 인간의 논리로 생각할 수 있는 수들이 인포메이션 안에 포함된 것이라면 알파고가 이세돌 9단과 바둑을 둘 때 마치 바둑의 정석에 벗어나는 희한한 수로 보였지만, 바둑 대국이 끝나고 돌이켜 봤을 때, 전체 바둑을 유리하게 만들었던 수들을 인포메이션 아닌 데이터에 위치한 패턴에 해당했던 것입니다.

 

같은 학교에 다니는 이성 친구들 모두의 핸드폰 번호가 빅데이터라면 관심 있는 소수의 핸드폰 번호는 인포메이션이 됩니다. 많은 세월이 흐른 후에 이것에 포함된 이성과 결혼할 수도 있지만, 인포메이션이 아닌 올 데이터 안에 있던 이성과 결혼할 수 있습니다.

 

IT는 인포메이션 안에서만 결혼 상대가 있을 수 있다고 가정하기 때문에 인포메이션 외에 빅데이터의 가능성을 놓칠 수 있게 됩니다. 반면에 DT는 올 데이터의 가능성을 놓치지 않습니다.

 

1990년대부터 2000년대 초까지 인터넷 검색 포털 서비스의 전 세계 1위 업체는 야후였습니다. 야후 홈페이지의 첫 화면에는 정치, 경제, 스포츠, 문화 등 분야별 분류가 제시되었고, 이 분야는 다시 세분화되었습니다.

 

예를 들어 영화와 관련된 검색을 야후에서 한다면 문화 분야를 선택한 후 다시 영화 분야를 선택한 다음에 검색을 해야 했습니다. 각 분야별로 전문성이 있는 직원들이 선별한 정보들이 검색 결과로 제공되었습니다. 즉 야후의 검색 결과는 올 데이터에서 선별된 인포메이션이었던 것입니다. 야후의 방식은 전문가에 의해 선별된 인포메이션을 제공하는 것이었기 때문에 완성도가 높았습니다.

 

반면 구글은 1996년부터 랭킹 시스템이라는 인공지능을 기반으로 검색 결과를 제공했습니다. 인터넷에 존재하는 전체 데이터 중에서 사람들이 많이 조회하고 랭킹이 높은 정보들을 검색 결과 페이지의 상단에 배치했습니다. 야후처럼 전문가에 의해서 걸러진 정보가 아니라 조회 수나 링크 수의 영양이 많았기 때문에 조악한 결과가 많았습니다. 하지만 시간이 지남에 따라 야후의 검색 결고는 더 이상 발전하지 못했지만 구글은 계속해서 발전했습니다.

 

구글에서 검색해서 결과가 나오지 않으면 인터넷에 그 자료는 아예 없는 수준까지 이르게 되자 야후는 구글과의 경쟁에서 패했습니다. 야후가 IT를 다루는 동안 구글은 DT를 다뤘던 것입니다. 구글의 기술이 야후를 앞섰기보다는 구글의 통찰력이 야후를 앞섰기 때문에 경쟁에서 살아남았습니다.

 

 

3차 산업혁명의 기반 기술인 IT는 인간이 선별한 인포메이션에서만 결과를 도출했다면 4차 산업혁명의 기반 기술인 DT는 전체 자료를 인공지능으로 분석해서 결과를 도출한 것으로 사람이 놓쳤던 패턴이나 메시지를 놓치지 않을 확률이 좀 더 커졌습니다. IT는 사고력이 중심이 되어 인포메이션을 처리합니다.

 

반면 DT는 인간의 사고력을 내려놓고, 올 데이터에서 패턴이나 메시지가 마치 매직아이가 떠오르듯이 나타나도록 하는 기술입니다. DT는 인간의 사고력 안에서 답이 나타나도록 하는 방식이기 때문에 데이터 드리븐(Data Driven)이라고 말하기도 합니다.

 

DT의 2가지 핵심 기술이 바로 빅데이터와 인공지능입니다.