<7> 기업 성장의 필요충분조건 ‘빅데이터’

▲ 과학기술정보통신부는 지난해 5월 대구디지털산업진흥원·영남대학교·한국교통안전공단·대구경북연구원 등 4개 기관을 빅데이터 전문센터로 지정했다.
▲ 과학기술정보통신부는 지난해 5월 대구디지털산업진흥원·영남대학교·한국교통안전공단·대구경북연구원 등 4개 기관을 빅데이터 전문센터로 지정했다.
▲ 빅데이터는 기존 데이터베이스의 관리능력을 초과해 정형, 반정형, 비정형 데이터 모두를 아우르는 것을 통칭한다.
▲ 빅데이터는 기존 데이터베이스의 관리능력을 초과해 정형, 반정형, 비정형 데이터 모두를 아우르는 것을 통칭한다.
▲ 최근 알파고의 업그레이드판 ‘알파고 제로’가 공개됐다. 알파고 제로는 바둑 뿐 아니라 체스, 장기에 이르기까지 인간계 챔피언을 물리쳤다.
▲ 최근 알파고의 업그레이드판 ‘알파고 제로’가 공개됐다. 알파고 제로는 바둑 뿐 아니라 체스, 장기에 이르기까지 인간계 챔피언을 물리쳤다.
▲ 과거에도 거대한 양의 데이터 분석 기술은 존재했다. 바로 ‘슈퍼컴퓨터’인데 이를 활용해 많은 양의 데이터를 추출·축적해왔다
▲ 과거에도 거대한 양의 데이터 분석 기술은 존재했다. 바로 ‘슈퍼컴퓨터’인데 이를 활용해 많은 양의 데이터를 추출·축적해왔다
▲ 빅데이터의 대표적 활용분야는 인공지능과 머신러닝, 딥러닝으로 압축할 수 있다.
▲ 빅데이터의 대표적 활용분야는 인공지능과 머신러닝, 딥러닝으로 압축할 수 있다.


기록은 여러 함의를 내포한다. 추억의 편린일 수 있고 경험치 축적으로 최상의 커리큘럼을 제공하기도 한다. 기록은 또 다른 의미의 데이터다. 데이터 분석을 통해 불특정 다수 누구랄 것 없이 유용한 기록을 전파한다.

데이터에 관한 가치는 시나브로 공감을 얻고 있다. 산업 분야를 망라하고 데이터에 의한 활용도가 높아지기 때문. 유수의 시장조사업체에 따르면 2022년을 기점으로 데이터 시장의 가치가 약 3천억 달러에 육박할 것으로 전망하고 있다.

인공지능(AI)은 유토피아와 디스토피아의 이항 대립에도 향후 도래할 4차 산업혁명의 핵심으로 꼽힌다. AI의 매개체가 바로 데이터라는 것, 상기돼야 함이 마땅하다는 방증이다.

빅데이터는 위에서도 언급했듯 거대한 양의 데이터를 분석, 심도 있는 각종 정보를 추출, 경제적 가치를 제고한다. 포털의 뉴스 검색, 소셜네트워크서비스(SNS), 은행의 금융거래 기록 등이 여기에 속한다.



◆빅데이터의 역사와 정의

기록이 데이터라면 용어 그대로 데이터가 큰 것을 빅데이터라고 명칭한다. 세부적으로 들어가보면 기존 데이터베이스의 관리능력을 초과해 정형, 반정형, 비정형 데이터 모두를 아우르는 것으로 빅데이터라고 통칭한다.

그렇다면 정형, 반정형, 비정형 데이터의 정의는 무엇일까. 우선 정형 데이터는 우리가 흔히 접하는 문자와 숫자 데이터로 이해하면 빠르다. 학점이나 개인 신상에 관련된 각종 수치 등을 정형화된 툴을 활용, 저장해둔 ‘가시적’ 성격을 띤다.

반정형 데이터는 눈에 보이지 않는다. 대신 XML(컴퓨터 텍스트 구조 표시 시스템)과 HTML(웹 문서를 만들기 위한 웹 언어의 한 종류), 웹 로그 형태로 발현된다. 더욱 쉽게 설명하자면 원하는 정형 데이터를 취득하기 위한 숨은 데이터라고 보면 된다. 포털사이트나 홈페이지 등에 이 기술이 담겨있다.

비정형 데이터는 용어 그대로 정형화된 툴이 없다. 툴이 없기에 연산은 불가능하되 형태는 다양하다. 동영상, 음성, 이미지 등이 비정형 데이터의 범주에 속한다. 데이터의 통상적 기준에는 벗어나지만 빅데이터의 범주로는 가치있는 데이터 형식으로 각광받고 있다.

그렇다면 빅데이터의 시작은 과연 언제부터일까. 결론부터 얘기하면 정확한 시기를 꼭 집어내기에는 미흡한 부분이 많다. 데이터란 역사가 워낙 방대하기에 빅데이터 역시 데이터 발전간 산출물로 여기는 학설이 지배적이다. 하지만 데이터와 빅데이터의 경계는 엄연히 차별점을 둔다.

물론 과거에도 거대 양의 데이터 분석 기술은 존재했다. 그것이 바로 우리가 흔히 들어 본 ‘슈퍼컴퓨터’인데 이를 활용해 많은 양의 데이터를 추출·축적해왔다.

하지만 슈퍼컴퓨터가 진정한 의미의 빅데이터라고 정의하기엔 미흡한 부분이 있다. 슈퍼컴퓨터의 구입과 관리에 들어가는 수십억 원의 비용적 문제가 우선 발생한다. 이마저도 정부 차원의 활용만 가능, 높은 진입장벽으로 민간인의 접근을 허용하지 않았다.

오늘날 빅데이터는 비용적 측면에서 과거와의 확실한 차별성을 둔다. 저렴한 비용으로 엄청난 데이터를 효율적으로 추출할 수 있다는 가성비의 영역에서다. 더욱이 영상 등 비정형 데이터를 분석할 수 있는 텍스트와 하둡(Hadoop) 등 기술들이 대두됐다.

기업도 과거 대용량 데이터 분석에 소요됐던 금액과는 비견할 수 없을 정도의 적은 돈으로 필요 정보를 선택하고 기존 정보와의 적절한 통합을 통해 퀄리티있는 가치 전달에 최적화된 환경을 구축했다.

◆3V 아이덴티티를 지닌 빅데이터

유튜브를 통해 니즈(Nees)에 맞는 영상정보를 취득한다. 페이스북으로 인맥관리와 더불어 추억을 검색한다. 카카오톡으로 내 사람에게 희소식을 전하는 것, 이 모든 것이 데이터로 구성되며 이는 고스란히 저장된다.

빅데이터는 총체적으로 ‘3V’의 아이덴티티를 지닌다. 여기서 3V란 데이터 크기(Volume), 처리속도(Velocity), 다양성(variety)의 요소를 함축한다. 크기라 함은 저장되는 데이터의 양, 속도는 초고도화 한 실시간 처리, 다양성이란 여러 형태의 데이터를 내포한다.

빅데이터의 메리트는 많은 데이터를 분석해 정형화된 패턴의 도출이다. 하지만 여기에는 맹점이 있다.

제아무리 빅데이터 기술이 발전했다손 치더라도 데이터양이 방대할수록 오류 데이터 산출이라는 리스크 역시 간과해선 안 된다. 이를 두고 일각의 전문가들은 3V가 아닌 6V를 주창한다. 여기에는 정확성(Veracity)과 가변성(Variability), 시각화(Visualization)를 포함한다.

SNS의 확산으로 개인의 주장을 특정 매체의 도움 없이 피력하고 여론화할 수 있는 지름길이 열렸지만 의도와 다른 맥락 이해로 본래 주장이 폄훼되고 왜곡됨을 경계해야 한다. 이와 더불어 필요에 의해 취사선택 된 정보를 가공의 과정을 거쳐 가시화되는 빅데이터의 특성상 정보 이용자들의 용이한 접근이 요구된다. 정보 가공을 위해 공들인 여러 경제적 비용이 한낱 무용지물로 전락됨을 우려할 필요가 있다.





◆실수는 줄이고 장점은 극대화하자

모든 산업군이 데이터의 영향을 받는다. 수많은 기록과 이에 따른 데이터 분석으로 실수를 고찰하고 장점을 극대화하는 작업, 전 방위적으로 빅데이터의 활발한 활용사례가 생겨남에 따라 이에 대한 예시를 특정하기에도 어려울 지경이다.

빅데이터가 신변잡기적 일상마저 변모시키고 있다. 금융 간 빅데이터의 활용으로 보험료 절감과 노후대책 수립 간 지렛대 역할을 한다. 범죄 이력 등을 빅데이터화 해 성범죄와 보이스피싱 등 각종 범죄 피해에 선제적 대응을 할 수 있다.

빅데이터의 대표적 활용분야는 인공지능과 머신러닝, 딥러닝으로 압축할 수 있다. 쉽게 풀어보자. 인공지능은 머신으로부터 인위적으로 만든 지능, 머신러닝은 기계학습으로 통칭한다. 컴퓨터 학습 간 알고리즘 개발의 한 분야라고 정의된다. 딥러닝은 말 그대로 깊은 학습, 이는 곧 심층학습으로도 일컫는데 데이터 추출을 사람이 하지 않고 기계 차원으로 학습하고 저장하는 프로그램이다.

각 농가는 수익성 향상을 위한 데이터 플랫폼을 구축, 컨설팅 시스템 도입에 열을 올리고 있다. 특히 하릴없이 피해를 입는 구제역 등의 각종 가축질병에 선제적으로 대응하기 위한 방역전산시스템의 초고도화가 이 플랫폼의 핵심이다. 식당 창업을 돕는 인기 프로그램에도 성공을 위한 다양한 상권, 가격, 메뉴 등의 데이터를 수집하고 분석하는 것이야말로 창업의 선제적 요건으로 강조하고 있다.

빅데이터는 스포츠와도 깊은 연관을 가진다. 모든 종목이 그렇겠지만 특히 야구는 ‘기록의 예술’로 종종 표현되곤 한다. 야구를 직접 관람을 하지 않더라도 선수 기록만으로 경기의 일정 부분을 머릿속에 그려볼 수 있다. 기록과 숫자의 데이터로 발현되는 통계의 스포츠가 바로 야구이기 때문이다.

생명을 다루는 의료계에서의 빅데이터는 필수 사항으로 자리 잡았다.

AI가 신생아의 동선을 분석, 뇌성마비 등 각종 질병 여부를 진단한다. 진단 영상은 ‘머신러닝’ 기술로 저장 후 학습, 빅데이터화 한다. 정확도는 100%에 가깝다. 학습사례가 잦아질수록 정확도는 더욱 견고해진다.

각종 재난사고로 몸살을 앓고 있는 대한민국. 피해 최소화를 위한 재난 예측가능성을 제고하는 데도 빅데이터는 가장 유용한 기술력으로 평가되고 있다.

국립재난안전연구원에 따르면 ‘지진해일대응시스템’의 구축으로 지진 발생 후 해일 등이 육지에 도달하는 시간과 최대 파고를 예측한다. 예상 파고가 접수되면 침수 예상범위를 시뮬레이션화 할 수 있고 시민들의 대피 중 파생 가능한 변수 등을 사전에 방지, 피해를 절감할 수 있다.

한국은행 역시 빅데이터 영역을 전담할 ‘빅데이터통계연구실’을 가동, 소셜미디어에서 파생될 다양한 변수 등을 경제지표 상 접목 가능성에 대한 시뮬레이션을 진행하고 있다.





◆빅데이터 기반 ‘AI 산유국’이 되자

빅데이터는 21세기의 석유로 대변된다. IT강국인 우리나라는 빅데이터의 발전으로 ‘AI 산유국’으로 발돋움할 공산이 크다. 자원이 부족한 대한민국에서 빅데이터야말로 핵심자원으로의 메리트를 충족할 수 있는 최적의 기술력이다.

전 세계적으로 빅데이터 시장의 성장률은 고무적이다. 2012년 약 50억 달러에 그친 빅데이터 관련 기술·서비스 사업군은 2015년 170억 달러 가까이 성장했다. 여기에 파생될 일자리 역시 500만 개에 이를 정도로 빅데이터의 파급력이 그 어느 때보다 높은 상황.

세계 유수의 시장조사 업체에서도 빅데이터의 연평균 성장률을 30%대 수준으로 전망하고 있으며 2020년 빅데이터 시장규모를 약 250조 원으로 예측했다.

국내 역시 빅데이터의 장밋빛 미래가 점쳐지고 있다.

현재 국내 빅데이터 시장은 연평균 11% 고성장률을 보이고 있다. 이 추세가 지속된다면 오는 2022년 국내 빅데이터 시장규모가 2조2천억 원에 육박할 것이라는 전망이 나오고 있는 상황이다.

데이터 전 과정을 아우르는 글로벌 데이터스피어(Datasphere)가 지난해 33제타바이트(ZB)에서 2025년에 이르러 175제타바이트까지 폭증할 것이라는 견해가 중론이다.

선견지명과 지피지기로 대변되는 미래예측의 수단 빅데이터. 산업간 실수를 줄여 손해를 최소화한다는 점에서 필수불가결한 시스템임은 부정할 수 없지만 빅데이터는 기본적으로 인과와 상관관계로의 예측을 기본으로 한다.

경험치에 의한 정확도 제고는 될지언정 절대적 기준에는 다소 못 미치는 것 또한 사실이다. 빅데이터의 팩트적 요소를 강화하자면 시나브로 변모하는 사회적 상황과 각 산업의 고유성을 인정, 이를 바탕으로 ‘핀셋 컨트롤화’할 수 있는 또 다른 능력이 요구된다.

글·사진 군월드 IT 사업팀
저작권자 © 대구일보 무단전재 및 재배포 금지