빅데이터로 대선 결과도 예측하는 세상

통계학이 과거에 각광 받던 것처럼, 빅데이터는 단어 자체로 허상을 만들고 있거나 ‘데이터로 세상을 설명하는데 경이로움을 느끼는 사람들’에 의해 과대평가 받고 있을 수 있다. 실제로 우리는 빅데이터라는 단어를 많이 들어왔고 다양한 비즈니스 모델도 들어봤지만 실제 우리에게 가치를 전달하는 빅데이터를 보기 어려운 것이 사실이었다.

0. 빅데이터로 대선을 예측하게된 배경

2016년 미국 대선에서 설문조사결과(poll)는 8개의 조사기관에서 모두 힐러리가 이길 것이라 예측했었고, NYTimes 도 85% 확률로 클린턴의 승리를 확신했지만 경합지역(Swing state)에서 트럼프가 승리하게 되면서 결과는 뒤바뀌었다.

Rosenstone, Campbell 과 Lewis-Beck 으로 이어지는 Political Science Approach는 아주 낮은 오차 범위에서 미국 대선 결과를 성공적으로 (77.8%) 예측해 왔는데 어떠한 요소가 빠져 있는 것일까? 표본 프레임과 목표 집단과 불일치로 인해 발생하는 Frame 오차 (ex- 모바일 설문에는 스마트폰을 사용하지 않는 사람은 제외/ ex-투표를 하지 않을 사람이 포함됨)와 설문 응답률 자체가 10% 미만임으로 인해 발생하는 Nonresponse 오차로는 설명이 부족한 것은 아닐까? 2016년 대선 오차의 원인으로 기존에는 poll에 잘 참여하지 않던 백인과  공화당 성향의 투표자들이라고 말하는 주장들은 그럴싸해보이지만 결국 예측할 수 없는 한계가 존재한다고 인정하는 꼴이다.

전통적인 조사방법으로는 잡아내지 못하는 요소가 있음을 인정할 수 밖에 없었고, 이를 잡아내기 위한 수많은 시도(현재 대선 예측 방법론이 워낙 많아 업자들의 표현을 빌면 예측론의 춘추전국시대라고 한다.) 중에서 SNS 데이터를 이용해 선거 결과를 예측할 수 있다는 주장은 꽤나 신선했다.

1. 연구 방법론

기존 트위터 방법론은 다양하지만 기본적으로 트위터에 있는 방태한 트윗을 모두 긁은 다음, 성/인종/연령 프로필을 얻기 위해 사진 데이터를 활용하고, 사용자의 트윗들을 분석함에 있어 트윗의 양과 해당 트윗에서 해당 후보의 이름이 거론되었는가, 되었다면 그 감정은 긍정적인가 부정적인가를 언어 감정분석 알고리즘으로 분석하여 확률 함수로 얻어낸뒤, 한쪽 후보에 조금이라도 더 긍정적일 경우 그 후보에게 투표한다고 가정하는 방법론이다.

여기서 심화로 지역 정보를 추출하는 법, 사진 데이터를 더 정교하게 분석하는 법 등 심화시키는 방법들이 다양하지만 일단 그 일들은 제쳐두고, 위 방법론을 연구하는 연구팀을 살펴보자.

2. Data Science

지금 말하고 있는 부분에서 권위자는 현재 Rochester 대학의 Computer Science 과, Jiebo Luo 교수의 연구실이다. Jiebo Luo의 수업은 학생이 뽑은 최고의 수업으로 뽑혔는데, 실제 데이터 마이닝을 Open-ended project 형식으로 진행하게 하는 수업으로 방향성은 지금 위에서 언급하고 있는 선거만이 아니다. 실제 링크에 있는 석사 학생은 선거 기간에 후보들이 하는 발언들로 인해 General Motors와 Exxon Mobile의 주가가 어떻게 움직이는지를 수업에서 볼 수 있었다고 한다(석사가 이러면 반칙 아니냐).  사용한 분석법은 네트워크 분석이고 분석 알고리즘은 Sudoku 형태라는데 나는 전혀 뭔지 모르겠다.

Jiebo Luo 교수는 특히 머신러닝, 동영상에서 정보를 추출하는 방법론을 연구하시는 분(연구 목록)으로 선거 자체와는 무관하신 교수님이시지만, 지도 학생들은 그 기술을 기반으로 정말 다양한 함의를 가져오고 있다. 실제 논문을 보면 단독 저자는 존재하지 않을 뿐 아니라 공동 저자들이 정치외교학과, 심리학과, 정책학과 등 정말 다양하다.

Luo 교수의 제자 중에서 트위터 데이터로 선거 예측에 가장 많은 연구를 하고 있는 것은  Yu Wang (연구목록)인데, 첫 논문이 2016년인데 벌써 12개를 썼다 논문을 쓰는 방식도 독특하다. 어딘가 publish하는 형태가 아니라 ArchivX라는 Cornell University 도서관 사이트에 업로드해두는데, working paper의 한 형태인것인지도 모르겠으나, 다른 연구자들은 아직 publish 되지도 않은 2016년 논문을 11번씩 인용하고 있었다.

3. 생각할거리

측정 가능한 데이터의 범주와 그 활용법의 발전을 생각해 볼 때, 그리고 데이터의 영향력은 매우 느린 속도로 발전해왔다는 점(수백년에 걸친 측정과 검증 속에서 실업률, GDP, 자살율과 같은 의미 있는 지표들이 겨우 자리 잡았다) 을 볼 때, 우리도 데이터를 다루는 연구자이기는 하나 정보 수집이나 그 이용의 속도가 우리가 원하는 성장속도를 따라올 수 있을지 고민해 볼 가치가 있다고 생각한다.

 

 

Leave a comment