최근 대한민국 전국을 뒤덮고 있는 신종 코로나바이러스 감염증(우한폐렴)가 사람들을 덜덜 떨게 하고 있는데요. 일종의 전염병 데이터 분석으로 유명한 ‘구글 독감 트렌드(Google Flu Trends, GFT)’가 있긴 했습니다.
그런데 구글보다 더 빨리 코로나바이러스 감염증 발병과 세계적 확산을 이미 2019년 12월 31일 보고서를 통해 경고해 주목을 받은 캐나다의 인공지능 스타트업 블루닷(BlueDot)이 요즘 화제인데요. (캐나다가 인공지능, AI분야에서 선두에 있는 국가이긴 하죠). 그렇다면 블루닷은 어떻게 해서 구글보다 한발 앞섰는지, 어떤 기술을 갖고 있었는지 한번 보도록 하겠습니다.
>
당국의 발표 타임라인과 비교하면 확실히 한발 앞선 분석과 예측이었습니다.
1). 12월 30일 : 우한시 보건위원회, 각 병원에 이상 폐렴 환자 사례 보고 지시2). 12월 31일 : 우한시 보건위원회, 화난 수산시장에서 폐렴 환자 발생 웹사이트 공지3). 1월 6일 : 미 질병통제예방센터(CDC)발표4). 1월 9일 : WHO발표인공지능을 통해 전염병 발병 및 전파 경로를 예측하는 ‘블루닷’은 12개국 공공의료기관과 항공사, 기업 등에 보고서를 제공하고 있습니다.
이 회사의 발 빠른 예측에 대해 IT매체 와이어드 등 외신들은 “구글보다 나은 결과를 보여줬다”고 평가했는데요. 데이터 분석을 통해 독감 예측을 하는 ‘구글 독감 트렌드(Google Flu Trends, GFT)’와 비교해보았습니다.
>
2008년 출시된 GFT는 당시 ‘빅데이터 분석의 결정체’로 여겨졌다.
수천억개 구글 검색어 중 독감 관련 검색 패턴을 발굴해 전염병 발생과 전파 추이를 예측했습니다.
의 저자 빅토르 마이어 쉰버거는 GFT를 “정부의 뒤늦은 공식 발표, 통계 자료보다 더 유용하고 시기적절한 전염병 지표”라고 치켜세우기도 했는데요. 하지만 이 서비스는 2015년 8월 문을 닫았습니다.
당시 GFT팀은 자체 웹사이트 운영 대신 연구기관에 데이터를 제공하기 위해서라고 밝혔지만 외신들은 GFT가 잇달아 ‘헛다리’를 짚었기 때문에 이런 결정을 내린 것이라고 분석한바 있습니다.
GFT는 2009년 3월부터 전 세계에 유행한 A형 독감(H1N1)을 감지하지 못했는데요. 갑자기 발병하는 바람에 알고리즘이 추세를 과소평가한 것이죠. 2013년에는 A형 독감(H3N2)유행을 오히려 과대평가해서 비난을 받기도 했습니다.
당시 미국을 강타한 독감은 예년보다 빠른 2012년 11월부터 시작됐고 전염성과 유독성이 더 강했습니다.
이 때문에 언론 보도도 더 많았고, 불안감에 독감 검색도 더 많았죠. 그 결과 GFT가 2013년 1월 추정한 독감 환자는 전체 인구의 11%, 하지만 이는 CDC가 발표한 것(6%)보다 2배나 많았죠. 이는 독감에 대한 공포까지 반영해버린 결과였습니다.
과소평가와 과대평가를 오락가락하자 “(구글이)빅데이터를 분석하면 뭐라도 나온다는 오만(Big Data Hubris)에 빠졌다”는 비난이 나온바 있습니다.
참고로 역학조사란 유행성 질병의 원인 병원체를 밝히고 감염원과 전파 경로를 파악하기 위해 실험실 검사, 환자 면담, 설문조사, 확진자 동선 확보 등을 수행하는 작업입니다.
(1). 수집하는 데이터의 질과 양이 다르다.
-> 블루닷이 자연어 처리기술과 머신러닝으로 분석하는 데이터는 인터넷과 소셜미디어의 데이터뿐만이 아닙니다.
블루닷은 매일 65개국에서 생산하는 10만개 공식자료를 분석하는데요. 여기에 WHO와 신흥 질병 모니터링 프로그램(ProMED-mail)등의 데이터, 모기와 진드기 분포, 가축 개체 수와 동식물 전염병 네트워크 모니터링, 각 지역의 기후와 온도 데이터도 수집하고 있습니다.
이를 종합해 한 명의 감염자가 어느정도 속도로 발병을 유발할지, 전염병의 출현과 확산에 대해 언제 보고서로 공개해야 할지를 결정합니다.
이번에 우한 시민들의 인터넷 게시글을 수집하긴 했지만, 단서로만 삼았을 뿐인데요. GFT가 과대예측한 이유도 독감에 걸린 사람, 불안감에 검색한 사람, 뜬소문을 만드는 사람들이 빅데이터라는 이름으로 뒤섞여 있었기 때문입니다.
(2). 비행기 티켓 데이터로 확산 경로 파악 -> 블루닷은 또 항공사로부터 매년 40억 개의 데이터도 수집합니다.
티켓 판매 및 항공 경로 등에 대한 정보인데요. 이를 통해 전염병이 어떻게 전파될지 예측합니다.
블루닷에 이 데이터가 중요한 것은 창업자 캄란 칸 박사의 경험 때문인데요. 그가 전염병을 연구하게 된 계기는 2003년 유행했던 사스(SARS)였습니다.
중국에서 발발한 사스는 캐나다로 넘어와 44명의 목숨을 앗아갔는데요. 당시 토론토의 한 병원 의사였던 칸 박사는 지구를 연결하는 비행기가 전염병을 옮기는 원인이 된다고 판단했습니다.
이후 항공 데이터를 활용한 전염병 확산을 연구했고 블루닷까지 창업하게 됐고요.2014년에는 에볼라가 최초 발생지 서아프리카 밖으로 확산이 될 것이라 경고한바 있고, 2016년 지카 바이러스가 브라질에서 플로리다로 넘어올 것이라고 6개월 전에 예측했습니다.
이번 보고서에서는 신종코로나바이러스가 방콕, 서울, 대만, 도쿄 등에 상륙할 것이라 내다봤는데요. 중국 외에서 환자가 발생하기 일주일 전입니다.
(3). 최종적으로 전문가들의 AI분석 검수 블루닷에선 데이터분석가, 프로그래머뿐만 아니라 의학 전문가들이 함께 근무하고 있습니다.
인공지능이 빅데이터 분석을 완료하면 내부 분야별 의학, 역학 전문가들이 이 분석이 의학적으로 타당한지, 잘못 추론한 지점은 없는지 검수하는데요. 특히 이 과정에서 당국의 역학조사 결과를 반영해 보고서의 공개 여부를 결정합니다.
이렇게 블루닷은 빅데이터 분석의 오만함을 피하기 위해 인터넷 데이터뿐만 아니라 당국의 실시간 데이터와 항공 운항 데이터, 그리고 역학분석까지 반영하고 있습니다.
*출처 : http://www.ttimes.co.kr/view.html?no=2016051816367795415&RN코로나 바이러스 예측도 하는 인공지능AI, 윤컴즈 솔루션도 ‘윤컴즈Chatbot’으로 서비스 제공하고 있습니다.
▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼▼
>