[심층기획]과학기술 공약 키워드맵이란? 분석방법과 한계는?

2017년 03월 29일 17:00
KISTI 미래정보연구센터 제공
KISTI 미래정보연구센터 제공

‘한국에서 과학기술 분야 선거공약으로는 주로 어떤 내용이 나올까.’ 

‘과학기술을 바라보는 정치인과 유권자의 시각은 연구종사자의 시각과 어떻게 다를까.’

‘이번 대선에 각 후보들이 들고 나올 과학기술 공약은 과거와 얼마나 다를까.’


이런 질문에 답하기 위해 동아사이언스와 한국과학기술정보연구원(KISTI) 미래정보연구센터는 2002년 이후 최근까지 대선과 총선에서 주요 정당들이 제시한 과기공약을 분석해 ‘핵심단어 지도(키워드맵)’를 그렸다. 한 걸음 더 나아가 각 정치 세력별로 과기공약을 비교하고 민간 과학기술단체의 정책제안에도 견주어 평가했다.

 

[관련기사]

①대선-총선의 과학기술 공약은 ‘산업 발전’을 위한 것?
②과기공약, ‘국민의당’이 ‘더민주’ 보다 진보적 성향

여기서는 키워드맵에 입력한 자료와 연구에 사용한 프로그램, 연구의 의미, 한계 등을 문답 형식으로 정리했다.


Q. ‘과기공약 키워드맵’은 무엇인가?
A. 과학기술 분야 선거공약에 등장한 핵심단어들의 빈도와 상호관계를 분석해 2차원 평면에 그린 지도다. 공약에서 특히 자주 등장한 핵심단어가 무엇인지 알 수 있고, 그 단어와  관련성이 높은 유사한 다른 단어들도 알 수 있어 맥락을 파악하기 쉽다.


Q. ‘과기공약 키워드맵’을 기획한 이유는?
A. ①과학기술 공약에 주로 어떤 주제가 등장했는지 파악하기 위해 ②과학기술 종사자들이 요구하는 정책과 실제 정치권이 추진하는 과학기술 정책의 차이를 알아보기 위해 ③각 정치세력별로 과학기술 공약을 비교하기 위해 ④총선과 대선 또는 시기에 따라 과학기술 공약의 변천사를 파악하기 위해.


Q. 키워드맵에서 글자 크기와 단어 사이의 거리, 색깔의 의미는?
A. 글자 크기가 클수록 공약에 자주 등장했다는 뜻이다. 두 단어 간의 거리가 가까울수록 동시출현 관계로 측정한 유사도가 더 높다는 의미다. 빨간색은 유사한 단어들이 (혹은 관련성이 높은 단어들이) 밀집해있는 지역을 나타내는데, 중심에 있는 단어와 연관된 단어들이 많다는 뜻이다. 빨간색에서 노란색, 녹색, 파란색으로 갈수록 단어 밀집도는 떨어진다.


Q. 어떤 자료를 분석했나?
A. 각 정당의 홈페이지와 한국매니페스토실천본부, 구글링을 통해 아래 표의 정책공약집을 수집했다. 한편 과학기술 종사자들의 의견은 어떤 차이가 있는지 알아보기 위해, 과학기술단체에서 공개한 정책요구안을 함께 수집했다.


[정치권의 선거공약]

[과학기술단체의 정책제안서]

①바른 과학기술사회 실현을 위한 국민연합(과실연), 2012, ‘2013 차기 정부를 위한 국정과제 및 정부조직 제안–지식사회 실현을 위하여’
②한국공학한림원, 2012, ‘국민의 행복을 창조하는 과학기술–2012 정책총서 Ⅳ 요약집’
③2012 대선 과학기술 정책 제안 타운미팅, 2012, ‘정책 제안 자료집’
④공공연구노동조합, 2016, ‘과학기술정책 24대 의제와 과학기술 부문에서의 7가지 정치적 실천 방향’
⑤공공연구노동조합, 2017, ‘공공연구노조 2017년 대선 과학기술 정책요구(안)


Q. 분석방법은?
A. 분석은 아래 네 단계로 진행했다.
①데이터 수집 : PDF 또는 한글파일로 이뤄진 공약집을 문장단위로 추출해 엑셀(EXCEL)에서 데이터세트를 만들었다.
②핵심단어 추출 : KISTI에서 개발한 ‘날리지 매트릭스 플러스(Knowledge Matrix Plus)’ 프로그램과 수작업을 통해 데이터세트에서 복합명사, 유사어, 약어 등을 정제하고 핵심단어 400개를 추출했다.
③동시출현행렬 만들기 : 날리지 매트릭스 플러스 프로그램을 이용해 핵심단어들이 한 문장 안에서 함께 등장한 횟수를 행렬로 표현했다.
④지도 그리기 : 네덜란드 라이덴대에서 개발한 ‘VOS뷰어’ 프로그램을 이용해 핵심단어들이 집단(클러스터)을 형성하도록 시각화했다.

 

※분석대상으로 삼은 공약내용(EXCEL 파일에 문장정리)

 

Q. 연구의 한계는?
A. 크게 4가지 한계가 있다.
한글분석의 어려움 : 한글의 복합명사는 약어와 띄어쓰기가 다양해 한 단어로 인식되지 않는 경우가 종종 있다. 예를 들어 공약에 등장한 ‘정출연, 정부출연연구소, 정부출연 연구원, 정부 출연연구원, 정부출연연구기관, 정부출연 연구기관, 정부출연연, 출연연’ 등은 형태는 다르지만 모두 같은 뜻이다. 분석과정에서 이를 한 단어로 통일했지만 일부 누락된 단어가 있을 수 있다.


한글분석의 어려움2 : 한글은 같은 단어가 맥락에 따라 서로 다른 의미로 쓰이는 경우를 구분하기 힘들다. 예를 들어 ‘환경보호’와 ‘연구환경’이란 단어에서 ‘환경’은 서로 다른 의미로 쓰였지만 컴퓨터가 구분해내지 못한다.


동시출현 제한 : 핵심단어들이 한 문장에 함께 등장한 경우만 연관성이 높은 ‘동시출현’으로 봤다. 그런데 실제로는 같은 문장이 아니더라도 가까이 있는 문장에 연관된 단어가 있을 수 있다.


단어를 주관적으로 선정 : 선거공약에서 추출한 전체 단어는 1만개에 이른다. 이중 가장 많이 등장한 단어는 ‘지원’(497개), ‘확대’(458개), ‘과학기술’(436개), ‘강화’(379개) 등이다. 이런 단어는 모든 정당이 고루 사용하고 있으며 주제 파악을 힘들게 하므로 분석에서 제외했다. 동아사이언스의 과학기술정책담당기자, 박진서 KISTI 미래정보연구센터 선임연구원, 엄수홍 연구원(서울대 대학원 과학사및과학철학협동과정 과학사 전공) 등 전문가들이 가장 많이 등장한 단어 중 주제를 파악하는 데 의미 있다고 판단한 핵심단어 400개만 추렸다. 핵심단어 400개가 하나 이상 포함된 문장이 전체 4537개 문장 중 89% 이상인 점을 감안할 때 전체 공약을 상당부분 반영했다고 볼 수 있다.


Q. KISTI 미래정보연구센터는?
A. 이번 연구를 수행한 KISTI 미래정보연구센터(센터장 권오진)는 논문, 특허와 같은 대용량 데이터베이스를 활용해 신기술을 탐색하거나 글로벌 과학기술 트렌드를 모니터링 하는 등 다양한 연구사업을 수행하는 곳이다. 아래와 같은 프로그램은 미래정보연구센터의 연구결과물 일부로 누구나 자유롭게 이용할 수 있다. 최근에는 국내외 R&D 과제정보와 과학기술 관련 사회적 이슈를 파악하기 위해 비정형데이터로 분석영역을 확장하고 있다.


①미래기술 탐색을 입체적으로 지원하는 MIRIAN(http://mirian.kisti.re.kr/)
②기업의 신사업 발굴에 필요한 신제품 아이디어를 제공하는 TOD(http://tod.kisti.re.kr/)
③글로벌 경쟁기술 활동 상황을 분석할 수 있는 COMPAS(http://compas.kisti.re.kr/)
④논문맵과 특허맵 같은 다양한 네트워크 분석을 지원하는 KnowledgeMatrix Plus(http://mirian.kisti.re.kr/km/km.jsp)

연재대선캠프에 과기공약 묻는다더보기

메일로 더 많은 기사를 받아보세요!

관련기사

인기기사

댓글

댓글쓰기

지금
이기사
관련 태그 뉴스