스타일로메트리하기

한국 대통령 연설문 네트워크 분석하기

다된밥통 2018. 7. 19. 20:17

이미지 출처 : 구글 이미지

Young-Jai Park et al, New Phys.: Sae Mulli 67, 569 (2017). https://doi.org/10.3938/NPSM.67.569


안녕하세요! 다된밥통입니다!

이번 글은 기계학습 기법을 이용한 네트워크 기반 연설문 분석에 대한 내용입니다!

(이 슬라이드는 2016년 한국복잡계학회 가을학술대회 발표 자료입니다.)

아래 왼쪽과 오른쪽의 글의 차이는 무엇일까요??

실은 두 글 모두 김소월 선생님의 "진달래꽃" 시인데요! 왼쪽은 글자수만 유지한체로 모든 글자를 임의로 섞은 것입니다.

우리는 왼쪽 글을 보고는 어떠한 감정도 느끼 힘들지만, 오른쪽 글을 보면서 우리는 어떤 의미를 부여할 수 있게 되는데요!

이처럼 개개인의 특성으로는 알 수 없지만, 전체가 모였을 때 어떤 특징을 보이는 것을 "창발 현상 (Emergence)" 라고 해요!

다시 말하면, 우리는 왼쪽이던 오른쪽에 사용된 모든 글자를 알지만, 그 글자들이 어떻게 모였냐에 따라 전혀 다른 의미를 줄 수 있다는 것이죠!

이러한 것을, 복잡계과학 또는 복잡성과학 에서는 "전체는 부분합보다 크다" 라고도 표현한답니다!

이러한 현상은 미국의 지프 교수도 영문신문에서 발견하였는데요! 지프 교수는 영자 신문에서 단어들의 순위-빈도 그래프를 그렸을때 단어의 분포가 멱함수 분포를 따른다는 것을 보입니다.

즉, 가장 많이 쓰인 단어가 1,000번 쓰였다면, 두번째는 500번, 다음은 333, 250 ... 과 같은 느낌으로 된다는 의미입니다!

멱함수 분포의 특직은 각 축의 scale을 log로 변환했을 때 직선의 모양을 띈다는 사실이며, 지프 교수는 영자 신문에서의 단어의 순위-빈도 분포의 기울기가 1임을 보였습니다!!

최근에는 문학, 예술 등의 작품 속 스타일을 정량적으로 측정하고자 하는 스타일측정법, stylometry 에 대한 연구도 많이 진행되고 있습니다.

이 글에서는 잘 알려진 지프 법칙이 한국어에서도 잘 나타나는 지 확인해보고 특히, 국내 연설문에서 스타일측정으로 각 대통령별 특징을 살펴보려합니다.

연설문 데이터는 "대통령 기록관"에서 제공받았으며, 총 7,000여개의 연설문에 대해 분석을 진행했습니다.

먼저 살펴본 것은 각 대통령 연설문별 상위 빈도 명사들 (Top 10)인데요! 

보시다시피 대부분 비슷한 키워드들이 있지만, 대통령 별로 그 순위는 조금씩 다른 것을 볼 수 있습니다. 

초대 대통령인 이승만 전 대통령은 "자유, 국민, 생각" 등과 같은 단어들을 강조했음을 알 수 있습니다!

특히, 전두환 전 대통령의 경우는 그의 유행어인? "본인"이라는 단어를 특히 많이 사용했음을 연설문 내에서도 살펴볼 수 있었습니다.

앞서 언급한대로, 이 연설문에서 지프의 법칙을 확인해보았는데요!

모든 대통령 연설문에 대해 그 기울기들이 1에 가까움을 확인할 수 있었습니다! (즉, 한국어에서도 지프의 법칙은 성립한다??!!)

다음으로는 단어들의 시대별 사용 빈도 추이가 각각 얼마나 비슷한지를 피어슨 상관관계를 통해 매트릭스로 표현했는데요! 

쿠테타와 관련된 단어들은 그 외 단어들과 음의 상관관계를 보임을 알 수 있었습니다.

또한, 한 시기에만 크게 많이 사용된 단어 ("본인")은 어느 단어들과도 경향이 비슷하지 않음을 알 수 있었습니다!

그리고 각 시대별 단어 사용 분포 추이에 대한 상관관계 계수들도 살펴보았는데요!

대통령 시기별로 클러스터링이 잘 이루어짐을 볼 수 있었습니다!

(1995년은 조금 달라 보이는데요! 그 이유는 우리나라가 95년 새계 평화 관련 상을 2개나 수상하게 되면서 그 상에 대한 언급이 그 해에만 크게 보이면서 나타난 결과로 생각됩니다!)

또한, 박정희 전 대통령의 경우는 첫 임기기간과 그 후의 임기기간동안의 연설문 내에 단어 사용 빈도가 달랐는데요!

잘은 모르지만... 연설문으로 나타난 결과로는 그는 첫임기를 전후로 다른 행보를 보였습니다.

마지막으로는, 기계학습 중하나인 워드투백 (Word2Vec)을 이용한 네트워크 분석을 해보았습니다!

워드투백은 단어를 고차원 공간의 벡터로 표시하는 기계학습 방법이며, 주어진 데이터를 학습하여 각 단어들을 벡터로 변환하게 해줍니다.

특히, 워드투백은 주변의 단어 또는 문장의 위치가 같은 단어들끼를 서로 가까이 위치하도록하는 CBOW(Continuous Bag-of-Words) 와 Skip-gram 을 사용하여 각 단어들 사이의 관계를 잘 표현할 수 있습니다.

네트워크는 점 (Vertex) 와 선 (Edge) 로 이루어져 있습니다.

이 글에서는, 연설문에서 사용된 단어들을 워드투백을 이용하여 벡터로 변환한 뒤, 각 점을 단어로, 선을 해당하는 두 단어 사이의 코사인 유사도를 가중치로 같는 선으로 나타내었습니다.

박정희, 김대중 전 대통령의 연설문을 학습시켜 네트워크를 그리면 위의 슬라이드와 같으며 각 대통령별로 네트워크의 구조가 다름을 알 수 있습니다.

이번 글에서는 대통령 연설문 분석에 관한 내용을 정리해보았습니다!

감사합니다!!


'스타일로메트리하기' 카테고리의 다른 글

대한민국 축구 양식 측정하기  (0) 2018.07.19