스타일로메트리하기

대한민국 축구 양식 측정하기

다된밥통 2018. 7. 19. 20:20

이미지 출처 : 구글 이미지

Young-Jai Park et al. New Phys.: Sae Mulli 68, 642 (2018). https://doi.org/10.3938/NPSM.68.642

 

안녕하세요. 다된밥통입니다.

오늘은 대한민국 축구경기 데이터 분석을 통해 대한민국 국가대표팀의 강,약점에 대해 소개하고자 합니다.

(본 내용은 2018년에 내부 세미나에서 발표한 발표자료입니다.)

스타일로메트리란 문학 작품 속 단어의 빈도를 이용하여 작풍을 시각화하고 측정하는 방법을 말합니다.

최근에는 문학 작품 뿐만 아니라 좀더 나아가 다양한 분야에서 이러한 작풍을 측정하고자하는 시도들이 이어지고 있습니다.

한가지 예시로는 저번시간에 보여드린 대통령 연설문에서의 작풍분석이 있겠는데요.

대통령 연설문에 들어난 단어들 사이의 연결망을 시각화하면 대통령별로 어떤 단어들이 서로 강하게 연결되어 있는지를 확인할 수 있습니다.

이러한 분석은 축구경기 데이터를 활용해서도 스타일로메트리를 적용해볼 수 있는데요.

사용한 데이터는 비주얼스포츠로부터 제공받은 대한민국 국가대표팀 축구경기데이터입니다.

총 345경기에 대해 389,193개의 발생 이벤트들을 분석했습니다.

발생 이벤트는 선수 이름, 포지션, 시간, 위치, 이벤트명, 그리고 성공여부 등으로 이루어져 있으며,

골장면, 선방장면에 대해 아래 그림과 같이 정리되어 있습니다.

분석에 앞서 간단한 통계지표들을 정리해보았는데요.

우리나라의 경우, 슈팅 성공률은 전체 평균으로 하였을때, 47% 정도가 됩니다.

뿐만아니라, 패스, 가로채기, 패스 차단에 대해 성공률은 각각 81%, 97%, 43%로 우리나라 국가대표팀은 가로채기 성공률이 굉장히 높음을 확인할 수 있었습니다.

데이터의 경우 굉장히 자유도가 높기 때문에, 단어의미 연결망으로 분석하기가 어려운데요.

이를 해결하기 위해, 저희는 이벤트명, 성공여부, 발생위치를 이용하여 압축된 이벤트로 변환하였으며, 그 방법은 아래 그림에 표시하였습니다.

특히, 위치 정보의 경우 거리를 미터(cm) 단위로 하여 정리되어 있기 때문에, 굉장히 자유도가 높음을 알 수 있는데요.

이를 15개 구역으로 나누어 coarse-grained하여 전처리를 한번 더 진행하였습니다. 

뿐만 아니라, 홈/어웨이 그리고 공/수에 따라 시작 위치가 달라지기 때문에, 이를 반전시켜 우리나라의 공격을 모두 왼쪽에서 오른쪽으로 진행하도록 정리하여 좌표를 맞춰주었습니다.

재미있는 점은 골킥 라인, 선수교체, 코너킥 지점에 발생 이벤트 밀도가 높음을 알 수 있다는 것입니다.

더 나아가, 정확한 이유는 알 수 없지만, 축구장에 그려진 라인들 위에서는 발생 이벤트의 밀도가 상대적으로 낮다는 것을 확인할 수 있는데요.

이는 아마 축구선수들의 심리적 요인이 한가지 이유가 될 수 있을 것으로 생각됩니다.

앞서 설명한 문제들을 잘 정리하면, 아래와 같이 최종적으로 전처리를 진행했음을 알 수 있는데요.

2002년 한일 월드컵 포르투갈전 박지성선수의 득점장면은

크로스S14 -> 볼터치S5 -> 볼터치S5 -> 돌파S5 -> 골인S10 정도로 처리됨을 알 수 있습니다.

언어학에서 잘 알려진 순위-빈도 그래프에서 나타나는 멱함수 분포를 지프의 법칙이라 하는데요.

특히, 지프의 법칙에서는 멱함수의 기울기가 -1이 됩니다.

이러한 지프의 법칙은 축구경기 데이터에서의 이벤트 분포에서도 확인할 수 있었는데요.

재미있는 점은 문학작품들과 비슷하게,

앞부분의 빈도수가 높은 부분은 축구경기를 구성하는 주요 이벤트,

뒷부분은 고유명사와 비슷한 경기에서 크게 발생하지 않은 이벤트로 나타며,

몸통 부분에서 지프의 법칙이 성립함을 볼 수 있었으며,

이는 문학작품속에서의 지프의 법칙의 경향과 굉장히 유사함을 알 수 있었습니다.

뿐만 아니라, 힙스의 법칙 (즉, 문서의 길이에 따른 단어 수의 증가와 관련된 법칙) 또한 부분적으로 따르고 있음을 확인해볼 수 있었습니다.

이벤트는 무작위로 발생하는 것이 아니라, bursty하게 일어나는 것을 시간 간격 분포를 통해 확인해볼 수 있었어요.

이렇게 축구경기데이터 역시 문학작품에 쓰이는 단어와 비슷한 역할을 하고 있음을 확인할 수 있었으며,

이러한 통찰을 이용해 단어의미망 분석과 같은 방법론을 Word2Vec을 이용하여 적용해보았습니다.

Word2Vec은 비정형 데이터를 벡터로 나타내는 기법중 하나이며, 잘 알려진 비지도학습 모델인 autoencoder와 유사한 구조를 띄고 있어요.

유사한 단어끼리 모이게 할 뿐만 아니라, 단어 사이의 관계를 학습하기 때문에,

아래 예시와 같이 왕에서 남성성을 빼고 여성성을 더해주면 "여왕"이 되게 학습하게 됩니다.

이번 글에서는 크게 두가지 네트워크 시각화를 이용하여 비교, 분석해보려 하는데요.

하나는 기존의 빈도 중심의 이벤트 전이 네트워크와 기계학습을 이용한 Word2Vec 네트워크입니다.

이벤트의 발생 순서를 이용한 이벤트 전이 네트워크에서는 수비 -> 전개 -> 공격이라는 축구의 기본적인 구조에 의해 아래 그림과 같이 큰 흐름이 나타남을 확인할 수 있습니다.

반면, Word2Vec을 이용한 네트워크 시각화에서는 빈도의 효과를 제거한 이벤트 사이의 유사성을 보여줍니다.

이벤트가 비슷하다는 것은 축구 경기 안에서 비슷한 의미 또는 발생을 유발함을 의미하는데요.

남자 국가대표팀, 여자 국가대표팀을 비교하였을때,

남자 국가대표팀이 상대적으로 공격 이벤트 사이의 연결관계가 빈약한 것으로 비추어보아,

우리나라의 남자 국가대표팀의 경우는 공격 당시 이벤트들이 서로 유기적으로 연결이 잘 되지 않음을 직관적으로 확인해볼 수 있었습니다.

오늘은 축구 속 단어를 정의함으로써 축구 스타일로메트리 분석을 해보았습니다.

통계적인 분포/지표를 바라보고 축구의 기본 특성들을 살펴보았구요.

전이 네트워크와 Word2Vec 네트워크를 비교함으로써 우리나라 축구 국가대표팀의 전력을 시각화해보았습니다.

오늘도 즐겁게 봐주셨으면 좋겠네요.

저는 또 다른 재미있는 얘기들로 찾아오겠습니다.

이상 다된밥통이었습니다.

감사합니다.