심심할 때마다 고개를 드는 탱탱볼에 대한 의구심. 항상 결과가 같을 줄 알면서도 우리는 항상 똑같은 물음만 고수합니다. '홈런이 늘었잖아? 그래서 반발계수는 어떻게 됐어? 늘었지?'
실체도 없는 이 유령이 어떻게 구천을 떠돌게 됐는지 궁금할 따름입니다. 하지만 단호하게 말씀드립니다. KBO는 홈런이 문제가 아닙니다. 홈런이 문제라면 반발계수만의 문제가 아니라 항력계수, 무게, 리그 차원의 반응의 차이 등 다른 모든 부분이 합쳐진 복합적 결과물일 겁니다. 오히려 문제는 경기의 질이 균질하지 못하다는 데 있습니다.
사실 우리가 진짜로 관심을 가지고 살펴봐야 할 숫자는 따로 있습니다. 바로 BABIP입니다. 그리고 이 스탯의 오르내림조차 오롯이 반발계수의 탓이 아닙니다.
90년대부터 미국 정계에서는 격언이 하나 전해져 내려오고 있습니다. 1992년 미국 민주당 대선후보였던 빌 클린튼 선거캠프는 선거구호를 '문제는 경제야, 이 바보야(It's the economy, stupid)'로 삼으면서 당시 부시 행정부의 경제적 무능을 꼬집었습니다. 이 선거문구는 빌 클린튼을 미국 42대 대통령으로 만들어준 역사적인 문구입니다.
그래서, 야구 얘기하는 블로그에서 저 얘기가 왜 나왔냐고요? 먼저 옛날 얘기를 좀 하겠습니다. 2014-18년, KBO 역사상 가장 점수가 많이 나왔던 시절이 있었습니다. 내리 5년 동안이었습니다. 경기당 평균 10점이 우습게 나오던 시절입니다.(가장 평균 점수가 낮았던 2015년이 평균 10.55점, 가장 높은 2014년은 11.24점이, 그 기간 동안 평균은 10.94점이 나왔습니다.) 이에 경각심을 느낀 KBO는 공인구 반발계수 규정 등을 손봐서 NPB 규격에 맞췄고, 그 결과 평균 11.10점과 2.44 홈런이 나오던 리그가 평균 9.09점과 1.41홈런이 나오는 정상적인(?) 리그로 돌아온 것으로 보입니다. (2019년. 솔직히 말하자면 기록에 정상적이고 아닌 건 없습니다.) 하지만 2020년, 2024년 등등 주기적으로 홈런과 득점이 다시 늘어나면 탱탱볼 담론이 다시 활발해집니다. 어떤 면에서 보면 범리그적 PTSD 같습니다.
또 다시 공이 말썽이랍니다. 시범경기에서 홈런이 너무 많이 나왔다네요. 2025년 시범경기에서는 평균 1.26홈런이 나왔습니다. 이번에는? 60경기에서 119 홈런으로 평균 1.98 홈런이 나왔습니다. 평균 득점도 11.12점이 나올 스몰 샘플이긴 하지만 고득점 환경이었습니다. 이에 또 다시 범리그적 탱탱볼 역병이 창궐했습니다. 하지만, 공인구 1차 검사는 반대의 결과가 나왔습니다. 또 다시 문제가 없다는 결론입니다. 뻔한 결론입니다.
대충 2-3년에 한 번 정도로 되풀이되는 얘기들입니다. 실체도 없는 탱탱볼 유령들이 왜 이렇게 구천을 떠돌아다니는지 잘 모르겠습니다. 솔직히 제대로 된 결론을 내리지 못하는 이런 담론들은 사람을 지치게 합니다. 팬들은 항상 의심하고, 측정 결과는 항상 다를 게 없습니다. 뭐가 문제인 걸까요? 저는 우리의 의심이 너무 '협소'하다는 게 문제라 생각합니다. 정확히는, '질문이 구리니까 답변도 구린' 전형적인 결과라고 봅니다. 항상 초점을 '반발계수'에만 맞추니 답변도 반발계수만을 보여줄 뿐인 거죠.
사실 저 '반발계수' 문제는 뭐 제 머리에서 해결 방법이 나올 리가 만무합니다. 넋두리는 이 쯤에서 접어 둬야죠. 하지만 한 가지 불만이 더 있습니다. 탱탱볼 담론이 나오면 항상 홈런 갯수 이야기만 나오는 것도(실제로는 아니겠지만 체감상 그렇습니다.) 전 불만입니다. 솔직히 말씀드리겠습니다. KBO는 홈런이 많이 나온다고 불안해할 리그가 아닙니다. 홈런은 오히려 너무 적은 리그에 가깝습니다. 반면에 득점은 많습니다. 항상 BABIP이 높거든요. 그런 면에서 KBO가 항상 신경써야 할 것은 다른 것보다 리그 차원의 BABIP 제어입니다. 그러니까 이 얘기가 나오는 겁니다. '문제는 BABIP이야, 바보야!'
박동희 기자가 쓴 이 기사를 보면 어느 정도 단서가 나옵니다. 반발계수가 0.01이 늘어나면 비거리가 약 2m 정도 증가한다는 겁니다. 어떤 면에선 아주 상식적인 얘기입니다. 누구나 당연하게 받아들일 얘기입니다.
박동희 기자의 기사를 보면 KBO는 2007년부터 반발계수 측정 의뢰를 시작했고,(사실 동아일보에 의하면 1999년에도 일본차량검사협회에 반발계수 측정을 의뢰하여 적합한 공으로 확인했다는 기사가 있습니다.) 2010년부터 국민체육진흥공단 산하 스포츠용품검사소에서 측정을 시작했다고 나옵니다. 초속 75m/s(시속 270km/h)로 벽에 쏜 후 부딪혀 나올 때의 속도를 측정하는 방식입니다. 당시 기사에서는 1타(12개)의 공을 사용한다고 나와 있는데, 지금은 3타(36개)의 공을 사용한다고 나올 뿐입니다. 그런 면에서 큰 틀에서 공인구 반발계수 검사의 틀이 달라지진 않았을 거라 봅니다. 2010년 이전에는 일본에서 측정한 수치지만, 측정 방식은 박동희 기자의 기사가 작성된 2014년 당시와 다르지 않았다는 걸 보면 똑같이 믿을 만한 수치라 보겠습니다. 기사에서 보면, 2007년 공인구 반발계수는 스카이라인사의 공이 0.4250, 빅라인사의 공이 0.4280, 맥스사의 공이 0.4350으로 측정되었다고 나옵니다. 2018년 검사 수치를 보면, 1차 검사에서는 0.4198, 2차 검사에서는 0.4176이 나왔습니다. 2019년은 0.4247이 나왔고요. 2019년부터 바뀐 공인구 규정을 적용했기 때문에 2019년 검사 결과는 불합격 수치였습니다. (~2018년 0.4134-.4374, 2019년~ 0.4034-0.4234)
이를 똑같이 적용해 보면, 타격 성적은 2007이 가장 좋았을 것이고, 2018년이 가장 나빴겠죠? 하지만 세상은 그렇게 간단하지 않습니다. 2007년은 타율은 0.263, 득점은 8.54점, 홈런은 1.39개가 나왔습니다. 2018년 기록을 봅시다. 타율 0.286, 득점 11.10점, 홈런은 2.44개. 완벽한 뻥튀기입니다. 2019년은 각각 0.267, 9.09점, 1.41홈런이었습니다. 2019년의 1차 검사 결과가 저렇고 이후 3차 검사에서는 0.4105로 훨씬 낮았기에 저런 결과가 나왔다고 생각할 수도 있습니다. 하지만 1차 검사 할 때 쯤 이미 리그는 전년보다 낮은 득점 환경으로 바뀌고 있었습니다. 단순히 반발 계수만 가지고 리그의 득점력을 예측하면 낭패를 본다는 이야기입니다. 타자들의 반응, 항력 계수, 공의 무게, 솔기폭, 공의 표면 등등이 다 타격 성적에 영향을 끼치며, 거기에 타자와 투수들의 대응이라는 가장 근원적인 변수를 빼고 이 이야기는 더 나아갈 수가 없습니다. 리그가 가진 기본적인 득점 환경을 같이 살펴 보지 않는 이상 반발 계수 얘기만 되풀이 해 봤자 이야기는 도돌이표일 뿐입니다. 결국 우리가 그토록 매달렸던 반발계수 수치는 리그의 득점력을 설명하는 데 있어 '참고 자료'로 보는 게 좀 더 나은 해석 방법일 수도 있다는 말입니다.
근원에서 벗어나 곁가지 얘기를 좀 해 봅시다. 사람들은 반발계수 얘기를 하면 비거리를 먼저 떠올리는 거 같습니다. 그래서 그런지 반발계수가 늘어나면 홈런이 늘어나고, 그 때문에 득점력이 올라갈 것이라고 도식화 되어 있는 거 같습니다. 뭐, 맞는 얘기입니다. 아주 기초적인 물리 상식입니다. 하지만 반발 계수는 근원적으로는 속도에 대한 문제입니다. 공이 벽을 때리고 튀었을 때 속도의 비율로 계산하니까요. 그리고 제가 생각하기에 그렇기에 반발계수가 좀 더 직접적으로 영향을 주는 건 홈런 비율보다는 BABIP이라고 봅니다. 물론 홈런이 924개(2023)에서 1438개(2024)로 늘어나면 큰 차이로 보일 겁니다. 1.5배가 넘는 숫자니까요. 하지만 HR%라는 부분에서 보면 1.64%에서 2.51%로 0.87%p 정도 늘어난 수치일 뿐입니다. BABIP은 0.310에서 0.325로 늘었습니다. 인플레이 타구 대비 비율이 1.45%p 늘어난 겁니다. 실제 안타도 960개가 늘었습니다. 홈런이 늘어난 것 이상으로 안타 갯수가 늘어난 겁니다.
누군가는 똑같은 문제 아니냐 반문할 겁니다. 실제로 그렇긴 합니다. 다만 여기에서 KBO적 맥락이 들어옵니다. KBO는 기본적으로 BABIP이 극도로 높고 HR%가 낮기 때문에 BABIP을 좀 더 주목해야 할 이유가 있거든요.
다음 표는 2016년~2025년 10년간 KBO와 MLB의 리그 BABIP, HR%를 비교한 표입니다. 자료의 출처는 각각 KBO 홈페이지, 베이스볼 레퍼런스입니다.
| 시즌 | KBO RA9 / BABIP / HR% | MLB RA9 / BABIP / HR% |
|---|---|---|
| 2016 | 5.67 / 0.331 / 2.6% | 4.52 / 0.300 / 3.0% |
| 2017 | 5.41 / 0.327 / 2.7% | 4.70 / 0.300 / 3.3% |
| 2018 | 5.64 / 0.329 / 3.1% | 4.48 / 0.296 / 3.0% |
| 2019 | 4.61 / 0.310 / 1.8% | 4.86 / 0.298 / 3.6% |
| 2020 | 5.23 / 0.313 / 2.4% | 4.85 / 0.292 / 3.5% |
| 2021 | 4.90 / 0.304 / 2.1% | 4.65 / 0.292 / 3.3% |
| 2022 | 4.57 / 0.307 / 1.9% | 4.35 / 0.290 / 2.9% |
| 2023 | 4.64 / 0.310 / 1.6% | 4.69 / 0.297 / 3.2% |
| 2024 | 5.45 / 0.325 / 2.5% | 4.46 / 0.291 / 3.0% |
| 2025 | 4.80 / 0.312 / 2.1% | 4.52 / 0.291 / 3.1% |
KBO와 MLB의 성격이 얼마나 다른지 표를 통해서 느낄 수 있을 겁니다. 지난 10년간, KBO의 평균 RA9은 5.09, MLB의 평균 RA9은 4.59 정도로 KBO가 더 많은 점수가 나왔습니다. 또한 10년 동안 단 한 번도 MLB의 BABIP이 KBO보다 높았던 적이 없었습니다. 작게는 1푼 정도에서 크게는 3푼 이상까지 KBO의 BABIP이 MLB보다 높았단 말입니다.(참고로 마지막으로 MLB의 리그 BABIP이 KBO 리그 보다 높았던 시즌은 2007년입니다.) KBO는 이 기간동안 BABIP이 3할 미만이었던 적이 없습니다. 가장 낮았던 2021년마저 0.304였을 정도입니다. 그에 비해 MLB는 3할을 넘은 해가 없고, 높아야 3할입니다. 반면에 홈런은 양상이 반대입니다. KBO 리그 역사상 가장 많은 홈런이 나온 2018년을 제외한다면 KBO는 항상 MLB에 비해 홈런 비율이 훨씬 낮은 리그였습니다. 심지어 KBO 리그는 이 기간 동안 리그 HR%가 3%를 넘은 해가 2018년 한 해 밖에 없었지만 MLB는 3%를 못 넘긴 해가 2022년 단 한 번 뿐일 정도로 두 리그는 성격이 많이 달랐습니다. 그렇기에, 만약 MLB에서 작년 KBO처럼 0.312의 BABIP인 시즌이 생긴다면 그 해는 득점 기록 참 볼만할 거라고 단언합니다.
단순하게 생각해 봐도 KBO의 BABIP 중요성은 무시할 수 없는 수준일 거라고 느껴지실 겁니다. 하지만 전 이것만으로는 좀 부족하다 생각했습니다. 그래서 과연 득점 분산에서 BIP(Balls In-Play)가 차지하는 비율이 어느 정도일까가 궁금했습니다. 하지만 난점은, 제가 이걸 제대로 계산하려면 PBP 데이터가 필요하단 것이었습니다. 그렇기에 아주 단순한 아이디어를 하나 생각했습니다.
아주 간단한 모델을 생각해 봅시다. 병살타는 없다고 가정하고, 한 이닝을 끝내기 위해서는 3 아웃이 필요합니다. 주루도 여기에서는 무시하기로 해 봅시다. 만약 출루와 관련된 이벤트의 총합의 비율을 $p$라고 할 때, 한 이닝은 다음과 같이 정의할 수 있을 겁니다. 참고로, 이 식은 2010 MIT Sloan Sports Analytics Conference에서 이미 발표된 Beyond Pythagorean expectation: How run distributions affect win percentage에서도 확인하실 수 있습니다.(7번 식)
(1)번 식에서 왜 $\binom{n+2}{2}$이 나오냐면, 이닝의 마지막은 어쩔 수 없이 3아웃이기 때문입니다. 그렇기에 조합이 나올 수 있는 가짓 수는 $\binom{n+2}{2}=\frac{1}{2}(n+1)(n+2)$이 나오는 겁니다. 그리고 이를 합하면 1이 된다는 것을 알 수 있습니다. 그러니, (1)번 식으로 아주 간단하게 이닝을 모사해 볼 수 있다는 겁니다.
이제, 출루 이벤트 $p_{i}$와 아웃 이벤트 $o_{i}$의 이닝별 기댓값은 다음과 같이 계산할 수 있습니다.
다음, 각각의 출루 요소 $p_{i}$, $p_{j}$간의 이닝별 공분산 행렬은 다음과 같이 계산할 수 있습니다.
(4)번 식을 잘 보시면, 결과적으로 출루 요소의 크기 분산은 $\operatorname{Var}(P)=\frac{3p}{(1-p)^{2}}$인 것을 알 수 있습니다. 이제 각각의 아웃 요소 $o_{i}$, $o_{j}$의 이닝별 공분산 행렬은 다음과 같이 계산할 수 있습니다.
(5)번 식을 보면 아시겠지만, 결과적으로 아웃 요소에 의한 분산의 합은 우리의 정의대로 0인 것을 알 수 있을 겁니다.($1-p=o$) 거기에 더해서, 출루 요소 $p_{i}$와 아웃 요소 $o_{i}$의 공분산 $\operatorname{Cov}(P,O) = 0$이 됩니다. 이제 (4)번 식과 (5)번 식을 합쳐서 전체 이벤트 $X$에 대한 공분산 행렬 $\operatorname{Cov}(X,X)$를 구할 수 있습니다. 참고로, 순서는 차례대로 1. 인플레이 안타, 2. 사사구 3. 홈런 4. 인플레이 아웃 5. 삼진+희타의 순입니다.
구조를 보면 아시겠지만, 출루 이벤트와 아웃 이벤트가 철저하게 분리된 블록 행렬임을 알 수 있습니다. 예컨데, 아래와 같은 꼴인 겁니다.
이 행렬은 결국 안타, 홈런, 삼진, 아웃 등의 이벤트가 다음 타석의 기댓값과 얽히며 어떻게 전체 이닝의 변동성을 키우는가를 모사한 행렬이라 생각하시면 됩니다. 그리고 이 변동은 결과적으로 $(1-p)$, 즉 아웃 이벤트의 비율의 역수와 연관됐다는 것도 알 수 있습니다.
이제 득점력의 분산을 어떻게 얻을 수 있을까요? 아주 간단하게, 각각의 이벤트가 적용될 때마다 그 이벤트에 해당하는 득점 가치(run value) 값이 적용되는 것을 생각할 수 있습니다. 다만 이 경우 개개의 득점 가치는 어떤 면에서는 wOBA를 구할 때의 맥락과 비슷합니다. 모든 요소들에서 주루를 빼고 계산하기 때문에 득점 가치의 크기를 맞춰줄 때(calibration) 계산을 wOBA할 때와 아주 비슷하게 해야 합니다. 위에서 말했듯이, 저는 1. 인플레이 안타, 2. 사사구 3. 홈런 4. 인플레이 아웃 5. 삼진+희타로 계산을 나눴습니다. 그리고 득점에 의해 올라가는 득점력(득점 가치 x 각 이벤트의 빈도 수)과 아웃에 의해 떨어지는 득점력의 크기가 같게 맞췄습니다. 그리고 이 1~5번 맥락에 맞게 재구성한 값의 벡터를 $\mathbf{r}$이라 부르겠습니다. 그렇다면, 이닝별 득점의 분산은 다음과 같이 계산할 수 있겠습니다.
$$\operatorname{Var}(R) = \mathbf{r}^{\mathsf{T}}\boldsymbol{\Sigma}\mathbf{r}\tag{7}$$(7)번 식에서 $\boldsymbol{\Sigma}$는 (6)번에서 구한 $\operatorname{Cov}(X,X)$를 뜻합니다. 궁극적으로 이 $\mathbf{r}$이란 득점 가치 벡터를 곱함으로써 어떤 이벤트가 득점의 변동성을 키우는지를 볼 수 있을 겁니다. 극단적으로 얘기하면, '운(인플레이 타구)'에 의해 득점이 출렁일지, 아니면 '실력(홈런/삼진)'에 의해 통제될지를 이 (7)번 식을 통해 간접적으로 확인할 수 있을 겁니다.
이 모델로 저는 KBO에서 BIP가 얼마나 중요한지를 간단하게 보여드릴 예정입니다. 참고로, 이 모델은 아주 간단한 토이 모델이기에 실제 결과와는 차이가 있다는 걸 말씀드립니다. 실제로는 병살타와 같이 한 번에 아웃 카운트가 두 번이 올라갈 수도 있고, 더해서 같은 이벤트라도 상황(아웃과 주자에 따른 24가지 상태를 의미합니다.)에 따라 득점 가치가 달라지기 때문에에 실제 야구는 (7)번 식으로 구한 것보다 분산이 더 큽니다. 하지만 우리가 원하는 것은 실제 크기라기보다는 각 이벤트가 분산에 기여하는 분포에 가깝고(엄밀히 말해서는 실제 분포도 아닙니다만...) KBO와 MLB 간의 성향 차이 비교가 메인이기에 크게 문제가 될 건 없다고 봅니다. 득점 가치 벡터 $\mathbf{r}$은 KBO, MLB 모두 톰 탱고의 시즌별 wOBA 상수 계산 방법에서 추정하는 득점 가치를 사용했습니다. 사실 KBO는 상대적으로 MLB에 비해서 장타가 적기에 장타의 득점 가치가 상대적으로 높겠지만, 아직 제가 가지고 있는 KBO 득점 가치에 대한 지식이 적기에 부득이 하게 팬그래프에서 사용하는 방식을 그대로 사용하기로 했습니다. (KBO 버전 득점 가치에 대한 이야기는 이 블로그 페이지 등에서 확인할 수 있습니다.)
(7)번 식을 통해 약식이나마 KBO와 MLB의 득점력에서 BIP, 홈런 등이 득점 분산에 가지는 비중을 추정(Estimate)할 수 있습니다. 지난 10년 간의 추정치는 다음과 같습니다.
| 시즌 | KBO BB% / HR% / BIP% | MLB BB% / HR% / BIP% |
|---|---|---|
| 2016 | 7.6% / 25.5% / 56.2% | 5.7% / 35.8% / 49.2% |
| 2017 | 6.6% / 27.8% / 55.6% | 5.9% / 37.0% / 47.3% |
| 2018 | 6.5% / 29.7% / 53.5% | 6.1% / 36.3% / 48.3% |
| 2019 | 7.2% / 23.8% / 60.0% | 5.9% / 38.9% / 45.2% |
| 2020 | 7.7% / 26.9% / 55.1% | 6.8% / 38.6% / 44.5% |
| 2021 | 9.1% / 25.6% / 54.9% | 6.4% / 38.2% / 45.8% |
| 2022 | 7.5% / 25.8% / 57.8% | 6.1% / 36.3% / 48.5% |
| 2023 | 8.0% / 22.2% / 60.9% | 6.3% / 36.8% / 47.2% |
| 2024 | 7.6% / 26.7% / 55.6% | 6.1% / 37.0% / 47.7% |
| 2025 | 7.8% / 26.6% / 56.2% | 6.1% / 37.4% / 47.0% |
KBO와 MLB의 득점 분산에서 BIP와 홈런이 가지는 비율의 차이가 확연히 다름을 알 수 있습니다. 이를 다른 말로 하면, 운에 의해 득점이 출렁이는가, 아니면 실력에 의해 득점이 통제되는지를 보여주는 지표라 할 수 있습니다. (물론 앞에서 말했듯이 이게 '정확한' 계산은 아닙니다만, 최소한 비교 지표로 활용은 가능할 겁니다.) 물론 사사구에 의한 비중 차이도 있습니다만, 홈런과 BIP에 의한 비중 차에 비할 바는 안 됩니다. 지난 10년 간 KBO는 아무리 낮아도 BIP%가 50%를 넘었고, HR%는 항상 20%대를 유지했습니다. 2023년은 22.2% 정도로 많이 낮은 편이었습니다. 반면, MLB는 HR%가 낮아도 35%를 넘고(2018년 KBO가 30% 미만이었음을 상기해 봅시다.) BIP%는 높아도 50%가 되지 않습니다.(최대 2016년 49.2%) 이 추정치만으로도 두 리그의 성향이 많이 달랐음을 알 수 있습니다. 이 정도면 KBO는 MLB와는 다르게 인플레이 타구가 득점을 드라이브 하는 리그라 봐야 할 겁니다.
여기에서 아이디어가 하나 더 생각났습니다. 클러스터링을 통해 리그의 성향 차이, 그리고 변화를 한 번 추적해 보자는 아이디어 말입니다.
리그 성향의 변화를 추적하기 위해 클러스터링을 하기 전에, 먼저 주성분 분석(Principal Component Analysis, PCA)를 진행하기로 했습니다. PCA는 고차원의 여러 변수를 저차원 공간의 표본으로 변환하기 위한 방법입니다. 선형 변환을 통해 고차원의 변수들을 저차원으로 변환 하는데, 변환을 하되 최대한 데이터의 구조를 유지하는 방법으로 하는 벙법입니다. 이 변환이 얼마나 효과적이었는지는 변환 후 축에 투영한 분산의 비율이 얼마나 유지됐는지를 확인해 봄으로써 판단할 수 있습니다. 저는 기본적으로 리그 성향의 차이를 BABIP과 HR%에 의한 효과로 보기를 원했기에, (7)번 식에서 얻은 (BIP%, BABIP, HR%, RA9)의 변수들을 주성분 분석하여 차원 수를 줄이기로 하였습니다. 그렇다면, 두 축 PC1과 PC2는
로 이루어지며, $\alpha_{BIP\%}^{2}+\alpha_{BABIP}^{2}+\alpha_{HR\%}^{2}+\alpha_{RA9}^{2}=1$입니다.
KBO 2001~2025년을 주성분 분석해 봤을 경우, PC1은 전체적으로 화력에 의해 얼마나 득점이 생성되는지를, PC2는 어떤 방식으로 득점이 생성되는지에 대한 축으로 이해할 수 있습니다. 이 두 축의 설명력은 각각 PC1이 74.7%, PC2가 23.4%로 이 두 축이 전체의 98.2%를 설명해 줍니다. 또한 MLB 2001~2025년을 주성분 분석해 봤을 경우, PC1은 HR%에 큰 비중을, PC2는 BABIP에 큰 비중을 둔 축임을 알 수 있습니다. 이 두 축의 설명력은 각각 PC1이 58.%, PC2가 30.2%로 KBO에 비해 두 축의 설명력의 차이가 작았고 이 두 축이 전체의 분산을 설명해 주는 비율도 89.1%로 KBO에 비해 작았습니다. 확실히 상대적으로 KBO에 비해 MLB가 그 리그를 이루는 역햑관계가 더 복잡함을 보여주고 있습니다.
그럼 클러스터링 결과는 어땠을까요? Fig. 1.과 Fig. 2.를 통해 확인할 수 있습니다. Fig. 1은 KBO 리그 2001~2025 시즌 기록들을 주성분 분석 후에 클러스터링 한 결과를, Fig. 2.는 MLB 2001~2025 시즌 기록들을 주성분 분석 후 클러스터링한 결과를 보여줍니다. 각각의 플롯 좌측 하단에 있는 화살표들은 각각의 축들(BIP%, BABIP, HR%, RA9)이 이 그래프에서 어떤 방향을 가리키는지를 보여주는 표시입니다. 음영으로 표시된 부분은 가우시안 혼합 모형(Gaussian Mixture Model, GMM)으로 클러스트링한 결과를, 타원형의 점선은 특정 시즌을 기준으로 클러스터링한 결과를 보여줍니다. 그림을 보면 회색 화살표를 찾을 수 있는데, 각 시즌의 변화를 이은 화살표입니다.
그럼 먼저 KBO의 결과를 봅시다. 먼저 GMM으로 클러스터링을 했을 때 KBO의 특징을 가장 잘 나타내는 건 결과적으로 득점력이었습니다. 득점력이 높은 시즌과 낮은 시즌으로 클러스터링을 할 수 있었습니다. 그렇다면 다른 면에서 2008시즌을 기준으로 클러스터링을 한다면? 이전 결과와 사뭇 다른 클러스터링을 볼 수 있습니다. 2008년을 기준으로 명확하게 그 전은 상대적으로 BABIP이 낮았던 시절을, 그 이후는 BABIP 높은 시즌임을 확연히 알 수 있는 클러스터링 결과입니다. 왜 하필 2008년이냐고 물어보실 수 있습니다. 제가 2008년을 주목한 이유는, 2001~2025 기간 동안 KBO 그래프에서 저득점 고BABIP 부분에 점이 찍힌 첫 번째 시즌이고, 87-88 세대가 본격적으로 리그에서 맹위를 떨치면서 우투좌타 전성시대가 열린 원년으로 보기 때문입니다. 대표적으로 KBO를 대표하는 우투좌타인 김현수가 2008 시즌 타율 1위 타이틀을 얻었고 또 하나의 대표 우투좌타인 최형우 선수가 신인상을 수상한 해입니다. 그런 맥락에서 보자면, 이 두 클러스터링의 괴리는 상당히 재밌는 현상입니다. 특히 MLB 결과와 비교해 보자면 말입니다.
이번엔 MLB 결과를 봅시다. 일반적인 알고리즘으로 클러스터링을 했을 때 MLB를 가장 잘 나타내는 변화는 홈런의 폭발이었습니다. 명확하게 파워 중심인 시즌과 상대적으로 컨택이 중심인 시즌이 나눠졌습니다. 그렇다면 KBO와 비슷하게 2016시즌을 기준으로 클러스터링을 한다면? 결과는 GMM을 이용했을 때와 별 차이가 없었습니다. 이렇듯이 MLB의 진화를 이끈 건 궁극적으로 타자들이 컨택에서 파워로 확실하게 무게 추를 옮긴 것이었습니다.
KBO의 진화는 많은 것을 시사해 줍니다. 먼저 KBO의 진화 방식은 일반적으로 우리가 얘기하는 '현대 야구'와 그 궤를 같이 한다 말하기 힘듭니다. 물론 KBO 선수들도 현대 야구를 따라가면서 더 적극적인 타격을 하는 것은 사실입니다. (2001년 K% 15.3%, 2025년 K% 19.7%) 하지만 MLB는 타격의 무게추를 파워로 옮기면서 전체적으로 BABIP이 낮아진 면을 보여주고 있습니다. 이는 여러 가지로 설명할 수 있겠지만, 간단하게 이게 현대 야구의 추세라 할 수 있는 결과일 겁니다. 반면에, KBO는 좀 묘한 양상을 보여줍니다. 분명 삼진도 늘어났고 TTO(Three True Outcomes, 홈런-삼진-볼넷을 의미)가 늘어났지만 그보다 리그의 득점이 전보다 더 BIP에 의존하는 방향으로 바뀌었습니다. 이는 득점이 적고 많고를 가리지 않습니다. 단적으로, 2008시즌 이후 KBO 리그에서 PC2 축이 음수를 기록한 해는 2009~2010, 2021 정도가 전부이고 그 외에는 다 양수를 기록했습니다. 그렇다면 2008년 이전에는? 모조리 음수를 기록했습니다. 상대적으로 홈런도 적고 RA9도 낮아서 BIP%가 높을 수 밖에 없었던 2006년, 2007년도 그러했습니다. (2006년 BIP% 57.5%, 2007년 57.6%)
이 변화는 2000년대와 2010년대를 대표했던 타자 김태균을 통해서도 간접적으로 느낄 수 있습니다. 김태균 선수는 20여년에 달하는 프로 생활 동안 통산 0.320/0.421/0.516의 슬래쉬 라인을 기록한 대표적인 KBO 리그의 강타자였습니다. 홈런왕도 차지한 적이 있지만(2008년), 보통은 홈런보다 김태균 선수의 정교함과 출루율을 더 강렬하게 기억할 겁니다. 김태균 선수의 커리어를 보면 꽤 재밌는 분기점이 보입니다. NPB에서 KBO로 돌아온 2012년부터 김태균 선수는 본격적으로 전보다 더 타율과 출루에 특화된 선수로 진화한 것처럼 보였거든요. 하지만 전 다른 방향에서 접근하기로 했습니다. 위에서 제기했던 2008년 가설을 여기에서도 적용해 보기로 합시다.
김태균 선수는 2001~2007년까지 0.306의 타율과 0.347의 BABIP을, 2008~2020년은 0.330의 타율과 0.368의 BABIP을 기록했습니다. 둘 다 2푼 이상을 끌어올린 기록입니다. 그럼 한 번 리그 평균과의 차이를 비교해 볼까요? 어쩌면, 단순 수치만 비교해 보면 리그 환경적 변화를 무시하고 해석할 수도 있기 때문입니다. 그래서 저는 Odds Ratio를 이용하여 두 시기를 비교해 봤습니다. 이 수치를 통해 리그 평균 대비 김태균 선수의 BABIP이 상대적으로 얼마나 높았는지를 쉽고도 꽤 정밀하게 측정할 수 있기 때문입니다. 매 시즌 BABIP의 오즈비를 통해 김태균 선수와 리그 평균의 비교 우위를 추출한 뒤, 이 수치를 BABIP이 0.300로 동일한 가상 리그에서 뛸 때로 환산해 본 겁니다. 이를 통해 환경적 요인을 제거하고 김태균이라는 선수가 보여준 BABIP이 리그 대비 상대적으로 얼마나 높은지를 비교해 보려고 한 겁니다. 그 결과, 아주 놀랍게도 2001~2007년까지의 BABIP은 0.350을, 2008~2020년의 BABIP은 0.349를 기록할 것으로 계산됐습니다. 실제로는 1리 차이도 아니라 5모 정도의 차이일 정도로 김태균 선수의 BABIP은 리그 평균 대비 사실상 동일한 수준으로 유지되었던 셈입니다.
만약 많아진 좌타자에 의해서만 리그 BABIP이 올랐다면, 김태균 선수의 조정 BABIP이 이 정도로 똑같을 수가 있을까요? 아주 낮은 확률일 거라고 생각합니다. 저는 리그가 환경적으로 좀 더 인플레이 타구에 친화적이게 변했다고 생각합니다. 어떤 면에선, 리그가 '김태균화' 했을지도 모르는 일입니다.
Fig. 3.은 한 주성분 공간에 MLB와 KBO의 진화를 요약한 결과입니다. 오렌지 색 점선 타원이 MLB의 영역을, 파란색 점선 타원이 KBO의 영역을 의미합니다.(95% CI) 결과에서 볼 수 있듯이 KBO의 타원이 MLB에 비해 훨씬 큽니다. 넓이를 비교해 보면 3배에 달합니다. (주성분 공간에서의 넓이 9.84 vs 29.61) 다른 말로, KBO 리그는 MLB에 비해 훨씬 더 변동성이 심한 리그였다는 얘기입니다. 물론, 경기 수에 따른 차이도 있습니다. 아무래도 분산은 $\frac{\sigma^2}{n}$에 비례하니까요. 하지만 저 변동의 대부분은 시스템 자체에 내제해 있는 분산이라면 이 정도로 나올 수가 없습니다. 아주 단순히 생각해 봐도, BABIP가 0.3인 리그가 있다면 10000번의 기회만 있다고 해도 $\sigma \lt 0.005$인데, KBO 리그만 해도 인플레이 타구는 3만 회가 넘게 나옵니다. 그렇지만 KBO리그는 그 기간 동안 BABIP가 0.290에서 0.330까지 극도로 크게 변했습니다. 이는 결국 대부분의 변동이 리그 운영 주체가 환경 변수를 일정하게 통제하지 못함으로써 나온 결과로 해석하는 게 옳을 겁니다.다른 말로, KBO 리그는 지는 20년 간 MLB에 비해서 균질한 리그의 관리에 훨씬 애를 먹었다고 볼 수 있습니다.
단순히 면적만 넓은 게 아닙니다. 주성분 공간 내에서의 각 시즌별 성격의 이동 거리를 측정해 본 결과, KBO는 MLB에 비해 평균 2배 멀리 이동하면서, 그 변화의 폭(표준편차)는 3배나 더 클 정도로 불규칙적입니다.(평균 1.66 vs 0.77, 표준편차 1.05 vs 0.36) 이는 균질한 경기 내에서 기술적 진보를 이뤄야할 선수들이 그런 기술적 진보 이상으로 환경적 변화에 적응해야 한다는 걸 보여주는 결과라고 생각합니다.
한편, 2000년대 중반까지는 주성분 공간에서 MLB 리그와 비슷하게 분포하던 리그가 2006년부터 다른 방향으로 빠져나오기 시작하더니 점점 더 인플레이 타구에 친화적으로 변화한 것도 확인할 수 있습니다.
리그의 성향 변화를 더 확실히 보여주기 위해 Fig. 4.에서는 2001~2010년의 비교를, Fig. 5.에서는 2016~2025년의 10년을 비교해 봤습니다. 2000년대 KBO는 변동성이 심한 리그였지만, 분명 MLB와 영역이 겹치는 걸 보여줬습니다. 더 넓은 면에서 두 리그는 한 때 비슷한 성향을 가졌다고도 볼 수 있습니다. 하지만 Fig. 5.에서 보면, 이제 두 리그는 완전히 괴리됐습니다. KBO는 인플레이 친화적으로, MLB는 홈런 친화적으로 말입니다. 두 리그는 이제 완전히 성격이 다른 리그입니다. 그렇기 때문에 두 리그의 전략도 달라질 수 밖에 없습니다. 어쩌면, 이 리그 성향의 괴리가 KBO가 현대 야구에 적응하는 데 방해하는 가장 큰 요소일 수도 있습니다.
언제까지 반발 계수만 붙잡고 있을 수는 없습니다. 언제까지 근본적으로 높은 BABIP은 도외시 하고 홈런 비율만 붙잡고 있을 수 없습니다. KBO 리그의 고득점 환경 이면에는 근본적으로 높은 BABIP이 있습니다. 리그가 환경적으로 고BABIP으로 조정되면서 투수들에게 많이 가혹한 환경이 조성됐고, 현대 야구와 괴리되는 현상이 생긴 거라고 생각합니다. 근본적인 원인이 뭔지는 솔직히 잘 모르겠습니다. 우투좌타의 증가, 구장 크기의 변화, 공인구의 교체 등은 물론 큰 요인입니다만 이것만 가지고는 현재로서는 설명하기 힘듭니다. 그리고 이 변화는 단지 반발력의 변화로만 얻어낸 것도 아닙니다. 위에서 봤듯이 2007년과 2020년대 공인구는 2020년대 공인구가 더 반발계수가 낮음에도 BABIP은 근본적으로 지금이 높습니다. 확실한 건, 이런 환경적 차이 때문에 KBO와 MLB는 현재 많이 괴리된 상태고, 타자와 투수들의 생존 방법도 달라진 상황입니다. 단순히 선수들의 파워가 없으니 성향이 다르다로만 침소봉대할 수는 없는 숫자라 생각합니다.
또한 KBO는 MLB에 비해서 너무 리그의 방향이 너무 자주 달라집니다. 주성분 분석 결과에서 보듯이, MLB 리그가 PCA 공간에서 차지한 면적이 KBO에 비해 훨씬 작습니다. 다른 말로, KBO 리그는 지난 25년 간 리그의 균형을 유지하는 데 많은 어려움을 겪었다는 이야기입니다. 이런 큰 변동성은 타자와 투수들이 리그에 적응하기 힘들게 만드는 하나의 요인이기도 할 겁니다. 또한, 한국 야구가 근본적으로 현대 야구에 적응하기 힘들게 하는 하나의 요인이라고 생각합니다. KBO 리그는 리그 경기의 질을 균질하게 유지하기 위해 더 많은 노력을 기해야 합니다. 넋 놓고 KBO 선수들이 MLB에 많이 진출하기만 바랄 수는 없습니다. (솔직히 말해서 불가능 합니다.) 최대한 KBO 리그 경기의 질을 발전시키고 균질하게 유지하는 게 한국 야구의 바람직한 방향일 겁니다. KBO의 숙제는 결국 인플레이 타구에 과도하게 의존하는 리그를 좀 더 현대 야구에 맞는 파워 드라이빙 게임으로 바뀌게 유도하면서도 매년 더 균질한 리그를 만드는 것일 겁니다.
© 2026 psodds.com