The Bias-Variance Trade-Off (by 거꾸로 자전거)

‘거꾸로 자전거’ 라는 유튜브 영상을 본적이 있다

‘특별한 자전거’의 특징은 핸들과 바퀴의 방향이 반대로 가도록 만든 것이다.
자전거를 타는 데 익숙한 데스틴(25년 경력)은 큰 걱정없이 자전거를 타 보지만, 그는 자전거를 타고 1m를 가기가 어려웠다. 그는 자신 스스로에게 도전장을 내밀었다. 이 특별한 자전거를 타고 매일 5분씩 연습을 한 것이다. 연습한 지 8개월 만에 그는 (우리가 보기엔 반대로움직이는) 자전거를 탈 수 있었다.

그는 자기 아들에게도 같은 테스트를 실행했다. 데스틴의 아들(3년 경력)은 2주 만에 특별한 자전거를 타고 움직이기 시작했다

Bias의 사전적 의미는 “편이”, “선입견”, “편견”, “성향”, “치우침”,
Variance는 “변화”, “편차”, “분산”이다… 필자에겐 bias가 낮고/높다를 이런 단어들로 보면 이해하기가 어려웠다

앞서 길게 설명했던 특별한 자전거 동영상을 빌려오면 데스틴은 선입견이 높고 변화에 약하다고 말할 수 있다(High Bias, Low Variance).
25년 경력때문에 일반자전거를 타는것에 너무 익숙해진 나머지 특별한(새로운) 자전거를 타는 것에 쉽게 적응하지 못했다. 8개월만에 성공했지만 20분만에 다시 원래대로 돌아갔다…

반면 데스틴의 아들은 선입견이 낮고 변화에 쉽게 적응한다고 말할수 있다(High Variance, Low Bias). 자전거를 오래타지 않았기에 새로운 변화에 빠르고 쉽게 적응할수 있었다. 이것을 뇌의 변화력(신경가소성) 이라고도 이야기하는데 이로 인해서 어렸을때 언어를 배워야 더 잘 배운다고 이야기하기도 한다.

데이터를 이용해 모델을 만들었다면, 모델이 어느정도 정확도를 갖는지 측정을 해봐야한다. 측정의 한 방법으로 알려진 것이 MSE ( Mean Squared Error) 평균제곱오차 이다

Formula1. Mean Squared Error

MSE 는 다시 Variance (분산) 과 Bias² (편향제곱) 그리고 Var(ε)(줄일수없는 모델자체의 오류) 로 분리된다. 위의 식은 MSE의 기대값을 최소화하기 위해선 적은 분산과 적은 편향을 갖는 모델을 선택해야한다고 알려준다. 하지만 식을 보면 분산과 편향은 음수가 될수없는 값들로 따라서 우리는 MSE의 기대값이 모델자체의 오류값 보다는 작아질 수 없다는 것도 알수있다

Figure1. Squared bias (blue curve), variance (orange curve), Var(ε) (dashed line), and test MSE (red curve) for the three data sets

3개 영역은 위에서 설명한 식을 나타낸다. 파란선은 Bias²을, 주황선은 Variance 을, 가운데 점선은 Var(ε)를 나타낸다. 빨간선은 이 3개 값의 합, MSE 을 나타낸다. 유연성의 정도에 따라 최소가 되는 MSE 값들은 3개 데이터 셋에서 전부 다르다. 왜냐하면 Bias² 과 Variance는 데이터셋에 따라 다르기 때문이다.

각각의 영역을 좀더 자세히 살펴보면,
1) 가장 왼쪽 영역에선 Bias² 가 시작할때 급격히 감소하고,
이에 따라 MSE 역시 가파르게 감소하는 모습을 보인다.
2) 가운데 영역에선 f 의 형태가 선형에 가깝고 따라서 유연성이 증가함에 따라 Bias² 감소량도 적다. MSE 값은 일부 감소후 최적지점(여기선 3.5)을 지나서부터 Variance가 급격히 증가함에 따라 같이 증가하는 모습이다.
3) 오른쪽 영역에선 모델의 유연성이 증가함에 따라 Bias² 가 급격히 감소한다. Variance 는 유연성이 증가함에 따라 아주 작게 증가한다. 결론적으로 MSE 값은 최적의 지점 (여기선 10)까지는 Bias² 를 따라 급격히 감소하다가 모델의 유연성이 10을 지나고 나서부터 Variance를 따라 일부 증가하는 모습이다

3개의 영역 모두 모델의 유연성이 증가함에 따라 (정도의 차이를 보이지만) Variance가 증가하고 Bias²은 감소하는 걸 확인할수있다(반대로 Variance가 감소하면 Bias²은 증가). 이러한 Bias²과 Variance, 그리고 MSE 간의 관계를 The Bias-Variance Trade-off 라고 한다

Variance과 Bias² 모두 낮은값을 만족하는 최적의 모델을 찾는 것은
거꾸로 자전거를 타는 것처럼 쉽지않은 일이지만,
충분히 도전해볼만한 가치있는 일입니다.

Reference
An Introduction to Statistical Learning (2.2.2 The Bias-Variance Trade-Off)