2018/11/25 - [Study/인공지능학습] - [머신러닝 reboot] 개념 잡기 : 경사 하강법 1 - 특성의 scale

2018/12/10 - [Study/인공지능학습] - [머신러닝 reboot] 개념 잡기 : 경사 하강법 2 - step 공식 이해하기

2019/01/28 - [Study/인공지능학습] - [머신러닝 Reboot] 개념잡기 : 경사 하강법 3 - 경사 하강법의 종류

2019/04/07 - [Study/인공지능학습] - [머신러닝 Reboot] 개념 잡기 : 경사 하강법 4 - 규제가 있는 선형 모델

2019/04/14 - [Study/인공지능학습] - [머신러닝 Reboot] 개념 잡기 : 경사하강법5 - 로지스틱 회귀

 

 

머신러닝 Reboot - 개념 잡기 : 경사 하강법 4 - 규제가 있는 선형 모델

 

지난 시간까지 일반적인 선형 회귀에 대해 알아보았다. 하지만 당연하게도 세상의 문제는 너무도 다양하고 따라서
그 문제를 해결할 수 있는 방법도 다양할 수 밖에 없다. 오늘은 그 중에서도 훈련 데이터에만 너무 최적화된 결과를
만들어내는 과대 적합의 문제를 해결할 수 있는 선형 회귀에 대해 정리해보자.

 

과대적합

 

지난 포스팅의 후반부에 다항 회귀에 대해서 알아보았다. 다항 회귀는 데이터의 분포가 2차 이상의 함수
그래프 형태를 띠고 있는 경우 사용하는 기법으로 보통 적절한 차수의 특성을 훈련 데이터에 추가하여 학습을
진행한다. 이 때 지나치게 차수를 높이면 아래 그래프의 초록색 실선과 같이 상당히 난해한 결과가 나온다.
이렇듯 모든 훈련 데이터 하나하나에 맞는 결과를 만들어내는 것을 과대적합이라고 한다. 

 

 

비유를 하자면 기성복과 맞춤복의 차이라고 할 수 있겠다. 
A라는 회사에서 직원들의 유니폼을 맞춤복으로 하기로 결정했다면 새로운 직원이 들어올 때마다 유니폼을 그 
직원에 맞춰서 새로 만들어야 할 것이다. 하지만 유니폼을 기성복으로 결정한 경우에는 직원에 따라 조금 크기도
하고 조금 작기도 하겠지만 하나의 사이즈로 보다 많은 직원들에게 지급을 할 수 있게 된다.

 

다시 말해 기존 직원들(훈련 데이터) 각자에게 꼭 맞는 유니폼을 만들게 되면 새로운 직원이 들어왔을 때 다시 치수를
조정한 유니폼을 만들어야 한다. 하지만 기성복으로 몇개의 사이즈를 준비해 놓는다면 새로운 직원이 들어와도
미리 준비한 유니폼을 지급만 하면 될 것이다.

 

이렇듯 보다 일반적인 상황에 적용을 하기 위해서는 과대적합을 피하는 것이 좋다. 다만 과대적합을 피하기 위한
노력이 과하게 되면 오히려 과소적합에 빠질 수 있으니 주의해야 한다.

일반적으로 모델이 너무 복잡한 경우 과대적합에 빠지기 쉽고 모델이 너무 단순한 경우 과소적합에 빠지기 쉬운데
이를 편향/분산 트레이드 오프라고 한다 (핸즈온 머신러닝 179쪽 참조). 

 

규제란?

 

규제란 말 그대로 어떤 한도를 정하고 그 한도를 넘지 못하도록 제한하는 것을 말한다. 우리가 이제까지 보아 온 선형
회귀 모델은 기울기(가중치)와 절편(bias)을 가지고 있었다. 이 모델은 기울기와 절편을 적절히 조절하고 조합해서
최적의 결과를 찾게 되는데 이 때 기울기를 0으로 만들게 되면 조절할 수 있는 대상이 절편 하나로 줄어 제약이 발생한다.
이렇게 조절할 수 있는 대상을 줄여가는 것을 규제라고 한다. 다만 대상을 완전히 없애는 것은 너무 극단적이므로 규제의
대상이 적절한 범위 내의 값만을 갖도록 하는 것이 일반적이다.

 

여기서 규제의 대상이 되는 것은 일반적인 선형 회귀에서는 기울기(가중치)이며 다항회귀의 경우에는 특성의 차수이다
(하지만 특성의 차수를 제한 하는 것도 결국은 높은 차수의 특성에 붙어 있는 가중치를 0으로 만듦으로써 가능하니 
결국은 규제라 함은 가중치를 제약 하는 것으로 보면 되겠다). 

 

이러한 규제를 가하는 경우는 대체로 2가지 정도의 경우가 있는데 한가지는 확보한 데이터가 충분하지 않을 경우이고
다른 한가지는 일부 특성들 간에 밀접한 상관 관계가 있을 경우이다. 이를 다중공선성이라 한다. 

 

이렇듯 규제를 가하는 것은 특성을 조절하고자 할 때 사용하는 방법이다 따라서 편향에 대해서는 규제를 가하지 않고
특성의 가중치에 대해서만 규제를 가하게 된다. 

 

다음과 같이 생각해보자.
선형 회귀의 비용 함수를 떠올려보면 훈련 데이터에서 특성 𝑥와 실제 결과 𝒚는 이미 주어진 값이며 가중치 𝜭를 변경해
가면서 최솟값을 찾는데 비용함수가 최솟값이 되었을 때 가중치 𝜭는 최적값이 된다. 이렇게 모든 특성에 대해 가중치가
최적값일 경우를 바로 과대적합이라고 볼 수 있는 것이다. 결국 가중치에 규제를 가하여 과대적합을 바로잡을 수 있는 
것이다.

 

일반적으로 가중치에 규제를 가하기 위해서는 비용 함수 뒤에 가중치 벡터의 크기(norm)을 더하게 되는데 바로 다음과 
같은 형태가 된다.

 

 

최솟값 = 비용함수 + 가중치 벡터의 크기

 

 

비용함수에 대해서는 이미 알고 있고…뒤에 따라붙는 가중치 벡터의 크기는 무엇을 의미하는가?
그냥 단순히 식을 분석해도 알 수 있지만 위의 식은 비용함수가 최솟값이 되어야 한다는 조건에 추가적으로 가중치의
크기도 최소가 되어야 한다는 제약이 붙게 되는 것이다. 당연한 이야기지만 덧셈식이니 두 항이 모두 최소가 될 때
식의 결과도 최소가 되는 것이 아니겠는가?

 

그럼 구체적인 방법들을 살펴보면서 조금 더 자세하게 알아보도록 하자.

 

릿지 회귀

 

릿지 회귀는 비용함수 뒤에 규제항을 더하여 과대적합을 막는 방법으로 이 때 사용되는 규제항은 다음과 같다.

 

릿지 회귀 규제항

 

릿지 회귀 비용 함수

 

이 규제항은 벡터의 길이나 크기를 나타내는 norm 중 L2 norm의 제곱을 2로 나눈 것에 해당한다(여기서 2로 나눈 것은
비용함수에서와 마찬가지로 미분 결과를 간단히 만들기 위해서이다). 또한 앞에 붙은 𝜶는 그 값에 따라 규제의 정도가 
정해지는 하이퍼파라미터로 예를들어 이 값이 0이라면 규제항 전체가 0이 되어 기존 선형 회귀의 비용함수만 남게되어 
규제를 적용하지 않는다는 의미가 되는 것이다.

 

직관적으로 확인하기 위해 직접 식을 만들고 값을 대입하여 정리를 해보자(아래 정리한 내용은 말 그대로 감을 익히자는
의도일 뿐 실제로 이런 식으로 계산이 진행되지는 않는다. 또한 여기서는 미분까지 진행하지 않으므로 1/2는 뺐다). 

아래와 같은 가설 함수가 있다.

 

가설 함수

 

이 가설함수에 대한 릿지 회귀 비용함수는 다음과 같다(w = 𝜭 이다).

 

릿지 회귀 비용 함수

 

여기서 임의로 𝑥1 = 3, 𝑥2 = 2, 𝑦 = 14라는 값을 정하고 𝜭 1과 𝜭 2를 구해보자. 다양한 𝜭 1과 𝜭 2의 조합을 만들어
낼 수 있다. 아래는 그 중 몇가지 𝜭 1과 𝜭 2의 조합을 표로 만들어 본 것이다. 만일 일반적인 선형 회귀였다면 선형 회귀의
비용함수가 0이되는 조합이 선택이 되었을 것이다(주황색 셀). 하지만 규제항이 더해짐으로 해서 최종적인 최솟값을
만들어내는 조합은 이전 조합과 달라진다(초록색).

 

 

또한 우연인지 필연인지…이 표에서 보면 가중치 𝜭 1과 𝜭 2가 전체적으로 균등한 크기로 작어지는 효과를 보이고 있다.
이렇게 릿지 회귀의 경우 규제항이 제곱 함수로 가중치의 크기가 커질수록 비용함수의 결과값에 영향을 많이 미치게 된다.
따라서 값이 큰 가중치를 제한하는 효과가 있다.

 

라쏘 회귀

 

라쏘 회귀 역시 비용함수 뒤에 규제항을 더하는 것은 릿지 회귀와 동일하다 다만 규제항의 식은 다음과 같다.

 

라쏘 회귀 규제항

 

라쏘 회귀 비용 함수

 

이 규제항은 벡터의 길이나 크기를 나타내는 norm 중 L1 norm에 해당한다. L1 norm은 벡터를 구성하는 요소의
절대값의 합으로 여기서도 가중치 𝜭1와 𝜭2의 절대값의 합으로 계산하면 된다. 또한 라쏘 회귀의 규제항 같은 경우
1차 함수로 미분 불가능한 형태이기 때문에 2로 나누는 부분이 없다.

 

위의 릿지 회귀에서와 동일한 조건으로 계산식을 구성해보면 다음과 같다.

 

 

릿지 회귀에서와 마찬가지로 라쏘 회귀의 경우에도 규제항이 더해짐으로 해서 단순 선형 회귀와는 다른 조합의 가중치
벡터가 선택이 된다. 릿지 회귀와 다른 점이라면 앞서 언급했듯이 규제항이 가중치 벡터 요소들의 절대값의 합이라는
점이다. 이러한 이유로 규제항을 최소화 시키는 방향이 크기가 작은 가중치는 0으로 만들어버리는 경향이 있어 특성의
일부만을 선별하는 효과를 갖게 된다. 

 

엘라스틱넷

 

앞서 보았듯이 릿지 회귀와 라쏘 회귀는 가중치를 다루는 방법이 조금 다르다. 다시 말해 각각의 용도가 다르다고 할 수
있는 것이다. 이렇게 서로 다른 상황에 사용될 수 있는 두 제약을 하나의 식으로 묶어 어떤 상황에서든 유연하게 사용할 수
있도록 만든 것이 바로 엘라스틱넷이다. 엘라스틱넷의 비용함수는 다음과 같다.

엘라스틱넷 비용함수

 

여기서 중요한 역할을 하는 것이 바로 r이라는 하이퍼파라미터로 릿지 회귀와 라쏘 회귀의 비중을 결정하는 파라미터이다.
극단적으로 r이 1이라면 라쏘 회귀로 작동하며 r이 0이라면 릿지 회귀로 작동하게 되는 것이다.

 

이렇게 3가지 형태의 규제가 있는 회귀 모델을 살펴보았는데 ‘핸즈온 머신러닝’을 인용하여 정리하면 다음과 같다.

 

1. 일반 선형 회귀는 가급적 사용하지 않는 것이 좋다.
2. 일반적으로는 릿지 회귀가 좋다.
3. 실제로 영향을 미치는 특성이 몇 개 정도라면 라쏘 회귀나 엘라스틱넷이 좋다.
4. 특성 수가 훈련 샘플 수보다 많거나 특성 몇 개가 강하게 연관되어 있다면 엘라스틱넷이 좋다. 

 

 

조기 종료

 

위에 언급한 규제 모델 외에 반복적인 학습 알고리즘에서 사용할 수 있는 방법으로 조기 종료가 있다. 이 방법은 검증
에러가 최소에 도달하는 즉시 훈련을 멈추는 것을 말한다. 조기 종료는 매우 효과적이지만 간단하게 구현할 수 있다.
(핸즈온 머신러닝 P186 참조)

 

정리

 

개념적으로는 이해가 가는 내용이지만 이 것을 어떻게 증명해야 하는지가 막연했던 내용들이다. 마치 공부 잘하는 녀석
들이 훌륭하게 공식을 이용하여 문제를 풀어낼 때 나같은 수포자들은 숫자를 하나 하나 대입해가면서 답을 찾아가듯이
말이다…그러다보니 몇쪽 안되는 이 부분을 정리하는데 거의 한 달이 걸렸다(그러고서도 충분하지 않다…ㅠ.ㅠ).

일단 진도는 뽑아야겠기에 이정도 선에서 마무리를 하고 다음 내용으로 넘어가야겠다.

 

숙제

 

  1. 릿지 회귀와 라쏘 회귀의 특징을 시각적으로 볼 수 있도록 python으로 구현해보자! 

  2. 책(핸즈온 머신러닝)에 나온 관련 그래프들을 정확하게 이해해보자!

블로그 이미지

마즈다

이제 반백이 되었지만 아직도 꿈을 좇고 있습니다. 그래서 그 꿈에 다가가기 위한 단편들을 하나 둘 씩 모아가고 있지요. 이 곳에 그 단편들이 모일 겁니다...^^

댓글을 달아 주세요