다항 로지스틱 회귀의 이해


처음 텐서플로우 공부를 시작하면서 단순선형회귀에서 다중선형회귀로 넘어가는 과정에서 상당히 혼란스러웠었다.
단순한 1차 방정식의 형태에서 독립 변수가 늘어난 것만으로도 엄청나게 골머리를 싸매야 했다. 그리고 이제 이항
로지스틱회귀에서 다항로지스틱회귀로 넘어가려고 한다. 이번에도 역시 기대를 저버리지 않고 뇌이랑이 메워질만큼
알 듯 모를 듯한 수식들을 붙들고 씨름을 하게 만들었다.


설명은 단순한데 그 단순한 것을 제대로 이해하기 위해서는 상당한 공을 들여야 하는 것이 이 바닥인가보다…ㅠ.ㅠ


준비운동 - sigmoid 복습


먼저 이전 포스팅인 이항로지스틱회귀에서 언급되었던 식 몇개를 되살려보자. 거기에는 두 가지 개념이 등장했는데
바로 오즈 비(ODDS Ratio)와 이 오즈 비에 자연로그를 씌운 로짓(logit) 변환이었다. 


오즈 비는 어떤 일이 발생하지 않을 확률에 대한 발생 확률의 비로 발생 확률을 p로 본다면 전체 확률 1에서 발생
확률 p를 뺀 것이 바로 발생하지 않을 확률 1-pr가 되므로 오즈 비는 아래와 같은 식으로 표현된다.




그리고 여기에 자연로그를 취해 아래와 같이 로짓 변환을 마무리 한다. (왜 이런 짓을 하는지는 이전 글인 ‘로지스틱
(Logistic) 회귀 함수 살펴보기’
를 참조하라~)




이런 과정을 통해 다음과 같은 등식을 얻을 수 있었다.




이 등식을 확률 p에 대해 정리하게 되면 우리가 익히 들어왔던 시그모이드 함수의 식이 나타난다.


메인이벤트 - 다항로지스틱회귀


이제 본격적으로 다항로지스틱회귀에 대해 살펴보도록 하자. 앞서 살펴본 로지스틱회귀는 결과가 1 또는 0이 나오는
이항로지스틱회귀였다. 이항로지스틱회귀에 대해 조금 더 부연을 하자면 실제로 이항로지스틱회귀를 통해 나오는
결과 값은 0 ~ 1 사이의 실수이다. 그렇기 때문에 기준점을 하나 두어 그 기준점보다 크면 1로 기준점보다 작으면
0으로 처리하는 것이다. 이 때 이 기준점을 cutoff value라고 하며 0 ~ 1 사이의 값에 대한 기준점이브로 보통
cutoff value는 0.5를 사용한다고 한다.


다항로지스틱회귀의 경우 결과 항이 3개 이상인 경우이다. 현실적인 예를 들자면 최근 대선을 앞두고 쉴새없이 여론
조사 자료들이 뉴스에 보도된다. 이 때 문-안 2자 대결에 대한 여론조사가 이항로지스틱회귀라면 5명의 후보자들에
대해 모두 조사를 하게 되면 다항로지스틱회귀가 되는 것이다. 이 다항로지스틱회귀 역시 결과는 확률 값이며 따라서
각각의 항에 대한 모든 결과으의 합은 1( = 100%)이 된다.


다항로지스틱을 유도하는 식은 이항로지스틱의 경우와 동일하다. 각각의 항에 대해 이항로지스틱을 수행한 후 이 
결과를 일반화 하여 식을 만들게 된다.


대통령 선거를 예로 조금 더 상세하게 들어가보자. 다항로지스틱회귀를 통해 분류를 해야 하는 지지자들은 문, 안, 홍,
유, 심의 5 부류이다(다행이 후보자들 성이 다 다르다…^^). 이 경우 각각에 대해 이항로지스틱을 수행한다 함은 바로
다음과 같다(편의상 이하 순서대로 A,B,C,D,E로 부르도록 하자).


  1. A를 지지하는 사람과 지지하지 않는 사람의 이항
  2. B를 지지하는 사람과 지지하지 않는 사람의 이항
  3. C를 지지하는 사람과 지지하지 않는 사람의 이항
  4. D를 지지하는 사람과 지지하지 않는 사람의 이항
  5. E를 지지하는 사람과 지지하지 않는 사람의 이항


그런데 여기서 약간의 문제가 있다. 이항일 경우에는 오즈 비가 쉽게 나왔다. 경우의 수가 p 또는 1-p로 쉽게 식을
만들 수 있었는데 경우의 수가 많다보니 우리같은 수포자는 여지없이 멘붕에 빠지고 만다…ㅠ.ㅠ


엄밀하게 말하자면 이런 경우에는 각각의 결과를 서로간에 비교를 해야 한다. A와 B를, A와 C를… B와 C를…C와 D…
하지만 이렇게 하자니 결과 항이 많아질수록 복잡해지고 일이 커진다. 누누히 강조하거니와 수학은 곧 단축이 
미덕이다…^^ 현명하신 우리의 수학자들께서는 여기서도 지혜를 발휘하셨다. 그 방법인 즉슨…기준이 되는 하나의
항을 정하고 그 항에 대한 나머지 항들 각각의 비율을 계산하도록 한 것이다. 즉, 편의상 맨 마지막의 E를 기준으로
했다고 가정하면,


  1. A에 대해 p(A) / p(E)
  2. B에 대해 p(B) / p(E)
  3. C에 대해 p(C) / p(E)
  4. D에 대해 p(D) / p(E)


E에 대한 E의 확률은 의미가 없으니 생략하게 되어 총 4개, 다시 말해 전체 항의 갯수를 K개라고 하면 K-1개의 식이
만들어진다. 그리고 이항로지스틱에서와 마찬가지로 자연로그를 취하면 다음과 같이 표현할 수 있다.


이와 같은 식을 항의 갯수가 K일 경우로 일반화 시켜보면 다음과 같이 표현할 수 있다.




잠깐 되돌아가서 보면 특정 항에 대한 각 항의 비만을 계산했는데(A와 E, B와 E, C와 E, D와 E) 그럼 다른 항들
간의 비는 어떻게 확인해야 할까? 매우 간단하다. 이미 E에 대한 각 항목의 비를 구해놓았기 때문에 간단한 로그
법칙으로 구할 수 있다. 만일 B에 대한 A의 비를 구한다면 아래 식과 같이 하면 된다.


파이널 라운드 - sigmoid에서 softmax로


늘상 수학적인 문제에서 길을 잃는다. 이 포스팅을 쓰기 시작한 것이 4월 14일 경이었는데 바로 전 섹션까지가 그 때
쓴 글이다. 이렇게 써내려가면서 나는 내가 sigmoid 함수와 softmax 함수의 상관 관계를 이해하고 있다고 오해했다.
다항로지스틱회귀를 통해 나온 식으로 자연스럽게 softmax 함수가 유도될 것으로 생각했는데 나의 착각이었다.
가장 근접하게 접근한 것이 위키피디아의 로지스틱 회귀 항에 나오는 로그-선형 모델 항목인데, 이 로그-선형 모델
자체를 모르니 알듯 모를듯한 혼란만 계속되었다. 그렇다고 다시 로그-선형모델로 거슬러 올라갈 수도 없고…


결국 그렇게 매우 유사하게 생긴 두 함수 사이의 관계를 밝혀본답시고 또 일주일이 그렇게 흘러가버리고 말았다.
그리고 찾은 답은 sigmoid에서 softmax를 유도할 수 없다면 거꾸로 softmax로부터 sigmoid를 이끌어내보자는
것이다. 이미 sigmoid가 softmax의 특수한 형태 (결과 항이 2개인 경우의 특수한 형태)라는 것은 검색 과정에서
알 수 있었다. 다만 그 과정을 유도할 수 없었을 뿐. 그리고 앞서 말했듯이 이제 거꾸로 한 번 거슬러 올라가보고자 한다.


우선 주의할 것은 이전 포스팅에서도 언급한 바가 있듯이 치환에 주의하라는 것이다. 이 치환의 마법으로 동일한
식이 다양한 형태로 등장하게 된다. 내가 검색을 하며 찾았던 softmax 함수에 대한 표현만 해도 아래 이미지와 같이
다양했다.




하지만 이 것들이 모두 동일한 의미의 식이라는 것… 이쯤 되면 이 건 수학보다는 문학에 가깝다…-.-
일단 변수와 지수, 밑, 첨자까지 너무 많은 알파벳과 그리스 문자가 뒤섞여 있으면 혼란만 더할 것이니 가장 단순한
식을 기준으로 진행해 가보자. 바로 김성훈 교수님의 유튜브 강좌에 나온 식이다.




군더더기 없이 깔끔해서 좋다^^. 일단 이 식 자체에 대해 간단하게 설명을 해보자. 위의 식에서는 생략이 되었지만
softmax 함수에서 각 항을 의미하는 아래 첨자 i의 범위는 우변의 분모에 있는 시그마의 밑이 j의 범위와 동일하다.
즉 i 항에 대한 값 / 모든 결과항에 대한 값의 합이라고 간단하게 말할 수 있을 것이다. 


다시 말해 전체에 대한 부분의 비율이므로 각 항에 대한 결과로써의 좌변의 값은 각 항에 대해 1보다 작은 값이
출력되며 모든 항에 대한 결과값의 총 합은 1(=100%)가 된다.


사실 이정도만 이해하면 그냥 다음 진도 뽑아도 된다. 그래도 궁금하다. 단지 결과 항이 늘어는 것 뿐이고 또 웬만한
검색 결과에도 sigmoid 함수가 softmax 함수의 특수한 형태라고 하니 두 함수의 관계를 한 번 짚고 넘어가고 싶은
것이다. 그래서 일주일도 넘는 시간을 투자했고…ㅠ.ㅠ 완변하진 않지만 지금부터 한 번 살펴보자.


위에 적은 식은 i(또는 j)가 임의의 갯수인 경우의 식이다. 그런데 만일 i가 0과 1 두가지의 경우밖에 없는 경우를
가정해보자 그렇다면 각각의 항에 대해 다음과 같이 표현할 수 있을 것이다.




이 때 y0이 0인 경우를 생각해보면 식은 다음과 같이 바뀐다.




첫 번째 줄의 가장 오른쪽 식을 보면 바로 sigmoid 함수가 나온다. 이렇게 뭔가 어설프지만 softmax와 sigmoid
함수가 모종의 은밀한 관계(?)가 있다는 것을 알 수는 있었다…-.-


정리


겨우 풀어놓긴 했지만 여전이 뭔가 덜 풀린듯한 느낌이다. 하지만 이 것만 붙잡고 시간을 보낼 수 없으니 이정도에서
마무리 하고자 한다. 사실 이 과정에서 중요한 것은 식이 어떻게 도출되느냐가 아니라 딥 러닝으로 가는 과정에서
그 단초를 살짝 엿볼 수 있었다는 점이다.


텐서플로우에서의 hello world라고 하는 MNIST 분석이라든지 이미지 분석 등이 따지고 보면 결국 확률의 문제다.
어떤 이미지가 개인지 고양이인지를 판단한다는 것은 곧 학습 데이터를 기반으로 개일 확률과 고양이일 확률을
구하는 것에 다름 아닌 것이다.



갈길은 멀고 마음은 급하지만 그래도 차근차근 황소 걸음으로 가보련다. 다음 포스팅에서는 다항로지스틱회귀의
cost 함수인 cross-entropy에 대해 알아보도록 하겠다.






블로그 이미지

마즈다

이미 마흔을 넘어섰지만 아직도 꿈을 좇고 있습니다. 그래서 그 꿈에 다가가기 위한 단편들을 하나 둘 씩 모아가고 있지요. 이 곳에 그 단편들이 모일 겁니다...^^

티스토리 툴바