AI/K-Digital Training

022. 지도 학습에서 회귀 문제와 분류 문제에 대한 이야기

찌리남 2021. 9. 30. 13:00
728x90

AI 교육계의 거장이며 저의 스승이신 김용담 선생께서 꽤 긴 시간을 들여서

회귀 문제와 분류 문제 구분의 중요함을 설파하셨습니다.

그 이유는 회귀인지 분류인지 구분이 되어야

문제에 맞는 데이터를 분석하고 모델을 고를 수 있기 때문입니다.

회귀 문제라면 선형 회귀 알고리즘(모델)을 사용하고,

분류 문제라면 의사결정 나무 알고리즘(모델)을 사용하겠죠.

수험생이 문제를 알아야 시험을 풀 수 있는 것처럼요.

 

분류의 경우는 직관적으로 어떤 문제인지 감을 잡기 쉽습니다.

  • 남자, 여자
  • 맥주, 와인
  • 고양이, 강아지, 코끼리, 쥐, 호랑이
  • 코로나 바이러스 검사 결과의 양성, 음성 여부

규칙으로 정해진 기준에 따라 종류를 구분하는 문제라고 생각하면 쉽습니다.

 

회귀 문제는 약간 생소한 단어지만 연속적이고 높낮이가 있는 단어라고 인지하면 쉬울 것 같습니다.

회귀라는 단어의 뜻을 생각하면 약간 이상합니다.

돌아가다 이런 뜻 아닌가 싶습니다. 

동물들이 서식지로 돌아가려는 본능을 회귀 본능이라고도 하죠.

통계학적으로도 비슷한 의미를 지닌다고 합니다.

Sir Francis Galton이 부모와 자녀들의 키 관계에 대해 연구한 논문이 있는데

이 논문의 제목이 "Regression Towards Mediocrity In Hereditary Stature"입니다.

읽어보진 않았지만 내용을 요약하면 

키 작은 부모 밑에서 키 큰 자녀가 나올 수도 있고,

키 큰 부모 밑에서 키 작은 자녀가 나올 수도 있어서

평균 키의 자녀가 탄생한다고 주장했답니다.

결론적으로 데이터들은 평균으로 돌아간다고 해서 회귀라고 한답니다.

평균을 낼 수 있으려면 높낮이가 있는 실수여야겠지요?

  • 머리카락 길이
  • 집값
  • 성공률
  • 온도

 

 

그런데 조금씩 애매해지는 경우가 있습니다.

  • 고졸, 대졸, 석사, 박사, 교수
  • 조선대학교, 고려대학교, 고구려대학교
  • 학점: A+, A, B+, B, C+, C, D+, D, F

뭔가 의도가 있는 사람들은 충분히 높낮이를 줘서 인식할 수 있을 만한 분류 문제입니다.

글자 대신에 높다고 생각되는 category에 높은 숫자를 부여하고 낮다고 생각되는 category에 낮은 숫자를 부여하면 

충분히 회귀 문제라고 볼 수도 있습니다.

그런데 예측의 답안 제출은 분류로 해야 하기에 이런 문제는 ordinal classification(서수 분류)이라고 부릅니다.

그래서 로지스틱 회귀같은 알고리즘으로 회귀 문제를 해결하고 분류하는 작업이 필요합니다.

 

출처: https://www.javatpoint.com/regression-vs-classification-in-machine-learning

728x90
반응형