AI 교육계의 거장이며 저의 스승이신 김용담 선생께서 꽤 긴 시간을 들여서
회귀 문제와 분류 문제 구분의 중요함을 설파하셨습니다.
그 이유는 회귀인지 분류인지 구분이 되어야
문제에 맞는 데이터를 분석하고 모델을 고를 수 있기 때문입니다.
회귀 문제라면 선형 회귀 알고리즘(모델)을 사용하고,
분류 문제라면 의사결정 나무 알고리즘(모델)을 사용하겠죠.
수험생이 문제를 알아야 시험을 풀 수 있는 것처럼요.
분류의 경우는 직관적으로 어떤 문제인지 감을 잡기 쉽습니다.
- 남자, 여자
- 맥주, 와인
- 고양이, 강아지, 코끼리, 쥐, 호랑이
- 코로나 바이러스 검사 결과의 양성, 음성 여부
규칙으로 정해진 기준에 따라 종류를 구분하는 문제라고 생각하면 쉽습니다.
회귀 문제는 약간 생소한 단어지만 연속적이고 높낮이가 있는 단어라고 인지하면 쉬울 것 같습니다.
회귀라는 단어의 뜻을 생각하면 약간 이상합니다.
돌아가다 이런 뜻 아닌가 싶습니다.
동물들이 서식지로 돌아가려는 본능을 회귀 본능이라고도 하죠.
통계학적으로도 비슷한 의미를 지닌다고 합니다.
Sir Francis Galton이 부모와 자녀들의 키 관계에 대해 연구한 논문이 있는데
이 논문의 제목이 "Regression Towards Mediocrity In Hereditary Stature"입니다.
읽어보진 않았지만 내용을 요약하면
키 작은 부모 밑에서 키 큰 자녀가 나올 수도 있고,
키 큰 부모 밑에서 키 작은 자녀가 나올 수도 있어서
평균 키의 자녀가 탄생한다고 주장했답니다.
결론적으로 데이터들은 평균으로 돌아간다고 해서 회귀라고 한답니다.
평균을 낼 수 있으려면 높낮이가 있는 실수여야겠지요?
- 머리카락 길이
- 집값
- 성공률
- 온도
그런데 조금씩 애매해지는 경우가 있습니다.
- 고졸, 대졸, 석사, 박사, 교수
- 조선대학교, 고려대학교, 고구려대학교
- 학점: A+, A, B+, B, C+, C, D+, D, F
뭔가 의도가 있는 사람들은 충분히 높낮이를 줘서 인식할 수 있을 만한 분류 문제입니다.
글자 대신에 높다고 생각되는 category에 높은 숫자를 부여하고 낮다고 생각되는 category에 낮은 숫자를 부여하면
충분히 회귀 문제라고 볼 수도 있습니다.
그런데 예측의 답안 제출은 분류로 해야 하기에 이런 문제는 ordinal classification(서수 분류)이라고 부릅니다.
그래서 로지스틱 회귀같은 알고리즘으로 회귀 문제를 해결하고 분류하는 작업이 필요합니다.
'AI > K-Digital Training' 카테고리의 다른 글
024. Autoencoder라는 높은 벽 (0) | 2021.10.01 |
---|---|
023. 오마이갓.. 오토인코더 (1) | 2021.09.30 |
021. 9월 월간 리뷰(JD 작성하며 느낀 현타) (0) | 2021.09.29 |
020. 머신러닝의 종류 (0) | 2021.09.28 |
019. 딥러닝을 배우기 시작하면서 느낀 머신러닝 공부의 심오함 (0) | 2021.09.27 |