지난 한 달은 눈앞에 닥친 일들을 수습하는데 급급한 나머지 블로그 포스팅에는 전혀 신경 쓰지 못했습니다. 지난 한 달 동안 난생처음 보는 이론들, 모델들, 데이터들을 소화시키느라 아주 죽을 맛이었습니다. 이번에 졸업 논문을 쓰면서 난생처음 논문을 보고 쓰는 기회를 가졌었는데, 이번 파이널 프로젝트(캐글 대회) 덕분에 수십 편의 논문을 읽게 되는 계기가 되었습니다.(사실 수십 편은 아니고 10편 정도 읽었습니다.)
파이널 프로젝트를 하면서 AI라는 분야가 굉장히 급변하고 있고 전문적인 분야라고 절실히 느꼈습니다. 학부 전공 공부를 하면서 논문 볼 기회가 전혀 없었는데(디자인 계열이라 논문보다는 잡지나 핀터레스트를 많이 봄) 대회 하나 준비하면서 세계 곳곳의 석학들이 집필한 최신(?) 논문으로 정보를 접해야 되니 환경의 변화가 엄청났던 것 같습니다. 그만큼 캐글 대회를 준비하면서 공부하게 되는 것도 많았습니다.
저희 팀이 이번에 참여하게 된 캐글 대회는 "Jigsaw Rate Severity of Toxic Comments" 입니다. 간단하게 설명하면 인터넷에 게시된 악플의 유해도 점수(toxic score)를 정확히 예측해서 코멘트의 상대적인 유해성을 예측하는 대회입니다. 악플에 대해 다뤄야 하니 당연히 NLP(자연어 처리) 문제이고 유해도를 예측해야 하니 회귀 문제 같은데 그렇게 간단하게 결정할 수 있는 문제가 아니다 보니 살짝 복잡한 부분이 있습니다. 정확한 점수를 예측하는 것이 아니라 상대적인 점수를 예측하는 것이기 때문에 단순 회귀 문제는 아닙니다. 이 부분에서 살짝 골머리를 앓았습니다.
사실상 처음으로 하는 제대로 된 NLP(자연어처리) 프로젝트다 보니 우여곡절이 많았습니다. 초반에는 전 대회에서 많이 사용했던 LSTM, GRU 모델을 사용했는데 준수한 성능을 얻으려면 BERT, GPT와 같은 Pretrained LM(Language Model) 미리 학습된 언어 모델이 필요하다는 걸 깨달으면서 더 골치가 아파졌습니다. 모든 게 처음이다 보니 부딪히면서 이게 이렇게 돌아가고 저렇게 돌아가는구나 하면서 배우게 되었습니다. 그리고 코드가 돌아가지만 이론적으로 이게 왜 돌아가고 왜 성능이 좋게 나오는지 설명이 안 되는 부분에서 논문을 참고해야만 했고, 그 과정에서 머리가 터질 뻔했습니다.
캐글 대회는 현재 진행되고 있는 대회이기 때문에 여기까지만 이야기하고 11월 달에 진행되었던 다른 커리큘럼에 대해서도 이야기하려고 합니다. 11월 파이널 프로젝트가 시작되기 전에 추천 시스템에 대한 강의를 했었습니다. 지나고 나서 생각하면 이게 말도 안 되는 커리큘럼인 게 확신이 됩니다. 컴퓨터 비전, 자연어 처리, 추천 시스템 셋 중 하나만 평생 공부해도 부족할 만한 영역이라고 생각되는데 2~3개월 동안 3개를 모두 찍먹 하다니.. 셋 중 하나라도 제대로 공부할 수 있을 리가 만무합니다.
추천 시스템에 관해서는 평소에 회의적인 시각과 동시에 가장 시장성 있는 기술이라는 시각을 갖고 있었습니다. 왜냐하면 추천 시스템으로 가장 높은 기술력을 자랑하는 넷플릭스도 이용자들이 추천된 영상을 잘 안 본다고 판단해 랜덤으로 영상을 틀어주거나 티브이 같이 수동적으로 스트리밍 해주는 서비스를 제공하니 추천 시스템의 한계가 분명히 존재하는 것 같습니다. 하지만 동시에 AI 기술 중 거의 유일하게 직접적으로 사람을 끌어들이는 기술이기 때문에 가장 돈이 되는 분야기도 합니다.
저 개인적으로 이런저런 생각을 갖고 있었어도.. 배우는 시간이 너무 짧고 강의도 남이 코드 짜는 거 그대로 따라 하는 식이다 보니 학습에 분명한 한계가 있었습니다. 만약 추천 시스템에 확신이 있다면 실제 데이터를 가지고 프로젝트를 경험해보는 것이 최선일 것 같습니다. 만약 이 분야에 대해 전공으로 공부한다 싶으면 이론부터 탄탄하게 다지면 좋겠지만 비전공자나 실무에 적용하고 싶은 분들은 부딪히며 작동의 원리를 경험해보는 게 지름길인 걸로 생각됩니다.
이번에 파이널 프로젝트, 졸업 준비(논문, 도면집, 작품집), 추천 시스템 별거 다 하다 보니 지치는 한 달이었습니다. 제가 좋아하는 투자 공부도 잠깐 놓는 시간이기도 했고, 계획했던 블로그 포스팅도 잠깐 놓는 시간이기도 했습니다. 이제 급한 불은 꺼졌으니 잠시 블로그 포스팅 및 포트폴리오에 주력하며 내실을 다지려고 합니다.
아래 사진은 머리 식힐 겸 간 남한산성에서 본 짹짹이입니다.
'AI > K-Digital Training' 카테고리의 다른 글
035. [KDT]FastCampus AI 기반 데이터사이언티스트 양성과정 수료 후기 (1) | 2021.12.22 |
---|---|
033. KDT 10월 월간 리뷰(NLP, 캐글 대회) (0) | 2021.11.16 |
032. NLP 미니 프로젝트 후기 (0) | 2021.10.26 |
031. 코로나 백신 2차접종후 딥러닝 학습 후기.. (0) | 2021.10.15 |
030. NLP, TF-IDF, STS, DTM, BoW, (0) | 2021.10.08 |