AI/K-Digital Training

032. NLP 미니 프로젝트 후기

찌리남 2021. 10. 26. 00:39
728x90

제가 블로그에서 몇 편의 글로 NLP 공부하고 있다고 티를 좀 냈었습니다.

잘 찾아보면 제가 쓴 글보다 훨씬 전문적이고 체계적으로 설명된 글이 많은데 살짝 창피합니다.

이거 썼다가 저거 썼다가 중구난방으로 글을 쓰느라 설명하는 글로는 효용성이 없었죠.

어쨌든 KDT 과정에서 짧디 짧게 이뤄졌던 NLP 교육이 Mini Project로 마무리됐습니다.

 

이번 Mini-Project는 Kaggle Quora- pair-sentence(closed)입니다.

이번 Project는 STS(Semantic Textual Similarity)로 같은 의미의 text를 판별하는 작업입니다.

문장의 의미가 같냐 다르냐를 판별하기 위해서는 단어를 임베딩 하는 과정과

임베딩 한 단어를 RNN 등의 네트워크에 적용 및 유사도 측정 과정이 필요합니다.

 

그래서 제 블로그에서 간단하게 설명했던 여러 가지 기법들이 소박하게 쓰였습니다.

https://zir2-nam.tistory.com/36 여기서 설명한 코사인 유사도,

https://zir2-nam.tistory.com/38 여기서 설명한 TF-IDF,

그리고 쓰려고 계획은 했지만 못 올렸던 RNN까지 골고루 사용되었습니다.

 

솔직히 말하면 KDT 과정에서 NLP에 대한 수업 및 공부 시간이 너무나 짧았습니다.

특히 NLP 수업은 2주밖에 안 됐는데.. 파이썬 수업과 수업 기간이 같았습니다.

그 어려움의 격차는 어마어마하게 나는데 말입니다..

NLP 하나로 1년 동안 연구해도 부족한데, 2주는 너무합니다..

 

이쪽 분야로 전업(?)을 하고자 KDT에 참여했는데 과정을 겪을수록 더 불안해집니다.

6개월은 너무 짧은 거 아닌가? 이런 고민이 많이 듭니다.

물론 선생님과 학원의 열정은 대단합니다만 제가 이 업계를 너무 만만히 본 게 아닌가 싶습니다.

 

어찌 됐든 며칠 밤을 새우면서 문제 해결하려고 이 코드 저 코드 찾아보고 

이 전처리 저 전처리 방법 참고하면서 제가 나름대로 정한 정확도 75%는 넘겼습니다.

나름 만족할만한 결과이긴 한데 블로그를 통해 이 내용을 공유해도 재밌을 것 같습니다..

제가 전에 블로그에 포스트했던 내용들이 상당 부분 겹치기 때문에

복습하는 기분도 들고 재밌을 것 같습니다.

EDA부터 NLP까지 모든 것을 아우르는 프로젝트였습니다...

마음 한켠으로는 만족스러우니 이걸로 만족하렵니다..

 

오늘은 넘나 피곤해서 내일 내용을 정리해서 올려보겠습니다..

아래 사진은 며친 전에 산책했던 메타세콰이야 숲입니다^^

728x90
반응형