728x90

자연어처리 2

034. 11월 월간 리뷰 및 파이널 프로젝트 간략한 후기

지난 한 달은 눈앞에 닥친 일들을 수습하는데 급급한 나머지 블로그 포스팅에는 전혀 신경 쓰지 못했습니다. 지난 한 달 동안 난생처음 보는 이론들, 모델들, 데이터들을 소화시키느라 아주 죽을 맛이었습니다. 이번에 졸업 논문을 쓰면서 난생처음 논문을 보고 쓰는 기회를 가졌었는데, 이번 파이널 프로젝트(캐글 대회) 덕분에 수십 편의 논문을 읽게 되는 계기가 되었습니다.(사실 수십 편은 아니고 10편 정도 읽었습니다.) 파이널 프로젝트를 하면서 AI라는 분야가 굉장히 급변하고 있고 전문적인 분야라고 절실히 느꼈습니다. 학부 전공 공부를 하면서 논문 볼 기회가 전혀 없었는데(디자인 계열이라 논문보다는 잡지나 핀터레스트를 많이 봄) 대회 하나 준비하면서 세계 곳곳의 석학들이 집필한 최신(?) 논문으로 정보를 접해야..

030. NLP, TF-IDF, STS, DTM, BoW,

제목부터 총체적 난국입니다. 영어만 쓰여있는 데다가 약어로 쓰여있어서 도대체 무슨 말이지 싶습니다. 저번 글에서 이번 글은 차원 축소 및 word2vec에 대해 다룬다고 했었는데 살짝 힘들게 되었습니다. 최근 실무에서는 word2vec은 옛날 기술이 되고 TF-IDF가 더 익숙한가 봅니다. TF-IDF도 금방 옛날 기술이 되겠지요.. 저번 글에서 NLP Workflow에 대해 이야기하면서 TF-IDF를 스쳐 지나듯 이야기했었습니다. 그리고 Downstream Task에 대해서도 스쳐 지나가듯 이야기했습니다. 정확히 이야기하면 다뤘지만 너무 초기의 이론에 대해서만 이야기했었습니다. 그리고 오늘 수업 시간에 꽤 진지하게 다뤄진 이야기이기 때문에 TF-IDF와 STS에 대해 짚고 넘어가겠습니다. TF-IDF의..

728x90
반응형