728x90

코사인 유사도 2

029. NLP Workflow를 깜빡했다.

저번 글에서 NLP의 통계적 접근 방법을 다뤘습니다. 자연어 처리가 무엇이고 통계적 접근 방법은 또 무엇인지 꽤 장황하게 다뤘습니다. 그런데 NLP의 큰 그림을 안 다루고 처음부터 정신없이 진도를 나가다 보니 약간 혼란이 오네요. 쓰고 보니 내가 지금 NLP 작업 중에 어떤 부분을 하고 있는 건가 싶습니다. 이번 글은 NLP Workflow를 저번 글 내용과 연결해서 이야기하겠습니다. NLP Workflow는 다음과 같습니다. 데이터 수집 데이터 전처리 임베딩 Downstream task prediction 데이터 수집 저번 글에서 데이터 수집은 다음과 같이 짤막하게 준비했었습니다. text = "You say goodbye and I say hello." 보통 의미있는 학습을 하려면 "repo"나 크롤..

028. Hello NLP(Natural Language Processing)!

이번 주 들어 본격적으로 자연어 처리에 대해 공부하기 시작했습니다. 자연어 처리는 AI 3 대장 중 하나라고 합니다. AI 3 대장은 현재 AI에서 가장 많이 쓰이고 있는 분야 세 가지를 꼽은 건데, 자연어 처리 컴퓨터 비젼 스피치 프로세싱 위의 세 개가 AI 3 대장이라고 합니다. 자연어 처리는 딥러닝 등장 이전에도 존재해왔는데 등장 이후 성능이 퀀텀 점프를 하면서 주목을 받았다고 합니다. 일단 자연어라는 단어부터 생소합니다. 평소에 거의 쓰지 않는 단어라서 그렇습니다. 우리가 흔히 생각하고 우리가 현재 쓰고 있는 한국어, 영어 같은 언어가 자연어라고 보면 됩니다. 누군가 의도적으로 만들지 않고 자연적으로 생겨난 부드러운 언어라고 생각하면 됩니다. 그 반대로 파이썬, C++, Java, HTML(?) ..

728x90
반응형