728x90

AI 41

030. NLP, TF-IDF, STS, DTM, BoW,

제목부터 총체적 난국입니다. 영어만 쓰여있는 데다가 약어로 쓰여있어서 도대체 무슨 말이지 싶습니다. 저번 글에서 이번 글은 차원 축소 및 word2vec에 대해 다룬다고 했었는데 살짝 힘들게 되었습니다. 최근 실무에서는 word2vec은 옛날 기술이 되고 TF-IDF가 더 익숙한가 봅니다. TF-IDF도 금방 옛날 기술이 되겠지요.. 저번 글에서 NLP Workflow에 대해 이야기하면서 TF-IDF를 스쳐 지나듯 이야기했었습니다. 그리고 Downstream Task에 대해서도 스쳐 지나가듯 이야기했습니다. 정확히 이야기하면 다뤘지만 너무 초기의 이론에 대해서만 이야기했었습니다. 그리고 오늘 수업 시간에 꽤 진지하게 다뤄진 이야기이기 때문에 TF-IDF와 STS에 대해 짚고 넘어가겠습니다. TF-IDF의..

029. NLP Workflow를 깜빡했다.

저번 글에서 NLP의 통계적 접근 방법을 다뤘습니다. 자연어 처리가 무엇이고 통계적 접근 방법은 또 무엇인지 꽤 장황하게 다뤘습니다. 그런데 NLP의 큰 그림을 안 다루고 처음부터 정신없이 진도를 나가다 보니 약간 혼란이 오네요. 쓰고 보니 내가 지금 NLP 작업 중에 어떤 부분을 하고 있는 건가 싶습니다. 이번 글은 NLP Workflow를 저번 글 내용과 연결해서 이야기하겠습니다. NLP Workflow는 다음과 같습니다. 데이터 수집 데이터 전처리 임베딩 Downstream task prediction 데이터 수집 저번 글에서 데이터 수집은 다음과 같이 짤막하게 준비했었습니다. text = "You say goodbye and I say hello." 보통 의미있는 학습을 하려면 "repo"나 크롤..

028. Hello NLP(Natural Language Processing)!

이번 주 들어 본격적으로 자연어 처리에 대해 공부하기 시작했습니다. 자연어 처리는 AI 3 대장 중 하나라고 합니다. AI 3 대장은 현재 AI에서 가장 많이 쓰이고 있는 분야 세 가지를 꼽은 건데, 자연어 처리 컴퓨터 비젼 스피치 프로세싱 위의 세 개가 AI 3 대장이라고 합니다. 자연어 처리는 딥러닝 등장 이전에도 존재해왔는데 등장 이후 성능이 퀀텀 점프를 하면서 주목을 받았다고 합니다. 일단 자연어라는 단어부터 생소합니다. 평소에 거의 쓰지 않는 단어라서 그렇습니다. 우리가 흔히 생각하고 우리가 현재 쓰고 있는 한국어, 영어 같은 언어가 자연어라고 보면 됩니다. 누군가 의도적으로 만들지 않고 자연적으로 생겨난 부드러운 언어라고 생각하면 됩니다. 그 반대로 파이썬, C++, Java, HTML(?) ..

027. 딥러닝과 주식투자의 연계성에 대한 인문학적 고찰

제목은 거창하게 썼는데 결론적으로 K-Digital Training에 참여하고 나서 제 주식 투자 방향이 살짝 방황하고 있기에 이에 대한 글을 쓰고 싶었습니다. K-Digital Training에 참여하고 나서 제일 많이 바뀐 점은 하루 평균 12시간을 공부에 투자하는 것입니다. 과정 참여 전에는 기상 후 2시간 정도는 뉴스와 증권 보고서를 읽고 분석하는데 시간을 썼습니다. 제가 투자하는 기업과 관련 산업들에 대한 보고서를 매일 팔로우하며 투자에 대한 힌트를 얻었지요. 그런데 요즘은 매일 아침 기상하자마자 공부 모드에 돌입해 이게 불가능해졌습니다. 그렇다고 딥러닝과 주식투자의 연계성은 자투리 시간이 있냐 없냐가 아닙니다. 이 이야기를 시작하려면 코로나 이전으로 돌아가야합니다. 대학교 4학년 저는 왓챠 서..

026. GAN(Generative Adversarial Network) 으로 간다

https://youtu.be/sucqskXRkss 위 링크는 ICLR에서 Ian Goddfellow가 GAN 및 2019년 기준 최신 연구를 발표한 영상입니다. ICLR은 매년 전 세계에서 열리는 머신 러닝 컨퍼런스이고 Ian Goodfellow는 GAN의 아이디어를 세상에 알린 사람입니다. 워낙 이해하기 어려워서 유튜브를 서칭하며 공부하다가 보게 된 영상인데 GAN의 창시자가 직접 이야기해주니 감회가 남다른 영상입니다. 마지막 수업 시간에 GAN에 대한 수업을 들었습니다. 사실 GAN이 원리 때문에 내용도 어렵고 이미지를 학습하다보니 리소스도 많이 필요합니다. 그래서 수업 시간에 이를 이해하고 어떻게 구현하는 건지 알고 넘어가기 힘들었습니다. 그래도 Youtube와 책을 통해 이해는 하고 넘어가야겠지..

025. 합성곱 오토인코더 아싸 좋구나

오늘은 합성곱 오토 인코더를 구현하는 수업을 들었습니다. 저번 글에서 오토 인코더에 대한 이야기를 하며 잠깐 언급했는데 저번에 이야기했던 오토 인코더에 CNN 아이디어를 도입한 신경망입니다. CNN은 미국의 뉴스 채널이 아니라 Convolutional Neural Network입니다. CNN은 ResNet이나 SENet을 예로 보면 이미지 학습에 탁월해서 사람보다 이미지 분류 능력이 뛰어나게 학습도 가능합니다. 이런 이유로 CNN은 이미지 학습에 좋은 성능을 내지 못하는 오토 인코더와 같이 쓰면 오토 인코더의 이미지 학습 성능이 좋아집니다. 오토 인코더의 구조는 인코더와 디코더로 이루어져 있다고 저번에 이야기했었는데요. 적층으로 구성될 때는 이 구조가 대칭이어서 인코더에서 뉴런이 줄었다면 디코더에서는 뉴..

024. Autoencoder라는 높은 벽

사실 다른 모델들과 비교하면 Autoencoder를 높은 벽이라 부르기 어렵습니다. 오히려 쉬운 편이라고 볼 수 있습니다. 그런데 제가 어렵게 느꼈습니다. 그러면 개인적으로는 높은 벽이라 부를 수 있겠죠.. 오토 인코더는 기본적으로 비지도 학습이라고 봅니다. 그 이유는 따로 레이블 되어 있지 않기 때문이죠. 레이블이 없는 문제는 보통 지도 학습이라고 보지 않습니다. 오토 인코더는 latent representation(잠재 표현)이 입력 데이터의 밀집 표현을 학습하는 인공 신경망입니다. 또는 입력 데이터의 패턴을 학습해 비슷한 데이터를 생성해내는 알고리즘이라고 보면 됩니다. 그래서 입력 데이터를 차원 축소해 낮은 화질의 이미지를 생성하거나 오토 인코더 그 자체로 feature-extraction 하는 알..

023. 오마이갓.. 오토인코더

오늘의 강의는 RNN과 Auto-Encoder를 배우는 것이었습니다. 정확히는 RNN과 Auto Encoder를 코랩에서 구현하는 것이었는데 아주 멘붕이 제대로 왔습니다.. CS231n에서 RNN에 대해 꽤 자세히 설명해줘서 전날에 복습했지만 파이썬으로 구현하는 일은 완전히 다른 일이었습니다. 다시 한번 아주 높은 벽에 부딪힌 기분이 듭니다. 어제 같은 과정을 참여하는 수강생들의 블로그들을 공유하는 기회가 있었습니다. 다른 사람들의 글들을 보니 나 혼자 꽤 많이 뒤처져있다는 느낌도 많이 들었습니다. 원래 계획은 과정 중에 배운 내용들을 포스트하는 식으로 운영할 계획이었습니다. 이런저런 핑계로 미루다 보니 딥러닝을 배우고 있는 순간에 회귀, 분류에 대한 글을 올리고 있습니다. 그리고 데이터 사이언티스트가 ..

022. 지도 학습에서 회귀 문제와 분류 문제에 대한 이야기

AI 교육계의 거장이며 저의 스승이신 김용담 선생께서 꽤 긴 시간을 들여서 회귀 문제와 분류 문제 구분의 중요함을 설파하셨습니다. 그 이유는 회귀인지 분류인지 구분이 되어야 문제에 맞는 데이터를 분석하고 모델을 고를 수 있기 때문입니다. 회귀 문제라면 선형 회귀 알고리즘(모델)을 사용하고, 분류 문제라면 의사결정 나무 알고리즘(모델)을 사용하겠죠. 수험생이 문제를 알아야 시험을 풀 수 있는 것처럼요. 분류의 경우는 직관적으로 어떤 문제인지 감을 잡기 쉽습니다. 남자, 여자 맥주, 와인 고양이, 강아지, 코끼리, 쥐, 호랑이 코로나 바이러스 검사 결과의 양성, 음성 여부 규칙으로 정해진 기준에 따라 종류를 구분하는 문제라고 생각하면 쉽습니다. 회귀 문제는 약간 생소한 단어지만 연속적이고 높낮이가 있는 단어..

021. 9월 월간 리뷰(JD 작성하며 느낀 현타)

이제 K-Digital Training에 합류한 지 두 달이 넘어갑니다! 2개월 이상 배웠지만 지금까지 뭘 했지 고민해보면 아쉬움이 밀려옵니다.. 특히 오늘 새벽 아쉬움이 강하게 밀려오게 하는 계기가 있었습니다. 난생처음 해보는 JD를 하면서 이 세상은 날 원하지 않나 봐.. 내지는 나는 너무 준비가 안 되어있어.. 이런 생각들이 밀려왔습니다. 물리적으로 불가능에 가까워 보이는 신입의 권장 스펙이지만.. 하나도 해당되는 부분이 없어서 더 그렇습니다. 커리큘럼의 절반이 가까워지자 슬슬 커리어 서비스가 시작합니다. 커리어 서비스에서 진행하는 일 중에 JD라는 게 있습니다. 저는 취준을 처음하다보니 익숙하지 않은 단어였습니다. Job Description 의 줄임말이라고 하는데 취업하려고 하는 Job의 필요한..

728x90
반응형