728x90

AI 41

020. 머신러닝의 종류

사실 머신러닝의 종류에 대한 개념은 모르는 사람은 거의 없겠지만 제 복습용으로 한 번 읊고 지나가겠습니다. 머신러닝은 Supervised Learning(지도 학습) Unsupervised Learning(비지도 학습) Reinforcement Learning(강화 학습) 크게 이 세 가지로 나뉩니다. Supervised Learning은 label이 있는 학습 종류입니다. label이란 쉽게 이야기하면 문제의 답이고 지도 학습은 답이 있는 문제를 학습시키는 머신러닝의 한 종류입니다. 그리고 나머지 두 종류의 머신러닝과는 다르게 외부의 지도가 필요한 머신러닝 방법입니다. 지도 학습의 문제는 회귀(Regression)와 Classification(분류) 두 가지로 나뉩니다. 지도 학습 알고리즘은 Linea..

019. 딥러닝을 배우기 시작하면서 느낀 머신러닝 공부의 심오함

저는 요즘 딥러닝을 배우고 있습니다. 물론 추석 연휴라 한 주 공부를 소홀히 했습니다만 퍼셉트론, 역전파 알고리즘, ReLU, CNN, RNN 등등 난생처음 들어보는 단어들과 머리를 싸매고 씨름 중입니다. 세계적인 석학들이 고안한 지 몇 년 안 된 개념들을 보니 얼마 전까지 배웠던 머신러닝 개념들(선형 회귀, knn, Decision Tree 등등)이 원시적으로 느껴집니다. 그러는 동시에 결국은 딥러닝도 머신러닝의 일부며 기본적인 핵심 개념들은 그대로 이어진다고 느껴집니다. https://youtu.be/HcqpanDadyQ 위 링크의 유튜브 영상은 배우기 전에는 그냥 설명처럼 느껴졌지만 조금 알고 보면 핵심을 꿰뚫는 명강의로 느껴집니다. 이 영상은 복잡한 수식을 인용하지 않지만 결론적으로 중요한 내용은..

018. Kaggle Project 후기 머신러닝 포스트 계획 이야기

블로그 업로드를 자주 하려고 했건만 또 할 일에 휩쓸리는 바람에 블로그에 들리지 못했습니다. KDT 과정상 저번 주 내내 Kaggle Project에 참여하게 됐습니다. 이 프로젝트는 우리가 이번에 배운 머신러닝을 실질적으로 사용해 유의미한 결과를 만드는 것이었습니다. 어제서야 드디어 제출하고 대충 마무리를 했는데요. 아이언맨이 '걸음마 떼기 전에 뛰어야 하는 법이야'라는 말을 했듯 아는 것 없이 하나하나 찾아가며 프로젝트를 해보니 참 많이 배웠습니다. 프로젝트를 직접해보니 선생님이 모델의 원리보다 중요한 게 회귀와 분류의 구분, 그리고 평가지표라고 하신 말씀을 이해하게 되었습니다. 분류, 회귀 그리고 평가지표 등만 알아두면 찾아가면서 프로젝트를 진행하는 게 가능했습니다. 그리고 프로젝트 마무리 후 원리..

017. 머신러닝에 대해 이야기하기 전 AI에 관한 대략적인 이야기

머신러닝을 정신없이 배우다가 현타가 온 적이 한두 번이 아닙니다. 이걸 왜 배우고 있지? 이거랑 AI랑 무슨 관계가 있는거지? 실제 머신러닝을 배우다 보면 이게 상상하던 AI 모습에 비해 원시적으로 보입니다. 결국 머신러닝의 늪에 빠져있다가 겨우 빠져나와서 지도를 한번 펼쳐 보게 되었습니다. 위 그림을 보면 위에서 말한 내용이 무슨 뜻인지 이해가 가실 것입니다. 미디어에서 이야기하는 AI는 사실 정확하게 이야기하면 딥러닝에 가깝다고 해석할 수 있겠습니다. 40년 전에 나온 이론을 공부하면 알파고의 원리와 큰 상관이 없는 것이지요. 그래서 현타를 방지하려면 이런 큰 그림을 봐야 합니다. 일단 머신러닝에 대해 이야기하려면 AI에 대해 이야기해야 합니다. AI(Artificial Intelligence)는 말..

016. 머신러닝 공부 시작 소감 및 반성문

제가 이 블로그에 들리지 않은 지 거의 보름이 되어 갑니다. 그 이유는 머신러닝을 배우느라 다른 것을 할 여유가 없었기 때문이지요. 이렇게 제가 쓰면서도 변명처럼 읽히네요.. 엣헴.. 머신러닝이라는 친구가 이렇게 복잡하고 심오한 학문인 줄은 몰랐습니다. 시작하자마자 선형대수학을 들고 와서 알아들을 수 없는 말을 늘어놓으시고.. 통계학을 들고 와서는 또 난생처음 들어보는 단어들을 늘어놓으시더라고요. 이건 마치 울창한 열대우림을 헤치고 가느라 내가 어디로 가는지 가능도 못하는 그런 상황과 비슷했습니다. 그래도 커리큘럼에 끌려다니면서 주워들은 이야기도 있고 저 나름대로 깨달은 것도 있으니 이런 것들 위주로 공유해볼까 합니다. 이번 K-Digital Training 커리큘럼상에 있는 수업이 제 수준에 안 맞게 ..

015. K-Digital Training 7-8월 월간 리뷰

지난 7월 19일에 K-Digital Training AI기반 Data Scientist 양성 과정을 시작한 이후로 한 달이 지났습니다! 데이터 사이언티스트로 직무 변경하고자 시작한 과정이라 꽤 큰 다짐을 하고 지원했던 기억이 납니다. 이 과정에 지원하기 전까지 인공지능이나 데이터 사이언티스트와 관련된 경력이나 지식이 없어서 걱정이 많았습니다. 아마 이런 점 때문에 면접 과정에서 탈락한 것 같습니다..ㅠ 운이 좋게도 추가 합격으로 좋은 기회를 얻었으니 더 굳은 마음으로 과정에 참여했습니다.. 지금까지(2021년 8월 18일) 배운 내용은 파이썬, 넘파이, 판다스, 데이터 크롤링, 탐색적 데이터 분석입니다. 파이썬까지는 이미 배웠던 내용이라 익숙했었는데 그 외의 모든 것들은 생소하게 느껴졌습니다. 왜 사람..

014. EDA프로젝트 Insatacart 고객 데이터 분석하기

서론 Instacart Market Basket Analysis는 기업측에서 제공한 고객의 실제 구매 데이터를 이용한 프로젝트가 가능하기 때문에 이 프로젝트를 진행하게 됐습니다. 무엇보다 Instacart는 올해 하반기 미국 주식시장 상장을 앞두고 있기 때문에 더 이 프로젝트에 눈이 갔습니다. 이 프로젝트의 목적은 Instacart 측에서 제공한 데이터를 바탕으로 고객들의 물품 재구매를 예측하는 것입니다. 재구매 예측을 위해서는 EDA를 통해 재구매와 상관관계가 있는 데이터를 구하는 과정이 선행되어야 합니다. 이번 프로젝트는 재구매와 상관관계가 있는 데이터를 탐색하는 과정이라고 보면 됩니다. 우선 탐색적 데이터 분석을 위해 세가지 단계를 따라가려고 합니다. 데이터셋 확인 데이터셋에서 얻을 수 있는 정보 ..

013. 데이터 베이스 개념 요약 2

테이블은 관계형 데이터베이스에서 데이터를 관리 및 저장하는 장소다. 데이터의효율적인 관리 및 적절한 조작이 매우 중요하고 현실 세계를 반영하는 형식으로 존재한다. 테이블은 집합을 나누는 방법에 따라 한 개 혹은 여러 개의 테이블이 될 수 있다. 기본키는 특정 해을 유일하게 식별할 수 있는 속성의 집합이므로 중복되면 안 된다. 정규형은 제대로 된 형태를 갖춘 테이블이다. 테이블을 쪼갤대로 쪼개는 게 정규형이라고도 부른다. 제1정규형 위반은 하나의 셀에 여러 개의 값을 포함하는 것이다. 보통 테이블에서 하나 추가하여 제1정규형 만족하게 한다. 제2정규형 위반은 부분함수 종속성을 하용하지 않아 열의 일부에 함수 종속이 일어나는 것이다. 전체 열이 기본키만으로 함수 종속을 가지게 테이블을 나누면 해소된다. 제3..

012. 데이터베이스 개념 요약1

데이터베이스는 현실 세계를 컴퓨터 시스템에 저장한 데이터 모음이다. 컴퓨터 과학이 발전하면서 점점 대용량의 데이터를 조회 사용하는 기술이 필요해졌다. 지금은 모든 것이 데이터 베이스로 관리된다. DBMS는 실시간으로 데이터에 접근하고 사용할 수 있게 하는 소프트웨어고 오라클이 대표적이다. 데이터 베이스 시스템의 특징은 실시간 접근성, 계속적인 변화, ‘동시 공유’, 내용에 따른 참조가 있다. 데이터 베이스의 기본 기능은 조회, 갱신, 장애 대응, 보안 기능이 있고 갱신은 삽입, 삭제, 수정 기능이 있다. 동시성 제어가 되지 않으면 서비스에 큰 혼란이 초래되기 때문에 비즈니스 성패를 좌우할 정도로 중요하다. 장애 대응 기능은 데이터 손실에 대비한 기능이다. 보안 기능은 사용자에게 보여줄 데이터만 보여주는 ..

011. 네이버 증권에서 내 주식 뉴스 데이터크롤링

네이버 증권에서 뉴스 크롤링¶ In [84]: stock_cd = '263750' page_n = '1' news_url = f"https://finance.naver.com/item/news_news.nhn?code={stock_cd}&page={page_n}&sm=title_entity_id.basic&clusterId=" source = urlopen(news_url).read() In [85]: src = bs4.BeautifulSoup(source, 'lxml') In [86]: td = src.find_all('td') td Out[86]: [ 펄어비스, 신작 ‘붉은사막’ 출시 연기 소식에 4% 넘게 하락 , 조선비즈, 2021.07.3..

728x90
반응형