728x90

AI/K-Digital Training 36

005. BeautifulSoup으로 웹크롤링 학습1

Beautifulsoup 학습¶ BeautifulSoup이란 뷰티플 수프는 HTML과 XML 문서를 파싱하기위한 파이썬 패키지입니다. 웹 스크래핑에 유용한 HTML에서 데이터를 추출하는 데 사용할 수있는 구문 분석 된 페이지에 대한 구문 분석 트리를 생성합니다. Beautifulsoup module 불러오기¶ In [1]: from bs4 import BeautifulSoup HTML 문자열 파싱하기¶ In [2]: html = ''' 토트넘 조 하트. /AFPBBNews=뉴스1사실상 팀 내 세 번째 골키퍼로 밀려난 베테랑 골키퍼 조 하트(34)의 스코틀랜드 셀틱 이적설이 급부상했다. 이미 구단 간 협상이 진행 중인 가운데, 어렵지 않게 합의점을 찾을 수 있을 것이라는 전망이 더해졌..

004. requests 모듈로 웹 크롤링 학습

데이터 수집을 위한 웹크롤링 방법¶ request Module¶ http request/response 를 위한 모듈 HTTP method를 메소드 명으로 사용해 request 요청하기¶ In [3]: import requests url = "https://sports.news.naver.com/news?oid=139&aid=0002154211" get 요청하기¶ 이면 문제가 없다는 뜻 In [6]: resp = requests.get(url) resp Out[6]: In [8]: resp.text Out[8]: 너무 길어서 생략 post 요청하기¶ 국민대학교 가상캠퍼스에 로그인 하기 In [9]: url = 'https://ecampus.kookmin.ac.kr/magicsso/requestAuth.p..

003. Numpy_Study2

Broadcast¶ 크기가 서로다른 Numpy array를 연산할 때, 자동으로 크기를 맞추어 연산해주는 기능이다. In [1]: import numpy as np In [2]: arr1 = np.array([[1,2,3], [4,5,6]]) arr1 Out[2]: array([[1, 2, 3], [4, 5, 6]]) In [3]: arr1.shape Out[3]: (2, 3) In [4]: arr2 = np.array([7,8,9]) arr2 Out[4]: array([7, 8, 9]) In [5]: arr2.shape Out[5]: (3,) 2개의 numpy array를 더하기¶ In [6]: arr1 + arr2 Out[6]: array([[ 8, 10, 12], [11, 13, 15]]) 2개의 ..

002.Numpy_Study 1

Numpy는 무엇인가요?¶ Numpy는 "Numerical poython"에서 비롯된 이름이다. 기존의 파이썬은 C언어와 Java에 비해 "Numerical Computing" 에 취약하기 때문에 Numpy로 보완한다. Numpy는 다양한 머신러닝 라이브러리들에 적용할 수 있기 때문에, 일반 파이썬 리스트[]에 비해 강력한 성능을 보여준다. Numpy에서는 Python list와 비슷하게 Numpy array를 사용해 데이터를 조작한다. Numpy의 특징 다섯가지¶ 1) Numpy array는 모든 원소의 자료형이 동일해야한다. 위의 이미지는 Numpy가 지원하는 data types다. Numpy가 지원하는 데이터 타입은 int, uint, intp, uintp, float, complex 등이 있고 몇..

001. 데이터 분석이란??

데이터 분석의 시작 현재 거의 모든 산업군에서 데이터 분석하는 인력이 필요하다. 그리고 코로나 사태 이후로 디지털 전환의 시대가 앞당겨지면서 인력 수요가 더 커졌다. 데이터를 이용한 로그 분석과 예측 분석은 이제 모든 분야에서 필수라고 여겨지는 것 같다. 이 분야에선 SQL, Python, R, Google Analytics, Firebase 등의 활용능력이 필요하다. 데이터를 어떻게 처리하고 분석을 통해 무엇을 얻고 얻은 결과를 어떻게 활용할 것인지가 핵심이다. 데이터 분석 과정은 데이터 수집 - 데이터 탐색 - 데이터 전처리 - 데이터 모델링으로 이뤄진다. 아마도 이 과정 대부분은 Python을 통해 이뤄지는 것 같다. 비즈니스 데이터 분석? 데이터 분석은 결국 데이터의 홍수 속에서 데이터를 알아보기..

000. K-Digital Training AI 기반 데이터 과학 과정에 참여하게 됐습니다.

무야호! 필자는 2021년 K-Digital Training AI 기반 데이터 사이언티스트 양성 과정 1기에 참여하게 됐다! 무료로 데이터 과학을 배울 수 있다는 점에 끌려 준비했는데 운이 좋았다.. 준비된 것도 없고 공부한 것도 없는데 서류, 시험, 면접을 통과했다는 사실이 믿기지 않는다.. 이왕 장기 교육 프로그램에 참여하게 된 이상 신나고, 열심히! 해야겠다. 프로그램에서 배운 점, 동료들에게서 얻은 통찰, 진행중인 작업, 등등을 공유하기 위해 블로그를 시작한다. 왜 이 과정에 지원하게 되었나?? 필자는 K대학에서 건축학을 전공하고 있고 2021년 6월 졸업전시을 무사히 마친 건축학도다. 사실 디자인이나 이공계 분야의 흥미나 재능이 워낙 부족해서 학교를 다니는 데에 무지 고생이 많았다. 본진에서 일..

728x90
반응형