728x90

AI 41

010. 네이버 증권에서 달러 환율과 내 주식 데이터 크롤링

금 시세와 달러 환율 데이터 크롤링¶ 둘 사이의 종가 및 등락율을 분석해서 둘 사이의 상관관계를 알아보는 EDA를 가정합니다. In [1]: from urllib.request import urlopen import requests import bs4 import pandas as pd [5]: source = bs4.BeautifulSoup(src, 'lxml') source Out[5]: In [11]: import datetime as dt In [12]: date = source.find_all('td', class_="date")[0].text.replace('\t','').replace('\n','') yyyy, mm, dd = [int(x) for x in date.split('.')] yy..

009. 네이버 금융에서 원자재 시세 데이터 크롤링하기

금 시세와 달러 환율 데이터 크롤링¶ 둘 사이의 종가 및 등락율을 분석해서 둘 사이의 상관관계를 알아보는 EDA를 가정합니다. In [4]: from urllib.request import urlopen import requests import bs4 import pandas as pd 국제 금 시세 데이터 크롤링¶ In [3]: # https://finance.naver.com/marketindex/worldDailyQuote.nhn?marketindexCd=CMDT_GC&fdtc=2&page=1 index_cd = "CMDT_GC" page_n = 1 naver_index = f"https://finance.naver.com/marketindex/worldDailyQuote.nhn?marketinde..

008. json 활용한 뉴스 본문 및 댓글 크롤링

다음 뉴스에서 본문, 댓글 크롤링하기¶ In [9]: import requests from bs4 import BeautifulSoup import json In [2]: def get_daum_news_title(new_id): url = 'https://news.v.daum.net/v/{}'.format(new_id) resp = requests.get(url) soup = BeautifulSoup(resp.text) title_tag = soup.select_one('h3.tit_view') if title_tag: return title_tag.get_text() return "" In [3]: get_daum_news_title(20210730101735040) Ou..

007. 로그인 후 웹크롤링 및 셀레니움 활용 웹크롤링

웹크롤링을 위한 로그인하기 학습¶ In [1]: import requests import json from bs4 import BeautifulSoup 다음 뉴스의 댓글 개수 크롤링하기¶ 댓글 개수를 불러오는 XHR header 불러오기 json으로 변환해서 댓글 개수에 해당하는 value 불러오기 In [2]: url = 'https://comment.daum.net/apis/v1/ui/single/main/@20210729173132818' headers = { 'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY..

006. BeautifulSoup으로 웹크롤링 학습2

Beautifulsoup으로 웹페이지 크롤링¶ In [3]: from bs4 import BeautifulSoup import requests 웹페이지에서 html data 가져오기¶ requests.get() soup 개체로 만들기 In [9]: url = "https://sports.news.naver.com/news?oid=108&aid=0002976247" resp = requests.get(url) resp.text soup = BeautifulSoup(resp.text) 기사 제목 텍스트 가져오기¶ In [11]: title = soup.find('h4', class_='title') title.get_text() Out[11]: "'방출 통보' 토트..

005. BeautifulSoup으로 웹크롤링 학습1

Beautifulsoup 학습¶ BeautifulSoup이란 뷰티플 수프는 HTML과 XML 문서를 파싱하기위한 파이썬 패키지입니다. 웹 스크래핑에 유용한 HTML에서 데이터를 추출하는 데 사용할 수있는 구문 분석 된 페이지에 대한 구문 분석 트리를 생성합니다. Beautifulsoup module 불러오기¶ In [1]: from bs4 import BeautifulSoup HTML 문자열 파싱하기¶ In [2]: html = ''' 토트넘 조 하트. /AFPBBNews=뉴스1사실상 팀 내 세 번째 골키퍼로 밀려난 베테랑 골키퍼 조 하트(34)의 스코틀랜드 셀틱 이적설이 급부상했다. 이미 구단 간 협상이 진행 중인 가운데, 어렵지 않게 합의점을 찾을 수 있을 것이라는 전망이 더해졌..

004. requests 모듈로 웹 크롤링 학습

데이터 수집을 위한 웹크롤링 방법¶ request Module¶ http request/response 를 위한 모듈 HTTP method를 메소드 명으로 사용해 request 요청하기¶ In [3]: import requests url = "https://sports.news.naver.com/news?oid=139&aid=0002154211" get 요청하기¶ 이면 문제가 없다는 뜻 In [6]: resp = requests.get(url) resp Out[6]: In [8]: resp.text Out[8]: 너무 길어서 생략 post 요청하기¶ 국민대학교 가상캠퍼스에 로그인 하기 In [9]: url = 'https://ecampus.kookmin.ac.kr/magicsso/requestAuth.p..

003. Numpy_Study2

Broadcast¶ 크기가 서로다른 Numpy array를 연산할 때, 자동으로 크기를 맞추어 연산해주는 기능이다. In [1]: import numpy as np In [2]: arr1 = np.array([[1,2,3], [4,5,6]]) arr1 Out[2]: array([[1, 2, 3], [4, 5, 6]]) In [3]: arr1.shape Out[3]: (2, 3) In [4]: arr2 = np.array([7,8,9]) arr2 Out[4]: array([7, 8, 9]) In [5]: arr2.shape Out[5]: (3,) 2개의 numpy array를 더하기¶ In [6]: arr1 + arr2 Out[6]: array([[ 8, 10, 12], [11, 13, 15]]) 2개의 ..

002.Numpy_Study 1

Numpy는 무엇인가요?¶ Numpy는 "Numerical poython"에서 비롯된 이름이다. 기존의 파이썬은 C언어와 Java에 비해 "Numerical Computing" 에 취약하기 때문에 Numpy로 보완한다. Numpy는 다양한 머신러닝 라이브러리들에 적용할 수 있기 때문에, 일반 파이썬 리스트[]에 비해 강력한 성능을 보여준다. Numpy에서는 Python list와 비슷하게 Numpy array를 사용해 데이터를 조작한다. Numpy의 특징 다섯가지¶ 1) Numpy array는 모든 원소의 자료형이 동일해야한다. 위의 이미지는 Numpy가 지원하는 data types다. Numpy가 지원하는 데이터 타입은 int, uint, intp, uintp, float, complex 등이 있고 몇..

001. 데이터 분석이란??

데이터 분석의 시작 현재 거의 모든 산업군에서 데이터 분석하는 인력이 필요하다. 그리고 코로나 사태 이후로 디지털 전환의 시대가 앞당겨지면서 인력 수요가 더 커졌다. 데이터를 이용한 로그 분석과 예측 분석은 이제 모든 분야에서 필수라고 여겨지는 것 같다. 이 분야에선 SQL, Python, R, Google Analytics, Firebase 등의 활용능력이 필요하다. 데이터를 어떻게 처리하고 분석을 통해 무엇을 얻고 얻은 결과를 어떻게 활용할 것인지가 핵심이다. 데이터 분석 과정은 데이터 수집 - 데이터 탐색 - 데이터 전처리 - 데이터 모델링으로 이뤄진다. 아마도 이 과정 대부분은 Python을 통해 이뤄지는 것 같다. 비즈니스 데이터 분석? 데이터 분석은 결국 데이터의 홍수 속에서 데이터를 알아보기..

728x90
반응형