반응형

안녕하세요, 츄르 사려고 코딩하는 집사! 코집사입니다.


파이썬을 이용합 웹 크롤링과 스크레이핑 학습


1. 크롤러
> 웹 페이지의 정보를 추출하기 위한 프로그램

2. RSS 리더
> 사람 대신 크롤러가 RSS 피드를 확인하고, 변경 사항이 있는 경우에 알려줌.
> SNS에서 웹페이지 URL을 공유하면 페이지의 제목과 이미지를 미리 보기로 출력해 주는데, 이것도 크롤러가 해당 페이지를 방문해서 관련된 정보를 추출하기 때문에 가능하다.

3. 크롤링
> 크롤러를 사용하여 데이터를 수집하는 것

4. 스크레이핑
> 웹 페이지에서 필요한 정보를 추출하는 작업
> 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업

5. 크롤링과 스크레이핑 분야에서 사용되는 라이브러리/프레임워크
> lxml, Beautiful Soup, Scrapy 등
> 서드파티 라이브러리

6. 우분투에서 wget 설치하기

> sudo apt-get update
> sudo apt-get install -y wget

7. wget 사용법
> wget URL / 이미지

8. 자주 사용되는 wget 옵션

> -V, --version : 버전 확인

> -h, --help : 도움말 출력

> -q, --quiet : 진행 상황 등을 출력하지 않음

> -O file명 : file에 저장

> -c, --continue : 이전 상태에서 계속 이어서 파일을 다운로드

> -l depth, --level=<depth> : 재귀적으로 다운로드할 때 링크의 순회 깊이를 depth만큼으로 제한

> -w <seconds>, --wait=<seconds> : 재귀적으로 다운로드할 때 다운로드 간격을 seconds 초로 지정

 

 

반응형

'자기개발 > TIL' 카테고리의 다른 글

TIL(Today I Learned) 20200904  (0) 2020.09.04
TIL(Today I Learned) 20200903  (0) 2020.09.03
TIL(Today I Learned) 20200902  (0) 2020.09.02
TIL(Today I Learned) 20200901  (0) 2020.09.01
TIL(Today I Learned) 20200831  (0) 2020.08.31
TIL(Today I Learned) 20200829  (0) 2020.08.30
TIL(Today I Learned) 20200828  (0) 2020.08.28
TIL(Today I Learned) 20200827  (0) 2020.08.28
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기