파이썬을 이용합 웹 크롤링과 스크레이핑 학습
1. 크롤러
> 웹 페이지의 정보를 추출하기 위한 프로그램
2. RSS 리더
> 사람 대신 크롤러가 RSS 피드를 확인하고, 변경 사항이 있는 경우에 알려줌.
> SNS에서 웹페이지 URL을 공유하면 페이지의 제목과 이미지를 미리 보기로 출력해 주는데, 이것도 크롤러가 해당 페이지를 방문해서 관련된 정보를 추출하기 때문에 가능하다.
3. 크롤링
> 크롤러를 사용하여 데이터를 수집하는 것
4. 스크레이핑
> 웹 페이지에서 필요한 정보를 추출하는 작업
> 다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업
5. 크롤링과 스크레이핑 분야에서 사용되는 라이브러리/프레임워크
> lxml, Beautiful Soup, Scrapy 등
> 서드파티 라이브러리
6. 우분투에서 wget 설치하기
> sudo apt-get update
> sudo apt-get install -y wget
7. wget 사용법
> wget URL / 이미지
8. 자주 사용되는 wget 옵션
> -V, --version : 버전 확인
> -h, --help : 도움말 출력
> -q, --quiet : 진행 상황 등을 출력하지 않음
> -O file명 : file에 저장
> -c, --continue : 이전 상태에서 계속 이어서 파일을 다운로드
> -l depth, --level=<depth> : 재귀적으로 다운로드할 때 링크의 순회 깊이를 depth만큼으로 제한
> -w <seconds>, --wait=<seconds> : 재귀적으로 다운로드할 때 다운로드 간격을 seconds 초로 지정
'자기개발 > TIL' 카테고리의 다른 글
TIL(Today I Learned) 20200904 (0) | 2020.09.04 |
---|---|
TIL(Today I Learned) 20200903 (0) | 2020.09.03 |
TIL(Today I Learned) 20200902 (0) | 2020.09.02 |
TIL(Today I Learned) 20200901 (0) | 2020.09.01 |
TIL(Today I Learned) 20200831 (0) | 2020.08.31 |
TIL(Today I Learned) 20200829 (0) | 2020.08.30 |
TIL(Today I Learned) 20200828 (0) | 2020.08.28 |
TIL(Today I Learned) 20200827 (0) | 2020.08.28 |
최근댓글