What is Crawling ?
크롤링이란 무엇인가요?
crawling : [Computing] : 소프트웨어 따위가 웹을 돌아다니며 유용한 정보를 찾아 특정 데이터베이스로 수집해 오는 작업. 또는 그러한 기술.
(Naver 사전)
웹 크롤링을 하는이유
웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.
웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다.
( Wiki )
파이썬 Scrapy 프레임워크를 사용합니다.
Scrapy is only for Python 2.7. +
Installation is different for different operating systems.
Python Scrapy는 2.xxx 버전에 최적화 된다고 합니다. 3버전은 정상작동하지 않을수 있습니다.
Scrapy 에 관한 정보는 아래 링크에서 확인할수 있습니다.
https://www.tutorialspoint.com/scrapy/index.htm
pip 를이용하여 Scrapy framework를 설치합니다.
pip를 이용하여 설치하는 방법은 아래와 같습니다.
pip install Scrapy
만약 error 메시지가 발생한다면 파이썬 환경변수 지정이 안되서 그렇습니다.
1. 시작 -> 환경 변수 검색
시스템 환경변수를 클릭한뒤, 환경변수를 클릭합니다.
Path를 찾아 더블클릭합니다.
그리고 , 파이썬 이 설치된 경로를 추가해줍니다.
1. 파이썬의 설치 디렉토리
2. 파이썬 스크립트 디렉토리를 추가해줍니다.
환경변수 설정완료!
pip가 정상설치되었는지 확인해봅니다.
pip
아래와같이 나온다면 정상 작동하는것입니다.
그리고 scrapy framework를 설치해줍니다.
pip install Scrapy
마지막으로 프레임워크가 정상 작동하는지
커맨드 라인으로 확인해봅니다.
$python
import scrapy
Scrapy Framework를 정상 설치되었습니다.
다음 강의에서 Scrapy를 이용해보도록 하겠습니다.
UnicodeDecodeError 해결하는방법
python 소스코드 형식에서 한글이 안되는이유 (0) | 2020.07.23 |
---|---|
누구나 파이썬 -8 [ Class 2 , except ] (0) | 2020.02.23 |
누구나 파이썬 -7 (Class 기본 -1 ) (0) | 2020.02.12 |
누구나 파이썬 -6 (Module , file I/O , 코딩스타일) (0) | 2020.01.10 |
누구나 파이썬 -5(함수 -2 , 리스트 언패킹, 딕셔너리 자료형 , * Asterisk) (0) | 2020.01.02 |
누구나 파이썬 -4 (사용자입력, 반복문[while], 함수-1) (0) | 2020.01.02 |