상세 컨텐츠

본문 제목

Python Scrapy Framework installation.

개발생활/Python

by 코보소 2020. 3. 7. 23:45

본문

반응형

Python crawling 


What is Crawling ? 

 

크롤링이란 무엇인가요?



crawling : [Computing] : 소프트웨어 따위가 웹을 돌아다니며 유용한 정보를 찾아 특정 데이터베이스로 수집해 오는 작업. 또는 그러한 기술.

(Naver 사전)



웹 크롤링을 하는이유

웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.

웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다.

( Wiki  )




파이썬 Scrapy 프레임워크를 사용합니다.

 

 

Disadvantages

  • Scrapy is only for Python 2.7. +

  • Installation is different for different operating systems.

 

Python Scrapy는 2.xxx 버전에 최적화 된다고 합니다. 3버전은 정상작동하지 않을수 있습니다.



Scrapy 에 관한 정보는 아래 링크에서 확인할수 있습니다.

https://www.tutorialspoint.com/scrapy/index.htm

 

Scrapy Tutorial - Tutorialspoint

Scrapy Tutorial Scrapy is a fast, open-source web crawling framework written in Python, used to extract the data from the web page with the help of selectors based on XPath. Audience This tutorial is designed for software programmers who need to learn Scra

www.tutorialspoint.com

 

pip 를이용하여 Scrapy framework를 설치합니다.



pip를 이용하여 설치하는 방법은 아래와 같습니다.

 

pip install Scrapy



만약 error 메시지가 발생한다면 파이썬 환경변수 지정이 안되서 그렇습니다. 

 


환경변수 세팅




1. 시작 -> 환경 변수 검색 

 

시스템 환경변수를 클릭한뒤,  환경변수를 클릭합니다.

 

 



Path를 찾아  더블클릭합니다.

 



그리고 , 파이썬 이 설치된 경로를 추가해줍니다.

 

1. 파이썬의 설치 디렉토리

 

2. 파이썬 스크립트 디렉토리를 추가해줍니다.

 





환경변수 설정완료!

 

pip가 정상설치되었는지 확인해봅니다.

 

pip

 

 

아래와같이 나온다면 정상 작동하는것입니다.



 

 



그리고 scrapy framework를 설치해줍니다.

 

pip install Scrapy

 





마지막으로 프레임워크가 정상 작동하는지

 

커맨드 라인으로 확인해봅니다.

 

$python

import scrapy

 

 

Scrapy Framework를 정상 설치되었습니다.

 

다음 강의에서 Scrapy를 이용해보도록 하겠습니다.

 

 

UnicodeDecodeError 해결하는방법

 

 

https://orcacode.tistory.com/entry/Windows-pip%EC%97%90%EC%84%9C-UnicodeDecodeError-%ED%95%B4%EA%B2%B0%ED%95%98%EB%8A%94%EB%B2%95

 

Windows pip에서 UnicodeDecodeError 해결하는 방법

지금은 좀 지난 일이지만 페스트 캠퍼스라는 곳에서 '업무 자동화를 위한 Python'이라는 강의에 조교 알바로 일했던 적이 있다. 두 번 정도 했는데 강사님이 앞에서 수업하시는 동안 수강생분들이 손을 들면 찾아..

orcacode.tistory.com

 

 

 

반응형

관련글 더보기

댓글 영역