전지적 개발자 시점

web page 스크랩 (full download)

2016. 10. 9. 21:19

크롤링을 이용해서 신문기사를 가져오거나, 웹툰의 덧글을 가져오거나 하는 행위정도는 이전 포스팅에서 다뤘다

하지만, 웹사이트 내용을 수집하는게 아니라 그 웹사이트를 통체로 수집하고 싶은 경우는 어떻게 해야할까?

방법은 여러가지가 있다.

1. 리눅스에서 wget을 이용하는경우. (옵션에따라 소스만 보거나, 페이지를 구성하는 자원을 다운로드 할 수 있다)

2. httrack을 이용하는경우. (윈도우, 맥, 리눅스 전부 지원)

3. selenium IDE를 이용한 경우 (http://seleniumhq.org/projects/ide/) 사실 이건 뭔지 잘 모르겠다....

4. 브라우저의 CTRL+S기능을 이용하는 경우. (selenium을 통해 자동화 가능)

대략 지금 생각나는건 이정도이다.

위 방법들은 스크랩하는 정도가 모두 다르다.

wget을 이용하면 HTML에 있는 <img src=... 부분은 긁어오는데 이전 포스팅에서 네이버에서 보여줬던 <img data-src... 부분은 긁어오지 못하거나...

httrack을 이용하면 zip파일도 생기고 알수없는 파일도 생기면서 속도 또한 느렸다.

CTRL + S를 이용하는 방법이 가장 완성도 높은 페이지를 긁어왔다.

(IE, chrome, firefox 등 브라우저에따라 다운받는게 다르다. 글쓴이는 chrome를 이용했다)

속도 또한 빠르고 <img data-src=...부분이나 css내부에서 background 부분도 긁어왔다.

(완성도의 여부는 스크랩해온 데이터를 인터넷 연결을 끊고 실행해서 확인했다)

만약 어떤 페이지 전체를 긁는 과정이 필요하다면 selenium을 통해서 key press로 CTRL+S를 통해서 스크랩하는게 가장 좋은 방법이라고 생각한다.

crawler ( 혹은 crawling ) (0)	2016.10.09