크롤링을 이용해서 신문기사를 가져오거나, 웹툰의 덧글을 가져오거나 하는 행위정도는 이전 포스팅에서 다뤘다
하지만, 웹사이트 내용을 수집하는게 아니라 그 웹사이트를 통체로 수집하고 싶은 경우는 어떻게 해야할까?
방법은 여러가지가 있다.
1. 리눅스에서 wget을 이용하는경우. (옵션에따라 소스만 보거나, 페이지를 구성하는 자원을 다운로드 할 수 있다)
2. httrack을 이용하는경우. (윈도우, 맥, 리눅스 전부 지원)
3. selenium IDE를 이용한 경우 (http://seleniumhq.org/projects/ide/) 사실 이건 뭔지 잘 모르겠다....
4. 브라우저의 CTRL+S기능을 이용하는 경우. (selenium을 통해 자동화 가능)
대략 지금 생각나는건 이정도이다.
위 방법들은 스크랩하는 정도가 모두 다르다.
wget을 이용하면 HTML에 있는 <img src=... 부분은 긁어오는데 이전 포스팅에서 네이버에서 보여줬던 <img data-src... 부분은 긁어오지 못하거나...
httrack을 이용하면 zip파일도 생기고 알수없는 파일도 생기면서 속도 또한 느렸다.
CTRL + S를 이용하는 방법이 가장 완성도 높은 페이지를 긁어왔다.
(IE, chrome, firefox 등 브라우저에따라 다운받는게 다르다. 글쓴이는 chrome를 이용했다)
속도 또한 빠르고 <img data-src=...부분이나 css내부에서 background 부분도 긁어왔다.
(완성도의 여부는 스크랩해온 데이터를 인터넷 연결을 끊고 실행해서 확인했다)
만약 어떤 페이지 전체를 긁는 과정이 필요하다면 selenium을 통해서 key press로 CTRL+S를 통해서 스크랩하는게 가장 좋은 방법이라고 생각한다.
'crawling' 카테고리의 다른 글
crawler ( 혹은 crawling ) (0) | 2016.10.09 |
---|