http2로 통신하는 여부를 확인하는 또 다른 방법은 개발자 도구를 이용하는것이다.


F12를 통해서 개발자 도구를 실행시키면 Network 탭을 누르고 새로고침을 하면 다음과같은 창이 뜨는데


여기서 주황박스 위치를 우클릭하고 빨간 박스를 클릭하면 프로토콜을 볼 수 있다



google은 SPDY를 사용하고있는걸 확인 할 수 있다.






현재 보고있는 웹사이트가 http2(혹은 SPDY)를 지원하는지를 확인하고 싶으면


chrome 웹스토어에서 HTTP/2 and SPDY indicator를 통해서 확인하는게 가장 쉽다. (firefox에도 있는것같다)


해당 앱을 설치하면 우측 상단에 번개모양의 심볼이 생기는데


해당 심볼이 파란색이면 HTTP2를,


빨간색이면 SPDY를 지원한다.



둘 다 지원하지 않으면 아무색도 들어오지않는다.


크롤링을 이용해서 신문기사를 가져오거나, 웹툰의 덧글을 가져오거나 하는 행위정도는 이전 포스팅에서 다뤘다

하지만, 웹사이트 내용을 수집하는게 아니라 그 웹사이트를 통체로 수집하고 싶은 경우는 어떻게 해야할까?


방법은 여러가지가 있다.


1. 리눅스에서 wget을 이용하는경우. (옵션에따라 소스만 보거나, 페이지를 구성하는 자원을 다운로드 할 수 있다)


2. httrack을 이용하는경우. (윈도우, 맥, 리눅스 전부 지원)


3. selenium IDE를 이용한 경우 (http://seleniumhq.org/projects/ide/) 사실 이건 뭔지 잘 모르겠다....


4. 브라우저의 CTRL+S기능을 이용하는 경우. (selenium을 통해 자동화 가능)


대략 지금 생각나는건 이정도이다.


위 방법들은 스크랩하는 정도가 모두 다르다.

wget을 이용하면 HTML에 있는 <img src=... 부분은 긁어오는데 이전 포스팅에서 네이버에서 보여줬던 <img data-src... 부분은 긁어오지 못하거나...

httrack을 이용하면 zip파일도 생기고 알수없는 파일도 생기면서 속도 또한 느렸다.

CTRL + S를 이용하는 방법이 가장 완성도 높은 페이지를 긁어왔다.

(IE, chrome, firefox 등 브라우저에따라 다운받는게 다르다. 글쓴이는 chrome를 이용했다)

속도 또한 빠르고 <img data-src=...부분이나 css내부에서 background 부분도 긁어왔다.

(완성도의 여부는 스크랩해온 데이터를 인터넷 연결을 끊고 실행해서 확인했다)


만약 어떤 페이지 전체를 긁는 과정이 필요하다면 selenium을 통해서 key press로 CTRL+S를 통해서 스크랩하는게 가장 좋은 방법이라고 생각한다.

'crawling' 카테고리의 다른 글

crawler ( 혹은 crawling )  (0) 2016.10.09

+ Recent posts