구글봇의 IP주소 리스트 – 참고 자료
|구글봇이란?
구글봇이라고 하면 소프트웨어 프로그램이라고 생각 할 수 있습니다.
간단히 설명하면 그냥 우리가 크롬브라우저를 사용하듯이 이러한 브라우저의 종류라고 생각하는 것이 이해를 돕기에 편할 것 같습니다.
우리가 어떠한 홈페이지를 접속하듯이 구글도 브라우저 처럼 어떠한 사이트의 페이지를 접속하고 내용을 받아 자신의 서버에 저장한다고 보면 됩니다.
구글봇에 대한 내용은 하기의 구글웹마스터 가이드에 나온 정의 가 있으니 참고 바랍니다.
GoogleBot
https://support.google.com/webmasters/answer/182072?hl=ko
Googlebot은 Google의 웹 크롤링 봇으로 ‘스파이더’라고 불리기도 합니다. 크롤링은 Googlebot이 새로운 페이지 및 업데이트된 페이지를 찾아 Google 색인에 추가하는 과정입니다.Google은 다양한 종류의 컴퓨터를 사용하여 수십억 개의 웹페이지를 가져옵니다. 이 작업을 크롤링한다고도 합니다. Googlebot은 알고리즘 과정을 사용하므로 컴퓨터 프로그램에서 크롤링할 사이트, 크롤링 횟수 및 각 사이트에서 가져올 페이지 수를 결정합니다.
Googlebot의 크롤링은 이전 크롤링 과정에서 생성되고 웹마스터가 제공한 사이트맵 데이터가 추가된 웹페이지 URL 목록으로 시작합니다. Googlebot은 이러한 웹사이트를 방문할 때 각 페이지의 링크(SRC 및 HREF)를 감지하여, 크롤링할 페이지 목록에 추가합니다. 이렇게 파악된 새 사이트, 기존 사이트의 변경사항 및 비활성 링크에 따라 Google 색인이 업데이트됩니다.
구글봇의 IP주소
구글봇은 자신의 고유한 IP를 가지고 있습니다.
이 IP주소는 정보를 수집하는 구글봇이 있는 컴퓨터의 위치라고 생각하면 될것 같습니다.
전세계적으로 다양한 곳에서 온라인상에 있는 모든 사이트를 구글봇이 접속하여 자료를 받아서 자신의 서버에 보관하게 되는데요.
이러한 구글봇의 활동의 근거가 되는 IP 리스트를 어찌하다보니 알게되어 표시하여 봅니다.
실제로 확보된 IP는 1천개 이상입니다만, 지면의 길이상 몇개만 공유합니다.
allow from 211.233.0.0/18
allow from 1.11.0.0/16
allow from 1.16.0.0/14
allow from 1.96.0.0/12
allow from 1.176.0.0/15
allow from 1.201.0.0/16
allow from 1.208.0.0/12
allow from 1.224.0.0/11
allow from 14.0.32.0/19
~
allow from 223.130.64.0/18
allow from 223.130.128.0/17
allow from 223.131.0.0/16
allow from 223.165.128.0/17
allow from 223.168.0.0/13
allow from 223.194.0.0/15
allow from 223.222.0.0/16
allow from 223.253.0.0/16
allow from 223.255.192.0/19
구글봇의 IP차단 및 그 결과
가끔씩 구글봇의 접속을 서버단에서 차단하는 경우가 있습니다.
그 배경을 보면 서버에 과중한 부하를 준다던지, 서버의 리소스를 많이 사용하기 때문이라고 합니다.
하지만, 이렇게 구글봇의 IP를 차단함으로서 구글은 이 사이트에 대하여 검색결과에서 삭제해 버리는 결과를 가져올 수 있습니다.
따라서 구글봇의 접속을 차단하는 것은 그다지 좋지 않은 방법입니다.
구글봇은 상기의 URL에 접속해보면 자신의 서버에 부하를 주지 않을 정도의 속도로 자동으로 크롤링해 갈 수 있도록 프로그램되어있다고 합니다.
크롤링 빈도나 용량에 대하여도 자동으로 셋팅된 것 같습니다.
하지만 이것은 절대적으로 구글이 서버의 상황을 이해 할 수 없기 때문에 가끔씩 서버측에서 과하다고 생각하면 자동으로 IP를 차단하도록 설정하게 되어있어 사이트측에 큰 피해를 입는 경우도 종종 있는듯 합니다.
그 외에도 저녁시간에 해외에서 들어오는 IP를 차단한다거나 하는 등의 일도 있을수 있습니다.
그것도 그나마 사이트측에서 신경을 쓰고 있는 때나 잡아 낼 수 있지 그렇지 않다면 모르고 넘어가는 경우도 비일비재할 것입니다.
서버쪽에서의 원활한 대응이 중요하기도 하고, 사이트 관리자 또한 항상 관심을 가지고 체크해야할 영역이라고 보여집니다.