본문 바로가기
IT Tools

Robots.txt 대해서 알아봐요.

by lucidiz 2023. 4. 2.
반응형

google robot
google robot

블로그에서  robots.txt의 내용은 확인할 일이 있었습니다. 그래서 Robots.txt 파일에 대해서 알아보니 다음과 같습니다.

 

robots.txt 파일은 웹 사이트가 검색 엔진으로부터 로봇이나 크롤러 등의 프로그램에게 어떤 페이지를 인덱싱할 수 있는지를 지시하는 파일입니다. 이 파일은 웹 사이트의 루트 디렉터리에 위치하며, 검색 엔진 로봇이 해당 파일을 참고하여 웹 사이트를 크롤링할 때 어떤 페이지를 크롤링해야 하는지를 결정합니다.

robots.txt 파일에는 크롤러가 접근할 수 있는 디렉토리 및 파일의 경로를 지정할 수 있습니다. 또한 크롤러가 접근하지 말아야 하는 디렉터리나 파일도 지정할 수 있습니다. 이렇게 지정된 정보를 바탕으로 검색 엔진은 웹 페이지를 인덱싱 하는 데 사용할 수 있는 페이지와 사용할 수 없는 페이지를 결정합니다.

하지만, robots.txt 파일이 있다고 해서 반드시 그대로 따르는 것은 아닙니다. 악의적인 크롤러나 로봇은 이 파일을 무시하고 해당 사이트를 크롤링할 수 있습니다. 따라서, 중요한 페이지는 반드시 접근을 제한하는 방법을 사용해야 합니다.

 

<robots.txt>

User-agent: *
Disallow: /owner
Disallow: /guestbook
Disallow: /m/guestbook
Disallow: /manage
Disallow: /admin
Disallow: /oldadmin
Disallow: /search
Disallow: /m/search
Disallow: /m/admin
Disallow: /like
Allow: /

User-agent: Mediapartners-Google
Allow: /

User-agent: bingbot
Crawl-delay: 30

 

그런데 위의 도표 중 알 수 없는 내용이 있어서 찾아보니 아래와 같은 의미가 있었습니다.

 

1. Crawl-delay의 의미

User-agent: bingbot
Crawl-delay: 30

이것은 웹 로봇 또는 "크롤러"가 웹 사이트의 어떤 페이지나 섹션을 액세스 하고 크롤링할 수 있는지에 대한 지시를 제공하기 위해 사용되는 "robots.txt" 파일의 일부입니다. "User-agent" 필드는 다음 지침이 적용되는 웹 크롤러를 지정합니다. 이 경우, 지침은 Bing 검색 엔진에서 사용하는 "bingbot" 크롤러에 적용됩니다.

"Crawl-delay" 필드는 웹 크롤러가 다음 페이지에 액세스 하고 액세스 하고 크롤링하기 전에 기다려야 할 초수를 지정합니다. 이 경우 "Crawl-delay: 30" 지시문은 "bingbot" 크롤러가 다음 페이지에 액세스 하고 크롤링하기 전에 30초 기다려야 함을 의미합니다. 이는 웹 사이트 서버의 부하를 줄이고 크롤러가 너무 많은 요청으로 웹 사이트를 압도하지 않도록 하는 데 사용될 수 있습니다.

2. User-agent: Mediapartners-Google의 의미

User-agent: Mediapartners-Google
Allow: /

이것은 Google AdSense 광고 프로그램에서 사용하는 "Mediapartners-Google" 크롤러에 대한 지침을 제공하기 위해 "robots.txt" 파일에서 사용되는 지시문입니다. "User-agent" 필드는 이 지시문이 "Mediapartners-Google" 크롤러에 대해 적용됨을 나타냅니다.

"Allow" 필드는 이 크롤러가 액세스 할 수 있는 URL 경로를 지정합니다. 이 경우, "/ " 경로는 이 크롤러가 웹 사이트의 모든 페이지에 액세스 할 수 있다는 것을 의미합니다.

Google AdSense 광고 프로그램은 광고 수익을 창출하기 위해 웹 사이트 소유자들이 사용하는 프로그램입니다. "Mediapartners-Google" 크롤러는 이 프로그램의 일환으로 사용되며, 웹 사이트의 내용을 분석하여 광고 적합성을 결정합니다.

 

3. Disallow: /owner의 의미

 

"Disallow: /owner"는 robots.txt 파일에 작성된 지시어 중 하나입니다. 이것은 로봇이 "owner"이라는 디렉토리나 폴더를 크롤링하지 말아야 한다는 것을 나타냅니다. 즉, 해당 디렉터리의 내용은 검색 엔진에 인덱싱 되지 않을 것입니다.

예를 들어, "https://www.example.com/owner" 라는 URL이 존재한다면, 이 URL의 페이지는 검색 엔진에 인덱싱 되지 않고 접근이 차단됩니다. 이것은 "owner" 디렉터리의 페이지가 중요한 정보를 담고 있거나, 보안 상 이슈가 있어 검색 엔진에 노출시키지 않고 싶을 때 사용됩니다.

반응형