블로그에서 robots.txt의 내용은 확인할 일이 있었습니다. 그래서 Robots.txt 파일에 대해서 알아보니 다음과 같습니다.
robots.txt 파일은 웹 사이트가 검색 엔진으로부터 로봇이나 크롤러 등의 프로그램에게 어떤 페이지를 인덱싱할 수 있는지를 지시하는 파일입니다. 이 파일은 웹 사이트의 루트 디렉터리에 위치하며, 검색 엔진 로봇이 해당 파일을 참고하여 웹 사이트를 크롤링할 때 어떤 페이지를 크롤링해야 하는지를 결정합니다.
robots.txt 파일에는 크롤러가 접근할 수 있는 디렉토리 및 파일의 경로를 지정할 수 있습니다. 또한 크롤러가 접근하지 말아야 하는 디렉터리나 파일도 지정할 수 있습니다. 이렇게 지정된 정보를 바탕으로 검색 엔진은 웹 페이지를 인덱싱 하는 데 사용할 수 있는 페이지와 사용할 수 없는 페이지를 결정합니다.
하지만, robots.txt 파일이 있다고 해서 반드시 그대로 따르는 것은 아닙니다. 악의적인 크롤러나 로봇은 이 파일을 무시하고 해당 사이트를 크롤링할 수 있습니다. 따라서, 중요한 페이지는 반드시 접근을 제한하는 방법을 사용해야 합니다.
<robots.txt>
User-agent: * Disallow: /owner Disallow: /guestbook Disallow: /m/guestbook Disallow: /manage Disallow: /admin Disallow: /oldadmin Disallow: /search Disallow: /m/search Disallow: /m/admin Disallow: /like Allow: / User-agent: Mediapartners-Google Allow: / User-agent: bingbot Crawl-delay: 30 |
그런데 위의 도표 중 알 수 없는 내용이 있어서 찾아보니 아래와 같은 의미가 있었습니다.
1. Crawl-delay의 의미
User-agent: bingbot
Crawl-delay: 30
이것은 웹 로봇 또는 "크롤러"가 웹 사이트의 어떤 페이지나 섹션을 액세스 하고 크롤링할 수 있는지에 대한 지시를 제공하기 위해 사용되는 "robots.txt" 파일의 일부입니다. "User-agent" 필드는 다음 지침이 적용되는 웹 크롤러를 지정합니다. 이 경우, 지침은 Bing 검색 엔진에서 사용하는 "bingbot" 크롤러에 적용됩니다.
"Crawl-delay" 필드는 웹 크롤러가 다음 페이지에 액세스 하고 액세스 하고 크롤링하기 전에 기다려야 할 초수를 지정합니다. 이 경우 "Crawl-delay: 30" 지시문은 "bingbot" 크롤러가 다음 페이지에 액세스 하고 크롤링하기 전에 30초 기다려야 함을 의미합니다. 이는 웹 사이트 서버의 부하를 줄이고 크롤러가 너무 많은 요청으로 웹 사이트를 압도하지 않도록 하는 데 사용될 수 있습니다.
2. User-agent: Mediapartners-Google의 의미
User-agent: Mediapartners-Google
Allow: /
이것은 Google AdSense 광고 프로그램에서 사용하는 "Mediapartners-Google" 크롤러에 대한 지침을 제공하기 위해 "robots.txt" 파일에서 사용되는 지시문입니다. "User-agent" 필드는 이 지시문이 "Mediapartners-Google" 크롤러에 대해 적용됨을 나타냅니다.
"Allow" 필드는 이 크롤러가 액세스 할 수 있는 URL 경로를 지정합니다. 이 경우, "/ " 경로는 이 크롤러가 웹 사이트의 모든 페이지에 액세스 할 수 있다는 것을 의미합니다.
Google AdSense 광고 프로그램은 광고 수익을 창출하기 위해 웹 사이트 소유자들이 사용하는 프로그램입니다. "Mediapartners-Google" 크롤러는 이 프로그램의 일환으로 사용되며, 웹 사이트의 내용을 분석하여 광고 적합성을 결정합니다.
3. Disallow: /owner의 의미
"Disallow: /owner"는 robots.txt 파일에 작성된 지시어 중 하나입니다. 이것은 로봇이 "owner"이라는 디렉토리나 폴더를 크롤링하지 말아야 한다는 것을 나타냅니다. 즉, 해당 디렉터리의 내용은 검색 엔진에 인덱싱 되지 않을 것입니다.
예를 들어, "https://www.example.com/owner" 라는 URL이 존재한다면, 이 URL의 페이지는 검색 엔진에 인덱싱 되지 않고 접근이 차단됩니다. 이것은 "owner" 디렉터리의 페이지가 중요한 정보를 담고 있거나, 보안 상 이슈가 있어 검색 엔진에 노출시키지 않고 싶을 때 사용됩니다.
'IT Tools' 카테고리의 다른 글
Linux에서 JDK 파일 다운로드 및 설치하기 (0) | 2023.04.04 |
---|---|
리눅스 부팅 시 PCI : Probing PCI hardware (bus:00)에서 멈추는 현상 해결 방법 (0) | 2023.04.04 |
linux에서 IP 변경하기 (0) | 2023.04.04 |
hyper-v의 ubuntu 안에서 해상도 변경하기 (0) | 2023.04.03 |
리눅스에서 사용자 또는 프로세스가 사용할 수 있는 자원 및 한계 확인 및 설정하기 (0) | 2023.03.30 |