robots.txt 파일은 웹 루트(최상위)에 위치해야합니다.
robots.txt 파일은 웹 루트에 위치해야합니다.
그래도 애드센스 크롤러가 robots.txt를 접근못할때가 있습니다.
파일자체 권한 문제 또는 서버호스팅 하는곳에서 해외 ip 차단 등의 원인을 예상해볼 수 있습니다.
robotst.txt는 어떤 크롤러라 사이트의 어느 부분에 엑세스 할 수 있는지에 관한 규칙이 포함된 텍스트 파일입니다.
크롤러 마다 robots.txt 파이를 캐싱해서 캐시된 버전을 규칙으로 크롤링 할 수 도 있습니다.
큰 이슈는 아닙니다.
● 다른 검색엔진의 로봇에 대하여 수집을 허용하지 않고 네이버 검색로봇만 수집 허용으로 설정합니다.
User-agent: *
Disallow: /
User-agent: Yeti
Allow: /
● 사이트의 루트 페이지만 수집 허용으로 설정합니다.
User-agent: *
Disallow: /
Allow: /$
● 관리자 페이지, 개인 정보 페이지와 같이 검색로봇 방문을 허용하면 안 되는 웹 페이지는 수집 비허용으로 설정해주세요. 아래 예제는 네이버 검색로봇에게 /private-image, /private-video 등은 수집하면 안 된다고 알려줍니다.
User-agent: Yeti
Disallow: /private*/
● 모든 검색로봇에게 사이트의 모든 페이지에 대하여 수집을 허용하지 않는다고 알려줍니다. 이 예제는 사이트의 어떠한 페이지도 수집 대상에 포함되지 않으므로 권장하지 않습니다.
User-agent: *
Disallow: /
● 모든 검색엔진의 로봇에 대하여 수집 허용으로 설정합니다.
User-agent: *
Allow: /
우리는 하나의 컨텐츠라도 검색엔진 로봇과 친해져야한다.
robots.txt 가 이렇게 설정되어 있어야 좋다.
User-agent: *
Allow: /