본문 바로가기
SEO(검색엔진최적화)

구글 서치콘솔에서의 페이지 색인 데이터 이해하기

by HiSeoSem 2024. 2. 12.

구글 서치콘솔에서의 페이지 색인 데이터 이해하기  ||  SEO(검색엔진최적화)

블로그든 일반 웹사이트이든 쇼핑몰이든 구글이나 네이버검색에서의 노출을위해서는 기본적으로 해당 페이지들이 각 검색엔진에 색인이 되어 있어야합니다.

그래서 색인여부를 판단하기 위해 보통은 site:google.com과 같은 패턴으로 검색해서 파악하게 되는데 이 방법은 대략적으로 판단하는 방법이고 명확하지도 않습니다.

하지만 루틴하게 이 방법을 사용하다가 급격한 부정적 변화가 감지된다면 부리나케 웹마스터도구나 서치콘솔을 방문하게 됩니다.

이 때 구글을 예로 들자면 서치콘솔 > 페이지 항목을 점검하게 되는데요.

들어가 보면 아래와 같이 다양한 색인이 안된 사유들을 보여주고 있습니다.(본인의 티스토리 블로그를 예로 들었습니다.)

구글 서치콘솔 페이지수집
구글 서치콘솔 미색인사유
구글 서치콘솔 미색인사유
구글 서치콘솔 미색인사유

보통 유저들은 위 그림 중에서 페이지 > 알려진 모든 페이지(디폴트)의 미색인 사유 데이터들을 보면서 뭔가 심각한 것이 아닌가하고 염려하는 분들이 많은 것 같습니다.

그런데 위 그림에서 알려진 모든 페이지의 데이터는 "제출된 모든 페이지 + 제출되지 않은 페이지만"과 동일해서 실제 점검해야할 곳은 보통은 #제출된 모든 페이지탭을  선택한 후 점검하는 것이 바람직합니다.

즉, 티스토리블로그라면 xml사이트맵이나 rss를 통해 제출한 url들만 제대로 색인되면 큰 문제가 안되기 때문입니다.

(주의: xml사이트맵을 통해 일부 url들만 제출하는 쇼핑몰이나 다른 사이트의 경우에는 "알려진 모든 페이지" 탭에서 점검하는 것이 바람직합니다.) 

이 이유를 설명하기위해

"제출되지 않은 페이지만" 데이터에 있는 사유들을 하나하나 클릭해보겠습니다.

아래는 1) "적절한 태그가 포함된 대체 페이지"사유의 url들입니다.

구글 서치콘솔 미색인url

 제 블로그의 숫자 구조가 아닌 /글제목패턴으로 운영하고 있고 이들을 canonical url로 지정하고 있어서 위 그림과 같은 url들은 색인이 안되어도 무방합니다.(만일 숫자형식으로 운영하는 분들은 저와 반대모습을 보일 것입니다.)

그런데 위 그림에서 눈에 띄는 부분이 https://hiseosem.tistory.com/m/15505498https://hiseosem.tistory.com/15505498

인데요. 내용은 똑 같은데 하나는 Mobile url이고 하나는 pc url입니다.

실제로 본 블로그는 반응형으로 운영하고 있고 글제목을 url로 사용하고 있어서 둘 다 불필요하지만 티스토리 속성상 해당 url들이 구글봇에 크롤링을 허용하고 있어서 불가피하게 위 데이터에 나오고 있습니다.

특히나 모바일url에서의 canonical url을 /숫자로 지정해주는 티스토리 자체의 버그때문에 구글봇에게 더욱 혼란을 주고 있습니다.

이쨋든 블로그주인 입장에서 실제 운영하는 url인  https://hiseosem.tistory.com/entry/%EC%98%81%EC%96%B4%EB%85%BC%EB%AC%B8%EB%93%B1-%EC%98%81%EB%AC%B8%EC%84%9C%EB%A5%98%EC%9D%98-%EA%B5%90%EC%A0%95%EC%9D%98-%EC%9D%98%EB%AF%B8Proofreading-or-Editing-15505498 만 색인되어 있으면 됩니다.

이를 확인하기 위해 url검사를 해보았습니다.

구글 서치콘솔 색인

색인이 되어있네요.

결국 첫번째 미색인 사유는 특별히 염려할 필요가 없습니다.

그 다음

2) 찾을 수 없음(404)항목입니다.

구글 서치콘솔 미색인url

딱 보니 다음블로그에서 이전해오면서 한 동안 공개 했던 카테고리의 글들로 애드센스를 신청하면서 비공개로 전환한 글들입니다. 

구글 서치콘솔 404

이런 페이지들입니다. 

무시해도 되겠네요.

(참조: 이런 페이지들은 모두가 404응답을 주고 있는 것이 아니라 일부는 403응답에서도 위 그림과 같은 문구를 보여주고 있습니다.)

그 다음 3) 엑세스금지(403)로 인해 차단됨 사유의 페이지들입니다. 

구글 서치콘솔 미색인url

 위 와 같은 이유로 2) 찾을 수 없음(404) 처럼 역시 무시해도 됩니다.

그 다음 4) 리디렉션이 포함된 페이지 입니다.

구글 서치콘솔 미색인url

역시 숫자url에 변수까지 추가 된 불필요한/무시할 수 있는 url입니다.

(참조: 보통 이 항목과 관련해서 질문을 많이 하는데 보통은 이는 SC계정의 속성(http/https 또는 www/non-www)과 관련이 있거나 내외부 링크에서의 http/https관련이슈들로 대부분은 무시해도 되는 경우가 많고 관련 링크들을 수정하면 개선됩니다.)

마지막으로

5) 크롤링됨 - 현재 색인이 생성되지 않음 항목입니다.

구글 서치콘솔 미색인url

크롤링됨 - 현재 색인이 생성되지 않음 항목은 사실 좀 더 중요하게 봐야 할 항목입니다.

그림으로 봐서 구글봇이 url을 발견해서 크롤링까지 했는데 색인시켜주기에는 뭔가 이슈가 있다는 것인데 특히 태그페이지는 일종의 카테고리 페이지라 할 수 있는것이어서 색인해주면 단일 페이지나 글에 비해 더욱 좋은 경우들이 많습니다.

그래서 https://hiseosem.tistory.com/tag/포탈 의 미색인 사유를 보겠습니다.

"포탈"을 태그로 지정한 글이 달랑 한개의 글 뿐입니다. 

일종의 저품질 페이지(a.k.a. thin content)입니다. 충분히 미색인사유(아래 상세 나열)로 수긍할만한 url입니다.

https://hiseosem.tistory.com/tag/영문교정 처럼 여러 글에 태깅된 url을 리스팅하고 있는 페이지는 색인되어 있습니다.

(이런 의미에서 저는 항상 티스토리든, 워드프레스든, 구글블로그든 태그지정을 무작정 많이 하지 말라고 권하고 있습니다.)

결국 #제출되지 않은 페이지쪽에서의 url들은 대부분 무시해도 될 상황이고 그냥 그렇구나 하고 이해만 하면 될 정도입니다.

 

그 다음 #제출된 모든 페이지 쪽을 보겠습니다.

이 항목은 색인해달라고 xml사이트맵이나 rss를 통해 제출한 url들이어서 역시 주시해야할 항목입니다.

1) "적절한 태그가 포함된 대체 페이지"사유의 url들입니다.

구글 서치콘솔 미색인url

위 두 개의 url을 보니 카테고리 페이지입니다.

그런데 이 페이지들은 둘 다 <link rel="canonical" href="https://hiseosem.tistory.com"/> 로 표준 url지정이 메인으로 잘못 지정되어 있어서 그림과 같은 알람을 주고 있습니다.

티스토리 자체버그여서 블로거가 어떻게 할 수 없는 알림입니다.

그 다음 2) robots.txt에 의해 차단됨 항목입니다.

https://hiseosem.tistory.com/guestbook 이 하나 보입니다.

이 url은 robots.txt에서 User-agent: *Disallow: /guestbook 로 차단하고 있어서 당연한 알람으로 그냥 이해하고 무시하면 됩니다.

 

3) 발견됨 -  현재 색인이 생성되지 않음

이 부분은 구글에서는  "Google에서 페이지를 발견했지만 페이지가 아직 크롤링되지 않았습니다. 일반적으로 Google에서 URL을 크롤링하려고 했지만 이로 인해 사이트가 과부하 상태가 될 수 있기 때문에 Google에서 크롤링 일정을 변경한 경우입니다. 그렇기 때문에 보고서에 마지막 크롤링 날짜가 비어 있는 것입니다."라고 설명하고 있습니다.

저는 이 항목에서 url수가 118개나 됩니다.

구글 서치콘솔 미색인url

적지 않은 수입니다.

비공개 글과 다음블로그 글들이 혼재되어 있고 개별 url들을 검색해보면 여전히 daum 블로그url들을 참조하고 있습니다.

실제 site:blog.daum.net/아이디 로 검색해보면 여전히 일부는 색인이 되어 있습니다.

이러한 수치는 위 그림처럼 차차 줄어들고는 있으나 여전해서 일부 url들에 대해서는 검사 후 색인요청을 할만합니다.

4) 크롤링됨 - 현재 색인이 생성되지 않음

가장 중요시해야할 알람으로 이 부분은 구글에서는 "Google에서 페이지를 크롤링했지만 색인은 생성되지 않았습니다. 이후에 색인이 생성될 수도 있고 생성되지 않을 수도 있습니다. 크롤링을 위해 이 URL을 다시 제출할 필요는 없습니다."라고 설명하고 있습니다.

좀 애매한 설명인데요. 많은 분들이 이 부분을 잘 이해하지 못하고 그냥 url검사 후 다시 수집요청을 하는 항목입니다.

보다 자세히 설명한다면 경험상 이 페이지들은 대부분 콘텐츠품질에 문제가 있거나 다른 글들과 유사성이 많거나 url이 깨져있거나 이미지가 깨져있거나 레이아웃이 유저로 하여금 숨막히게하거나 아니면 구글서버실정 등 구글입장에서도 핑곗거리는 많습니다.

따라서 반드시 이런 부분을 개선한 후 url 검사 > 수집요청을 하는 것이 바람직하고 이런 작업이 불가하다면 그냥 놔두어도 무방합니다.(저품질이라 판단하더라도 추후 내외부요인에 의해 중요도가 높다고 판단하면 색인될 수도 있습니다.)

구글 서치콘솔 미색인url

 

저 같은 경우는 이미지 액박이나 저품질 페이지들이었습니다.

 

최종 결론은

1) 우선 서치콘솔 > 페이지 에 대한 이해는 https://support.google.com/webmasters/answer/7440203 를 숙지하여야 하고
    대부분의 미색인 사유는 내가 뭔가 잘못했다는 것이 아니고 일단 알고 있어라 하는 알림으로 이해하는 것이 바람직합니다.
2) 보통은 "제출된 모든 페이지"탭에서 점검하되(국내 솔루션의 쇼핑몰 등 xml/rss제출이 부실한 경우는 예외) 여기에서의 항목 중에서 " 발견됨 -  현재 색인이 생성되지 않음" 과 " 크롤링됨 - 현재 색인이 생성되지 않음"을 중심으로 점검하되 무조건 색인요청을 하지말고 반드시 관련 이슈를 개선한 후 ur검사 > 페이지수집요청을 하면 될 것입니다.

 

 ### 본 글은 Google 검색커뮤니티에도 전재되어 있습니다.

  https://support.google.com/webmasters/community-guide/260694553/구글-서치콘솔에서의-페이지-색인-데이터-이해하기?hl=ko

 

추가) 연관 글입니다. https://hiseosem.tistory.com/entry/네이버나-구글에서-수동으로-페이지url수집요청하기-자주하면-좋을까

반응형

댓글