구글 서치콘솔에서의 페이지 색인 데이터 이해하기 || SEO(검색엔진최적화)
블로그든 일반 웹사이트이든 쇼핑몰이든 구글이나 네이버검색에서의 노출을위해서는 기본적으로 해당 페이지들이 각 검색엔진에 색인이 되어 있어야합니다.
그래서 색인여부를 판단하기 위해 보통은 site:google.com과 같은 패턴으로 검색해서 파악하게 되는데 이 방법은 대략적으로 판단하는 방법이고 명확하지도 않습니다.
하지만 루틴하게 이 방법을 사용하다가 급격한 부정적 변화가 감지된다면 부리나케 웹마스터도구나 서치콘솔을 방문하게 됩니다.
이 때 구글을 예로 들자면 서치콘솔 > 페이지 항목을 점검하게 되는데요.
들어가 보면 아래와 같이 다양한 색인이 안된 사유들을 보여주고 있습니다.(본인의 티스토리 블로그를 예로 들었습니다.)
보통 유저들은 위 그림 중에서 페이지 > 알려진 모든 페이지(디폴트)의 미색인 사유 데이터들을 보면서 뭔가 심각한 것이 아닌가하고 염려하는 분들이 많은 것 같습니다.
그런데 위 그림에서 알려진 모든 페이지의 데이터는 "제출된 모든 페이지 + 제출되지 않은 페이지만"과 동일해서 실제 점검해야할 곳은 보통은 #제출된 모든 페이지탭을 선택한 후 점검하는 것이 바람직합니다.
즉, 티스토리블로그라면 xml사이트맵이나 rss를 통해 제출한 url들만 제대로 색인되면 큰 문제가 안되기 때문입니다.
(주의: xml사이트맵을 통해 일부 url들만 제출하는 쇼핑몰이나 다른 사이트의 경우에는 "알려진 모든 페이지" 탭에서 점검하는 것이 바람직합니다.)
이 이유를 설명하기위해
"제출되지 않은 페이지만" 데이터에 있는 사유들을 하나하나 클릭해보겠습니다.
아래는 1) "적절한 태그가 포함된 대체 페이지"사유의 url들입니다.
제 블로그의 숫자 구조가 아닌 /글제목패턴으로 운영하고 있고 이들을 canonical url로 지정하고 있어서 위 그림과 같은 url들은 색인이 안되어도 무방합니다.(만일 숫자형식으로 운영하는 분들은 저와 반대모습을 보일 것입니다.)
그런데 위 그림에서 눈에 띄는 부분이 https://hiseosem.tistory.com/m/15505498 와 https://hiseosem.tistory.com/15505498
인데요. 내용은 똑 같은데 하나는 Mobile url이고 하나는 pc url입니다.
실제로 본 블로그는 반응형으로 운영하고 있고 글제목을 url로 사용하고 있어서 둘 다 불필요하지만 티스토리 속성상 해당 url들이 구글봇에 크롤링을 허용하고 있어서 불가피하게 위 데이터에 나오고 있습니다.
특히나 모바일url에서의 canonical url을 /숫자로 지정해주는 티스토리 자체의 버그때문에 구글봇에게 더욱 혼란을 주고 있습니다.
이쨋든 블로그주인 입장에서 실제 운영하는 url인 https://hiseosem.tistory.com/entry/%EC%98%81%EC%96%B4%EB%85%BC%EB%AC%B8%EB%93%B1-%EC%98%81%EB%AC%B8%EC%84%9C%EB%A5%98%EC%9D%98-%EA%B5%90%EC%A0%95%EC%9D%98-%EC%9D%98%EB%AF%B8Proofreading-or-Editing-15505498 만 색인되어 있으면 됩니다.
이를 확인하기 위해 url검사를 해보았습니다.
색인이 되어있네요.
결국 첫번째 미색인 사유는 특별히 염려할 필요가 없습니다.
그 다음
2) 찾을 수 없음(404)항목입니다.
딱 보니 다음블로그에서 이전해오면서 한 동안 공개 했던 카테고리의 글들로 애드센스를 신청하면서 비공개로 전환한 글들입니다.
이런 페이지들입니다.
무시해도 되겠네요.
(참조: 이런 페이지들은 모두가 404응답을 주고 있는 것이 아니라 일부는 403응답에서도 위 그림과 같은 문구를 보여주고 있습니다.)
그 다음 3) 엑세스금지(403)로 인해 차단됨 사유의 페이지들입니다.
위 와 같은 이유로 2) 찾을 수 없음(404) 처럼 역시 무시해도 됩니다.
그 다음 4) 리디렉션이 포함된 페이지 입니다.
역시 숫자url에 변수까지 추가 된 불필요한/무시할 수 있는 url입니다.
(참조: 보통 이 항목과 관련해서 질문을 많이 하는데 보통은 이는 SC계정의 속성(http/https 또는 www/non-www)과 관련이 있거나 내외부 링크에서의 http/https관련이슈들로 대부분은 무시해도 되는 경우가 많고 관련 링크들을 수정하면 개선됩니다.)
마지막으로
5) 크롤링됨 - 현재 색인이 생성되지 않음 항목입니다.
이 크롤링됨 - 현재 색인이 생성되지 않음 항목은 사실 좀 더 중요하게 봐야 할 항목입니다.
그림으로 봐서 구글봇이 url을 발견해서 크롤링까지 했는데 색인시켜주기에는 뭔가 이슈가 있다는 것인데 특히 태그페이지는 일종의 카테고리 페이지라 할 수 있는것이어서 색인해주면 단일 페이지나 글에 비해 더욱 좋은 경우들이 많습니다.
그래서 https://hiseosem.tistory.com/tag/포탈 의 미색인 사유를 보겠습니다.
"포탈"을 태그로 지정한 글이 달랑 한개의 글 뿐입니다.
일종의 저품질 페이지(a.k.a. thin content)입니다. 충분히 미색인사유(아래 상세 나열)로 수긍할만한 url입니다.
https://hiseosem.tistory.com/tag/영문교정 처럼 여러 글에 태깅된 url을 리스팅하고 있는 페이지는 색인되어 있습니다.
(이런 의미에서 저는 항상 티스토리든, 워드프레스든, 구글블로그든 태그지정을 무작정 많이 하지 말라고 권하고 있습니다.)
결국 #제출되지 않은 페이지쪽에서의 url들은 대부분 무시해도 될 상황이고 그냥 그렇구나 하고 이해만 하면 될 정도입니다.
그 다음 #제출된 모든 페이지 쪽을 보겠습니다.
이 항목은 색인해달라고 xml사이트맵이나 rss를 통해 제출한 url들이어서 역시 주시해야할 항목입니다.
1) "적절한 태그가 포함된 대체 페이지"사유의 url들입니다.
위 두 개의 url을 보니 카테고리 페이지입니다.
그런데 이 페이지들은 둘 다 <link rel="canonical" href="https://hiseosem.tistory.com"/> 로 표준 url지정이 메인으로 잘못 지정되어 있어서 그림과 같은 알람을 주고 있습니다.
티스토리 자체버그여서 블로거가 어떻게 할 수 없는 알림입니다.
그 다음 2) robots.txt에 의해 차단됨 항목입니다.
https://hiseosem.tistory.com/guestbook 이 하나 보입니다.
이 url은 robots.txt에서 User-agent: *Disallow: /guestbook 로 차단하고 있어서 당연한 알람으로 그냥 이해하고 무시하면 됩니다.
3) 발견됨 - 현재 색인이 생성되지 않음
이 부분은 구글에서는 "Google에서 페이지를 발견했지만 페이지가 아직 크롤링되지 않았습니다. 일반적으로 Google에서 URL을 크롤링하려고 했지만 이로 인해 사이트가 과부하 상태가 될 수 있기 때문에 Google에서 크롤링 일정을 변경한 경우입니다. 그렇기 때문에 보고서에 마지막 크롤링 날짜가 비어 있는 것입니다."라고 설명하고 있습니다.
저는 이 항목에서 url수가 118개나 됩니다.
적지 않은 수입니다.
비공개 글과 다음블로그 글들이 혼재되어 있고 개별 url들을 검색해보면 여전히 daum 블로그url들을 참조하고 있습니다.
실제 site:blog.daum.net/아이디 로 검색해보면 여전히 일부는 색인이 되어 있습니다.
이러한 수치는 위 그림처럼 차차 줄어들고는 있으나 여전해서 일부 url들에 대해서는 검사 후 색인요청을 할만합니다.
4) 크롤링됨 - 현재 색인이 생성되지 않음
가장 중요시해야할 알람으로 이 부분은 구글에서는 "Google에서 페이지를 크롤링했지만 색인은 생성되지 않았습니다. 이후에 색인이 생성될 수도 있고 생성되지 않을 수도 있습니다. 크롤링을 위해 이 URL을 다시 제출할 필요는 없습니다."라고 설명하고 있습니다.
좀 애매한 설명인데요. 많은 분들이 이 부분을 잘 이해하지 못하고 그냥 url검사 후 다시 수집요청을 하는 항목입니다.
보다 자세히 설명한다면 경험상 이 페이지들은 대부분 콘텐츠품질에 문제가 있거나 다른 글들과 유사성이 많거나 url이 깨져있거나 이미지가 깨져있거나 레이아웃이 유저로 하여금 숨막히게하거나 아니면 구글서버실정 등 구글입장에서도 핑곗거리는 많습니다.
따라서 반드시 이런 부분을 개선한 후 url 검사 > 수집요청을 하는 것이 바람직하고 이런 작업이 불가하다면 그냥 놔두어도 무방합니다.(저품질이라 판단하더라도 추후 내외부요인에 의해 중요도가 높다고 판단하면 색인될 수도 있습니다.)
저 같은 경우는 이미지 액박이나 저품질 페이지들이었습니다.
최종 결론은
1) 우선 서치콘솔 > 페이지 에 대한 이해는 https://support.google.com/webmasters/answer/7440203 를 숙지하여야 하고
대부분의 미색인 사유는 내가 뭔가 잘못했다는 것이 아니고 일단 알고 있어라 하는 알림으로 이해하는 것이 바람직합니다.
2) 보통은 "제출된 모든 페이지"탭에서 점검하되(국내 솔루션의 쇼핑몰 등 xml/rss제출이 부실한 경우는 예외) 여기에서의 항목 중에서 " 발견됨 - 현재 색인이 생성되지 않음" 과 " 크롤링됨 - 현재 색인이 생성되지 않음"을 중심으로 점검하되 무조건 색인요청을 하지말고 반드시 관련 이슈를 개선한 후 ur검사 > 페이지수집요청을 하면 될 것입니다.
### 본 글은 Google 검색커뮤니티에도 전재되어 있습니다.
https://support.google.com/webmasters/community-guide/260694553/구글-서치콘솔에서의-페이지-색인-데이터-이해하기?hl=ko
추가) 연관 글입니다. https://hiseosem.tistory.com/entry/네이버나-구글에서-수동으로-페이지url수집요청하기-자주하면-좋을까
'SEO(검색엔진최적화)' 카테고리의 다른 글
티스토리에서 글 하나를 작성하면 생기는 일(SEO관점에서) (2) | 2024.03.28 |
---|---|
Google 웹 검색을 위한 2024년 3월 스팸 업데이트 소식(아주 중요!) (0) | 2024.03.17 |
네이버나 구글에서 수동으로 페이지(url)수집요청하기 자주하면 좋을까? (1) | 2024.02.05 |
위험한 백링크(인바운드링크)들 없이 정상적인 SEO를 수행한 결과 (2) | 2024.02.04 |
구글검색결과에서 저장된 페이지(캐시된 페이지)확인하는 방법 (6) | 2024.01.26 |
댓글