このチェックリストでは、ページやウェブサイトのインデックス状況を確認するための簡単な手順と、コンテンツのインデックスを妨げている可能性のある最も一般的な問題を確認(および対処)する方法を解説します。
このチェックリストは、トラブルシューティングのフローチャートとしても役立てることができます。最も簡単で迅速なチェックと最も一般的な問題を最初に整理してあるので、うまくいけば、全部に対処しなくとも、インデックスが進む場合があります。
まず最初に確認することは、あなたのページやウェブサイトがインデックスに登録されているかどうかです。これを確認する最も手っ取り早い方法は、検索演算子です。これは、Google検索で使用できる検索クエリで、検索者がより具体的な検索結果を見つけやすくするためのものです。
例:サイト全体のインデックスを確認するには、「site:」という演算子を使用します。
site:domain.com
また、同じ演算子で個別のページを確認することも可能です。
site:domain.com/page-name
このような結果が表示された場合、あなたのページが現在インデックスに登録されていないことを意味します。
検索演算子は他にもたくさんあり、さまざまなユースケースがありますが、インデックスの確認に使うべきはこれでしょう。
次に確認するのは、Google Search Consoleです。サイトのインデックス状況を把握するために、カバレッジレポートを表示します。
インデックスされていないページを表示するタブは、「エラー」タブと「除外」タブの2つです。
もし、あなたのページがクロールされても、Googleがインデックスしないことを決めた場合は、”Excluded “と表示されます。
何らかの理由でページがクロールされなかったり、インデックスされなかったりした場合、「エラー」レポートに表示されます。注意すべきは、影響を受けたURLが1,000以上あることで、ここでは1,000のサンプルしか表示されないことです。
これらのレポートのいずれかにページが表示された場合、そのURLをクリックして「URLの検査」オプションを選択すれば、何が問題なのかを知ることができるはずです。これは、インデックスの状態を確認するための最初の手段、または最初の場所として適しています(限られたサンプルしか提供しない上記のカバレッジレポートと比較してください)。
また、「Test Live URL」を選択することで、さらなる情報を得ることができます。
ウェブサイトの規模によっては、カバレッジレポートでお探しのURLを見つけられないことがあります。これらのレポートでは、各エラータイプについて最大1000件の「サンプル」URLしか提供されません。その代わりに、単純にページ上部の検索バーを使ってURLを直接検査することもできます。
エラーレポートでは、robots noindex metaタグ(「Submitted URL marked ‘noindex’」)によってページがブロックされていることが示される場合があります。この問題を検証するには、そのページに直接移動して、HTMLページのソースコードを開いてください。(この方法がわからない場合は、そのURLの前に「view-source:」を追加してください)。
ソースコードを表示したら、そのページを「noindex」で検索すれば、noindexタグでページがブロックされているかどうかを確認できます。
また、ページには次のようなX-Robots-Tag HTTPヘッダがある場合があります。
HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)
このようなツールを使って、ページのHTTPヘッダーを確認することができます。
またWordPressでWebサイトを運営している場合、誤ってプライバシー設定を「検索エンジンにこのサイトをインデックスさせないよう依頼する」にしている可能性があります。この設定を「検索エンジンからのインデックスを許可する」に更新してください。
注-URLの検査ツールは、ページにnoindexディレクティブがある場合にもフラグを立てます。
robotsディレクティブによってページがブロックされる可能性がある他の場所は、robots.txtファイルを介してです。
Googleのrobots.txtテスターツールを使って簡単にテストするか、あなたのドメインの/robots.txtにアクセスして自分でファイルをチェックしてみましょう。
ページがインデックスされるためには、クローラーに発見される必要があります。クローラーがあなたのページを発見するのを妨げている可能性がある(逆に、クローラーがあなたのページを発見できるようにするために活用できる)方法が、いくつかあります。
あなたのページが他のどこからもリンクされていない場合、またはサイトのわかりにくい部分からリンクされている場合、クローラーはそのリンクを見つけられず、したがってページを見つけることができない可能性があります。検索エンジンにアクセスさせ、インデックスさせたい場合は、そのページを指し示す内部リンクをサイト内に設置するようにしましょう。
ページへのリンクを含めるのに最適な場所の1つは、XMLサイトマップです。XMLサイトマップにページが含まれていない場合、Googleはそのページの価値が低いと見なすか、単純に見つけにくくなる可能性があります。これを避けるために、クロールされインデックスされることが重要なページは、必ずXMLサイトマップに含めるようにしましょう。
せっかくクローラーに発見されても、コンテンツにアクセスできなければインデックスされることはありません。
ステータスコードが200であるページには、重要なコンテンツが表示され、Javascriptを無効にしてもクリックできるリンクがあることを確認してください。
ダウンタイムが頻繁に発生するWebサイトでは、インデックス登録に問題が生じる可能性があります。
Googleの目標は、与えられたクエリに対して最も関連性の高いコンテンツを表示することです。そのため、すでにインデックスに登録されている他のコンテンツと類似しすぎているコンテンツは評価されません。
重複コンテンツが発生する方法には、以下のようなものがあります。
パラメータ:パラメータを使用する場合、同じページが異なるURLで複数存在する可能性があります。
ファセット/タグページ:ファセットナビゲーションや、ブログの/tag/ページのようなカテゴリ分けを使用している場合、複数のタグやカテゴリで、コンテンツが非常に類似している可能性があります。
ローカライゼーション:地域固有のページや、国や言語の組み合わせに合わせたページは、同じコンテンツを持つ可能性があり、より差別化が必要です(国際的なバリエーションでは、hreflangアノテーションを使用します)。
外部との重複:他のソースからコンテンツをシンジケートしたり、コンテンツをスクレイピングしたり、あるいは既に公開されているものを再投稿している場合、重複とみなされる可能性が高くなります(また、これをやりすぎると、低品質のコンテンツシグナルを送ることになる)。
また、ページ上にメインバージョンと異なるURLを指すrel=canonicalタグがないことを確認する必要があります。これは、Google Search Consoleの「URL検査」ツールで確認することができます。
または、ページのソースコードで、’rel=canonical’を検索してください。
.htaccessファイルは、サーバーの設定ファイルです。リダイレクトの作成(および偶発的なリダイレクトループ)、醜いURL文字列のクリーンバージョンへの書き換え、さらにはクローラーからページをブロックするために使用することができます。robots.txtやnoindexタグのようなページ上のディレクティブでブロックされていないサイトやページが、クローラーからアクセスできない場合、.htaccessでブロックされている可能性があります。
多少サイトが重くてもGoogleにコンテンツがインデックスされなくなることはありません(上位表示には支障があるかもしれませんが)。しかし、ページの読み込みに通常の業界標準よりはるかに長い時間がかかる場合、特に読み込みに時間がかかりすぎてタイムアウトになる場合は、検索エンジンからユーザー体験が悪いと見なされ、このページをインデックスに登録しないようにされる可能性があります。また、その場合、単にコンテンツにアクセスできなくなるだけかもしれません。
モバイルファーストインデックスが普及し、やがて唯一のインデックス作成方法となる中、クローラーは、モバイルクローラーに利用可能なコンテンツでなければ、あなたのコンテンツを潜在顧客に見せることができないかもしれません。インデックスさせたいコンテンツは、モバイル版でも利用できるようにしておきましょう(もちろん、モバイル版が高速でユーザーフレンドリーであることも重要です)。
Googleのガイドラインに反するグレーハットやブラックハットの手法に手を染めている場合、マニュアルアクションを課されている可能性があります。これは「ペナルティ」とも呼ばれ、Googleチームがスパム的と考える行動や手法に対して手動でウェブサイトを罰することで発生します。
これらの方法論は以下の通りです。:
手動による対策を受けた場合、Google Search Console内の手動アクションレポートに通知が表示されるはずです。通常、この通知には、問題の詳細と修正方法に関する推奨対処法が記載されています。影響を受けるすべてのページが修正されたら、レポート内からレビューリクエストを送信して解決しましょう。
これらの項目をすべて確認し、問題に対処した後、Googleにページをクロールのために(再)送信するとよいでしょう。現在、この機能は一時的に利用できませんが、通常はGoogle Search Consoleから「URL検査」機能を使用し、「インデックスのリクエスト」を選択することで行えます。
また、サイトマップの更新や新規作成を行った場合は、Google Search Console からXMLサイトマップを送信し、クロールさせることができます。
Botifyは、Googleがインデックスしている、していないを直接反映するものではありませんが、希望のページがインデックス可能かどうかだけでなく、以下のような任意のページ群のインデックス可能性を非常に簡単にチェックすることが可能です。
デモをご希望の方はこちら、他社の事例やホワイトペーパーをご覧いただくにはこちらをご確認ください。