サイト・ページをGoogleボットから徹底的に隠す方法
公開日:2020年5月4日
サイトやページ内容をGoogleから徹底的に隠す方法をまとめました。簡単にできる方法から完全にシャットダウンする方法まで、それぞれのやり方と秘匿度、メリット・デメリットで比較しました。
サイト・ページをGoogleから隠したいケース
検索から膨大なユーザーを呼び込んでくれるGoogleですが、何でもかんでもインデックスしてしまうため、
- 会員限定コンテンツ
- 社内専用サイト
といった、外部に漏れて欲しくないサイト・ページを運営するときには、Googleボットが厄介な存在になります。
完全に隠す方法
Google Botのユーザーエージェントからのアクセスを拒否する
一番確実な方法です。
IPアドレス方式だと、新しいIPアドレスのGoogleボットがきた時に対応ができないというデメリットがありますが、Google Botのユーザーエージェントであれば確実に拒否することができます。
Googleボットごとのユーザーエージェントは、Googleが公式に公開しています。
デメリットがあるとすれば、サーバー側でアクセス拒否設定する知識が必要な点でしょうか。
Googlebot かどうかの確認 - Search Console ヘルプ
隠したいコンテンツをパスワードで制限する
ID/パスワードでアクセスを制限してしまう方法です。
- Basic認証
- Digest認証
- HTTPヘッダ認証
などを使って、ページを秘匿します。
問題があるとしたら、
- パスワードを知らない一般ユーザーに対してもコンテンツを隠してしまう
- 閲覧する度に認証が出て面倒
- サーバーの知識が必要
という点でしょうか。
HTMLヘッダーに「meta name="robots" content="noindex"」を記述する
ページごとにインデックスの可否を制御したい場合はこちらのケースがオススメです。クローリングは許可するけれども、Googleインデックスへの登録を拒否する方法です。
ページごとにHTMLヘッダのmetaタグに「<meta name=\"robots\" content=\"noindex\">」を追加します。
ページが Google 検索に表示されないようにするには、noindex メタタグをページの HTML コードに挿入するか、HTTP リクエストで「noindex」ヘッダーを返します。Googlebot はそのページを次にクロールしたときに、このタグまたはヘッダーを検出すると、他のサイトがそのページにリンクしているかどうかにかかわらず、そのページを Google 検索結果から完全に削除します。
問題があるとしたら、metaタグの追記漏れとGoogle以外のクローラを制御できない点でしょうか。
完全ではないけれども、一部を隠すことができる方法
robots.txtでクローリングを拒否する
robots.txtは、クローラーに対してクローリングの可否を示すファイルです。これは、Google以外のクローラーに対しても使えます。
ドキュメントルートに設置することで、クローラーに対してクローリングの意思を表示できます。ドキュメントルートではない場合、robots.txtがクローラーに検出されないので注意してください。
スパイダーのアクセスを排除するには、たぶん一番シンプルで最短の方法だ。robots.txtファイルは、ドメインのルートに置く(www.nytimes.com/robots.txtのように)。これでスパイダーのアクセスを無効化できる。robots.txtの書き方と各要素についての詳細は、Google Sitemapsブログのrobots.txtファイルを使うという記事に書いてあるし、イアン・ミキャナリンのrobots.txt生成ツールを使えば、手作業で作る手間を節約できる。
検索エンジンからコンテンツを隠す12の方法 | Moz - SEOとインバウンドマーケティングの実践情報
robots.txtの書き方について詳しいサイトは下記のサイトがわかりやすくまとまっています。
検索エンジンの巡回(クロール)を拒否 noindex、nofollowのmetaタグとrobots.txtの設定方法|アド・エータイプ スタッフブログ
ポイントとしては「Disallowしてから、Allowする」というところです。
ただし、この方法には問題があって、「他のサイトからリンクされたページはクローリングをする」という抜け道が存在します。これでは完全に隠すことはできません。
また、robotos.txtに記述したからといって、クローラーが確実にこちらの意思にしたがってくれるとも限りません。
まとめ
以上の方法を一覧にまとめました。
秘匿度 | 外部リンクからクローリング | Googleボットのアクセス | Googleインデックスへの登録 | |
---|---|---|---|---|
GoogleボットのUAを拒否 | ◎ | 拒否 | 拒否 | 拒否 |
GoogleボットのIPアドレスを拒否 | ◎ | 拒否 | 拒否 | 拒否 |
ページのパスワード制限 | ◎ | 拒否 | 拒否 | 拒否 |
meta noindex | ○ | 許可 | 許可 | 拒否 |
robots.txtの設定 | △ | 許可 | 拒否 | 許可 |
IPアドレスかUAで拒否するのが一番確実でユーザー体験を損なわないためオススメです。
一方で、「meta noindex」や「robots.txt」は、サーバーの知識がなくても利用できるため、Wordpressサイトなどで初心者の方が簡単に設定する方法としてはオススメですが、確実性が下がることを認識しておきましょう。
サイト・ページをGoogleボットから徹底的に隠す方法を見てきました。
サイトの構成やサーバーに関する知識によってどの方法を選ぶかは変わってきますので、最適なものを試してみてください。