ウェブサイトのSEOにおいて、ロボットテキストファイルは物凄いツールですが、取り扱いには注意が必要です。
このツールによって、検索エンジンが異なるファイルやフォルダーにアクセスするのを拒否することができます。しかし、これはウェブサイトを最適化するのに、最も良い方法という訳ではありません。ここでは、ウェブマスターがどのようにロボットテキストファイルを使用すべきかを、説明しようと思います。また、ほとんどのウェブサイトにとっての“ベストプラクティス”を提案します。
この下の更に下にある、WordPress Webサイトの大部分で機能するrobots.txtの例をご紹介します。
“ベストプラクティス”とは何ですか?
検索エンジンは、ウェブサイトやインデックスを回りながら、改善を続けています。これは、数年前にベストプラクティスだったものが機能しなくなったり、サイトに損害を与えたりする可能性があるということです。
現在のベストプラクティスとは、ロボットテキストにできるだけ頼らない、ということです。実際に、複雑な技術的変更(例:ファセットナビゲーションを備えた大規模なeコマースWebサイト)をした時や他のオプションがない時には、ロボットテキストファイルのURLをブロックする必要があります。
ロボットテキストを通したURLをブロックすることは“総当たり”アプローチとなり、解決よりも多くの問題を生む可能性があります。
以下の例が、ほとんどのWordPressウェブサイトにとってのベストプラクティスです。
# This space intentionally left blank
# If you want to learn about why our robots.txt looks like this, read this post: https://yoa.st/robots-txt
User-agent: *
独自のrobots.txtファイルでも、このアプローチを使用しています。
このコードをどうしますか?
・“User-agent: * ”指示には、以下の指示がすべてのクローラーに適用されることが記載されています。
・なぜなら、他に指示をしていないからです。クローラーはこのウェブサイト中を、制限なく自由に回ることができます。
・人々がこのファイル(このページへのリンク)を見るための、他の情報も提供します。よって、なぜファイルが“空”なのかを理解することができるでしょう。
もしURLを禁止する必要があるならば
もし、WordPressウェブサイトの、特定の部分のインデックスを検索エンジンに回られたくないのであれば、メタロボットタグか、ロボットHTTPヘッダーを追加することが、ほとんどの場合に有効です。
WordPressとYoast SEOは、敏感なファイルやURLをWordPressのadminエリア(x-robots HTTPヘッダー経由)のインデックスを、自動的に防いでいることを覚えておいてください。
なぜ“ミニマリズム”がベストプラクティスなのでしょう?
ロボットテキストは行き止まりを作成します
検索結果で可視性を競う前に、検索エンジンはページ発見し、回り、インデックスする必要があります。もし、ロボットテキストを経由した特定のURLをブロックしているのであれば、検索エンジンは他のものを発見するために、これらのページを長く回ることはできません。これは、重要なページが発見されないことを意味しています。
ロボットテキストは、リンクの価値を否定します
SEOの基本的なルールのひとつに、他のページからのリンクによって、あなたのパフォーマンスに影響を及ぼすということがあります。もしURLがブロックされていたら、検索エンジンがページを回らないというだけでなく、そのURLを指す“リンク値”を、またはそのURLを介して、サイト上の他のページに配布することもできません。
Googleがサイトを完全にレンダリングします
人々は、検索エンジンが重要なページに継続して焦点を充てるよう、CSSやJavaScriptファイルのアクセスをブロックしています。
最近、GoogleはすべてのスタイルとJavaScriptを取得し、ページを完全にレンダリングしています。ページのレイアウトを理解し、プレゼンテーションすることは、品質を評価する大事な要素です。よって、Googleは、CSSとJavaScriptへのアクセスを拒否することを嫌っています。
“wp-includes”への直接のアクセスと、直接“robots.txt”を経由したプラグインブロックするための、以前のベストプラクティスは無効になりました。バージョン4.0で“wp-includes”のデフォルトの不許可ルールを削除するために、WordPressと連携したからです。
多くのWordPressテーマは、非同期JavaScriptリクエスト(いわゆるAJAX)も使用して、Webページにコンテンツを追加します。WordPressはデフォルトによって、これをGoogleからブロックしていましたが、私達はWordPress4.4でこれを修正しました。
通常は、サイトマップへのリンクは不要です
標準のロボットテキストは、XMLサイトマップへのリンクをファイルに追加できます。これによって、検索エンジンがウェブサイトのロケーションやコンテンツを発見することができます。
私達は、これが余剰である常に感じてきました。Google Search ConsoleとBing Webmasterツールアカウントにサイトマップを追加して、分析データとパフォーマンスデータにアクセスする必要があります。もし既に行っているのであれば、ロボットテキストファイルへの参照は不要です。