Googleのような検索エンジンには、 「重複コンテンツ」 と呼ばれる問題があります。コンテンツの重複とは、類似したコンテンツがWeb上の複数の場所(URL)に表示されることを意味し、その結果、検索エンジンは検索結果に表示するURLを認識しません。これはWebページのランキングに悪影響を与える可能性があり、同じコンテンツの異なるバージョンにリンクし始めると、問題はさらに悪化します。
この記事は、重複コンテンツのさまざまな原因を理解し、それぞれの原因に対する解決策を見つけるために役立ちます。
重複コンテンツとは?
重複コンテンツは、Web上の複数のURLで使用できるコンテンツです。複数のURLが同じコンテンツを表示するため、検索エンジンは検索結果の上位に表示されるURLを認識できません。そのため、両方のURLのランクを下げ、他のWebページを優先させる可能性があります。
例を使用して説明します
重複したコンテンツは、同じ目的地に対して道路標識が2つの異なる方向を指している交差点と考えることができます。最終目的地の違いはほんのわずかだです。読者は、自分が求めていたコンテンツを得られるので気にしませんが、検索エンジンは検索結果に表示するページを選ばなければなりません。
たとえば、 「キーワードx」 に関する記事が
http://www.example.com/keyword-x/
に掲載され、同じコンテンツが
http://www.example.com/article-category/keyword-x/.
にも掲載されているとします。現在の多くのコンテンツ管理システムでこのようなことが発生しています。
次に、あなたの記事が複数のブロガーに取り上げられ、そのうちの何人かが最初のURLにリンクし、他の人が2番目のURLにリンクしているとします。両方のリンクが異なるURLをプロモートするため、重複したコンテンツが問題になります。もしみんなが同じURLにリンクしていれば、 「キーワードx」 でランキングされる可能性は高くなります。
自分のランキングで重複コンテンツの問題が発生しているかどうかがわからない場合は、重複コンテンツ検出ツールを使用して確認できます。
コンテンツの重複の原因
コンテンツが重複する理由は数多くあります。ほとんどは技術的なもので、意図的に重複させてしまっている例はあまりありません。技術的な理由はたくさんあり、その大部分は、開発者がブラウザやユーザーのように考えるのではなく、検索エンジンのように考えることにより発生しています。前述したhttp://www.example.com/keyword-x/とhttp://www.example.com/article-category/keyword-x/.に掲載されている記事を例にとると、開発者に尋ねると、この記事は一度しか存在しないと言われます。
URLの概念の誤解
その開発者がおかしいのではなく、彼らはただ違う言語を話しているだけです。CMSはきっとウェブサイトを強化するでしょうし、そのデータベースには記事が1つしかありませんが、ウェブサイトのソフトウェアはデータベース内の同じ記事を複数のURLから検索できるようにしています。
これは、開発者の目には、記事の一意の識別子は、記事のURLではなく、データベース内にある記事のIDであるためです。ただし、検索エンジンの場合、URLはコンテンツの一意の識別子です。それを開発者に説明すれば、彼らは問題を理解し始めるでしょう。もしこの記事を読んだら、すぐにソリューションを提供できるようになります。
セッションID
訪問者を追跡して、たとえば購入したい商品をショッピングカートに入れておけるようにしたい場合、そのためには 「セッション」 を行う必要があります。セッションとは、訪問者がサイトで行ったことの簡単な履歴であり、ショッピングカート内のアイテムなどを含めることができます。訪問者があるページから別のページにクリックしたときにセッションを維持するには、セッションIDと呼ばれるセッションの一意の識別子をどこかに保存する必要があります。最も一般的な解決策は、Cookieを使用することです。ただし、通常、検索エンジンはCookieを保存しません。
この時点で、一部のシステムはURLでセッションIDを使用するように戻ります。これは、Webサイト上のすべての内部リンクがURLに追加されたセッションIDを取得することを意味します。そのセッションIDはそのセッションに固有であるため、新しいURLが作成され、コンテンツが重複します。
追跡およびソートに使用されるURLパラメータ
コンテンツの重複のもう1つの原因は、リンクの追跡など、ページのコンテンツを変更しないURLパラメータを使用することです。つまり、検索エンジンにとって、
http://www.example.com/keyword-x/
と
http://www.example.com/keyword-x/?source=rss
は同じURLではありません。後者を使用すると、ユーザーがどのソースから来たのかを追跡できる可能性がありますが、一方で、適切なランク付けが困難になる可能性もあります。これは非常に望ましくない副作用です!
もちろん、これは追跡パラメータだけではありません。これは、重要なコンテンツを変更しないURLに追加できるすべてのパラメータに適用されます。パラメータが 「一連の製品の並べ替えを変更する」 ためのものであっても、 「別のサイドバーを表示する」 ためのものであっても、すべてのパラメータによってコンテンツが重複します。
スクレイパーとコンテンツ配信
コンテンツが重複する理由のほとんどは、ユーザーまたはWebサイトの 「過失」 によるものです。ただし、他のWebサイトが、ユーザーの同意の有無にかかわらず、ユーザーのコンテンツを使用する場合もあります。元の記事にリンクしているとは限らないため、検索エンジンは元の記事を 「取得」 せず、同じ記事の別のバージョンを処理する必要があります。サイトの人気が高まれば高まるほど、スクレイパーも増え、この問題はますます大きくなります。
パラメータの順序
もう1つの一般的な原因は、CMSがきれいなURLを使用するのではなく、
/?id=1&cat=2
のようなURLを使用することです。ここで、IDは記事を表し、catはカテゴリを表します。
URL/?cat=2&id=1
は、ほとんどのWebサイトシステムで同じ結果を表示しますが、検索エンジンではまったく異なります。
コメントのページ区切り
私の大好きなWordPressだけでなく、他のシステムでも、コメントにページ付けするオプションがあります。これにより、記事のURLと、記事のURL+/comment-page-1/、/comment-page-2/などの間でコンテンツが複製されます。
印刷用ページ
コンテンツ管理システムで印刷用のページを作成し、そのページへのリンクを記事ページから作成した場合、特にブロックしない限り、通常はGoogleによって検索されます。さて、Googleにどのバージョンを見せたいか、自問して見てください。広告と周辺コンテンツを表示するものでしょうか、それとも記事だけを表示するものでしょうか?
WWWと非WWW
これは、この本の中で最も古いものの1つですが、検索エンジンは、サイトの両方のバージョンがアクセス可能な場合に、WWWと非WWWの重複コンテンツのどちらであるかを判断しないことがあります。あまり一般的ではありませんが、私が見たもう一つの状況は、HTTPとHTTPSの両方で同じコンテンツが提供される重複コンテンツです。
概念的なソリューション: 「標準的な」 URL
すでに見たように、複数のURLが同じコンテンツにつながっているという事実は問題だが、解決は可能です。通常、ある記事の 「正しい」 URLは何かを、ある出版社で働く人なら簡単に教えてくれますが、同じ会社の3人の人に尋ねると、3つの異なる答えが返ってくることがあります。
これは、最終的には単一の(URL)しか存在できないため、対処が必要な問題です。あるコンテンツに対する 「正しい」 URLは、検索エンジンによって正規URLと呼ばれます。
重複コンテンツの問題の特定
サイトまたはコンテンツに重複したコンテンツの問題があるかどうかわからない場合があります。Googleを使用することは、重複コンテンツを見つける最も簡単な方法の1つです。
このような場合に便利な検索演算子がいくつかあります。サイト上でキーワードXのアーティクルを含むすべてのURLを検索したい場合は、次の検索フレーズをGoogleに入力します。
site:example.com intitle:”Keyword X”
Googleはそのキーワードを含むexample.comの全ページを表示します。クエリのタイトル部分を細かく指定すればするほど、重複するコンテンツを簡単に除外できます。同じ方法を使用して、Web全体で重複するコンテンツを識別できます。記事の完全なタイトルが 「キーワードX–なぜすばらしいか」 だったとしたら、次のように検索します。
intitle:”Keyword X – why it is awesome”
そしてGoogleは、そのタイトルに一致するすべてのサイトをユーザーに提供します。スクレイパーの中にはタイトルを変更する人もいるかもしれないので、記事から1つか2つの完全な文章を探す必要がある場合もあります。このような検索を実行すると、検索結果の最後のページに次のような通知が表示される場合があります。
これは、Googleがすでに検索結果の 「重複排除」 を行っていることを示しています。それでもまだ足りないので、リンクをクリックして他のすべての結果を見て、修正できるものがあるかどうか確かめる必要があります。
重複コンテンツの実用的なソリューション
コンテンツの正規URLを決定したら、正規化のプロセスを開始する必要があります。つまり、検索エンジンにページの正規版を伝え、できるだけ早く見つけてもらう必要があります。この問題を解決するには、優先度の高い順に4つの方法があります。
1.重複したコンテンツを作成しない
2.複製コンテンツを正規URLにリダイレクトする
3.複製ページへの正規リンク要素の追加
4.複製ページから正規ページへのHTMLリンクの追加
重複コンテンツの回避
上記の重複コンテンツの原因のいくつかは、非常に簡単に修正できます。
・URLにセッションIDが含まれていますか?
多くの場合、これらはシステムの設定で無効にすることができます。
・プリンター対応の複製ページはありますか?
これらはまったく必要ありません。印刷スタイルシートを使用するだけです。
・WordPressでコメントページネーションを使っていますか?
99%のサイトではこの機能を無効(設定≫ディスカッション)にしておくべきです。
・パラメータの順序は異なりますか?
プログラマーに、パラメーターを常に同じ順序で配置するスクリプトを作成するように伝えてください(これはURLファクトリーと呼ばれます)。
・追跡リンクの問題はありますか?
ほとんどの場合、パラメータベースのキャンペーン追跡ではなく、ハッシュタグベースのキャンペーン追跡を使用できます。
・WWWと非WWWの問題はありますか?
一方を選択し、もう一方にリダイレクトすることで、それを維持します。Google Webmaster Toolsでもプリファレンスを設定できますが、どちらのバージョンのドメイン名も申請する必要があります。
問題を簡単に解決できない場合でも、努力する価値はあります。目標は、重複したコンテンツが完全に表示されないようにすることです。これは、この問題に対する最適なソリューションです。
301重複コンテンツのリダイレクト
場合によっては、使用しているシステムがコンテンツの間違ったURLを作成するのを完全に防ぐことは不可能ですが、リダイレクトできることもあります。もしこれがあなたにとって難しければ、開発者と話している間だけでも心に留めておいてください。重複したコンテンツの問題の一部を取り除く場合は、古い重複したコンテンツのURLをすべて適切な正規URLにリダイレクトしてください。
リンクの使用
URLが間違っていることがわかっていても、記事の重複バージョンを削除したくない場合や削除できない場合があります。この問題を解決するために、検索エンジンでは正規リンク要素を導入しています。サイトの<head>セクションに置かれ、次のように表示されます。
<link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” />
正規リンクのhrefセクションで、記事の正しい正規URLを指定します。正規化をサポートする検索エンジンがこのリンク要素を見つけると、ソフト301リダイレクトを実行し、そのページによって収集されたリンク値の大部分を正規化ページに転送します。
しかし、このプロセスは301リダイレクトよりも少し遅いので、GoogleのJohn Mueller氏が言及しているように、301リダイレクトしかできないのであれば、そちらの方が好ましいです。
元のコンテンツへのリンク
上記のいずれもを実行できない場合は、コンテンツが表示されるサイトの<head>セクションを制御できない可能性があるため、記事の上または下に元の記事へのリンクを追加することをお勧めします。RSSフィードでこれを行うには、記事へのリンクを追加します。スクレーパーの中には、リンクを除去するものもあれば、リンクを残しておくものもあります。もしGoogleがあなたの元の記事へのリンクをいくつか見つけたら、すぐにそれが実際の正規版であることが分かるでしょう。
結論
重複したコンテンツは修正可能であり、修正する必要があります。
コンテンツの重複はあらゆる場所で発生します。1,000ページ以上あるサイトで、少なくとも重複コンテンツの問題が発生していないサイトはありません。常に監視しておく必要があるものですが、それは修正可能であり、やる価値はあります。あなたのサイトから重複コンテンツを取り除くだけで、あなたの質の高いコンテンツがランキングで急上昇するかもしれません!