相関研究は、何年もの間、検索エンジン最適化コミュニティの主食でした。
新しい研究が発表されるたびに、高校の統計から彼らが覚えている一つのことを思い出させるために、金曜日の合唱団が魔法のように木工から出てきたようです – 「相関は因果関係を意味しない」。彼らは、もちろん、彼らの抗議行動にまさに正当であり、そして彼らの信用によれば、相関研究を行っている人々がこの単純な格言を忘れてしまったことは残念なことです。
とはいえ、相関研究は必ずしも因果関係を明らかにしない(つまり、実際のランキング要因)という理由だけで、まったく効果がないわけではありません。相関研究が発見または確認したものは相関です。
相関関係は、独立変数(この場合はページ上の検索結果の順序)と何らかの関係を共有する単なる測定値です。たとえば、バックリンク数はランク順の相関関係にあることがわかります。私達はまた社会的な分け前が順位の相関であることを知っている。
相関研究もまた、関係の方向性を私たちに提供しています。たとえば、アイスクリームの売上は気温と正の相関があり、冬のジャケットは気温と負の相関があります。つまり、気温が上がるとアイスクリームの売上は上がりますが、冬のジャケットの売上は下がります。
最後に、相関研究は、提案されたランキング要因を除外するのに役立ちます。これは見過ごされがちですが、相関研究において非常に重要な部分です。否定的な結果をもたらす研究は、しばしば肯定的な結果をもたらす研究と同じくらい価値があります。相関分析を使用して、キーワード密度やメタキーワードタグなど、さまざまな種類の潜在的要因を除外することができました。
残念ながら、相関研究の価値はそれで終わる傾向があります。特に、相関関係がランキングの原因となっているのか、それとも誤っているのかを知りたいのです。「偽物」とは「偽」または「偽」を意味する空想的な言葉です。偽りの関係の良い例は、アイスクリームの売り上げが溺死の増加を引き起こすということでしょう。実際には、夏の暑さはアイスクリームの販売と水泳に行く人々の両方を増加させます。より多くの水泳はより多くの溺死を意味します。だからアイスクリームの売り上げは溺死の相関関係だが、それは偽物だ。溺死の原因にはなりません。
因果関係と見せかけの関係の違いをいじるためには、どうすればよいでしょうか。私たちが知っていることの一つは、原因がその効果の前に起こるということです。つまり、因果変数は将来の変化を予測するはずです。これが私が以下のモデルを構築した基礎です。
相関研究のための代替モデル
相関研究を行うための代替方法論を提案します。要因(リンクやシェアなど)とSERPの間の相関を測定するのではなく、要因とSERPの変化との間の相関を時間の経過とともに測定できます。
プロセスは次のように機能します。
1・1日目にSERPを集める
2・そのSERP内の各URLのリンク数を収集する
3・リンクに関して順不同のURLペアを探します。例えば、位置2の位置が位置3よりも少ない場合
4・その異常を記録する
5・14日後に同じSERPを集める
6・異常が修正されたかどうかを記録します(例:ポジション3がポジション2を上回る)
7・1万のキーワードにわたって繰り返し、さまざまな要因(バックリンク、ソーシャルシェアなど)をテストします。
それでは、この方法論の利点は何ですか?時間の経過に伴う変化を見ることで、ランキング要因(相関)が先行するのか遅れているのかがわかります。遅延機能は、ランキングが変更された後に発生するため、自動的に因果関係として除外することができます。他の理由で依然として疑わしい可能性がありますが、主導的要因は原因要因である可能性があります。
この方法論に従って、ランク付け要因の調査によって生成された3つの異なる一般的な相関関係、つまりFacebookのシェア、ルートリンクドメインの数、およびPage Authorityをテストしました。最初のステップでは、キーワードエクスプローラーコーパスでランダムに選択されたキーワードから10,000のSERPを収集しました。その後、各URLについてFacebook共有、ルートリンクドメイン、およびページ権限を記録しました。
2つの隣接するURL(位置2と3、または7と8など)が相関係数によって予測される予想順序に対して反転しているすべての例に注目しました。例えば、#3ポジションが50株だったのに対し、#2ポジションが30株だった場合、そのペアに気づきました。あなたは、より多くのシェアを持つページが、少ないシェアを持つページを上回ると予想するでしょう。
最後に、2週間後、同じSERPを取得し、Googleが予想される相関関係に一致するようにURLのペアを再配置した回数の割合を特定しました。また、隣接する任意の2つのURLで位置が変わる可能性があるベースラインの割合として、URLのペアをランダムに選択しました。ここに結果がありました…
結果
このような分析で主な要因が強く現れることを予想することは非常にまれであることに注意することが重要です。
実験的な方法は健全ですが、それは未来を予測する要因ほど単純ではありません – それはいくつかのケースではGoogleがする前に要因について知っていると仮定しています。根本的な仮定は、場合によっては、Googlebotが以前にランク付け要因(リンクやソーシャルシェアの増加など)を見ており、2週間のうちに、Googleが間違った順序の結果に追いついて修正することです。
ご想像のとおり、Googleは他の誰よりも早くWebをクロールするため、これはめったにありません。
ただし、十分な数の観測があれば、遅れた結果と先行した結果との間に統計的に有意な差が見られるはずです。それにもかかわらず、この方法論は、要因が一流企業と Moz Link Explorerの両方が、グーグルよりも前に関連する要素を発見しました。
因子 | 修正率 | P値 | 95%分 | 最大95% |
コントロール | 18.93% | 0 | ||
PAのために管理されたFacebook共有 | 18.31% | 0.00001 | -0.6849 | -0.5551 |
ルートリンクドメイン | 20.58% | 0.00001 | 0.016268 | 0.016732 |
ページ権限 | 20.98% | 0.00001 | 0.026202 | 0.026398 |
コントロール:
コントロールを作成するために、最初のSERPコレクションで隣接するURLのペアをランダムに選択し、2番目が最後のSERPコレクションで最初のURLを上回る可能性を判断しました。より悪いランキングのURLがより良いランキングのURLを追い越すだろう時間のおよそ18.93%。
このコントロールを設定することで、潜在的な相関関係のいずれかが主な要因であるかどうかを判断できます。つまり、ランダムな選択よりも将来の変化をより適切に予測できるためです。
Facebookのシェア:
Facebook共有は、テストされた3つの変数のうち最悪のものを実行しました。Facebookのシェアは実際にはランダムよりも悪かった(18.31%対18.93%)。つまり、ランダムに選択されたペアは2番目のシェアが最初のシェアよりも高いペアよりも切り替わる可能性が高いということです。
社会的シグナルは遅れ要素であるという一般的な業界の合意であるため、これはまったく驚くことではありません。つまり、高いシェアからのトラフィックが高いシェアを駆動するのではなく、高いシェアからのトラフィックを駆動します。その後、ソーシャルシェアの増加が見られる前に、まず順位の変化が見られると予想されます。
RLD
生のルートリンクドメイン数は、シェアおよびコントロールよりも約20.5%優れています。前述したように、このタイプの分析は、ある要因が主導的であり、Moz Link Explorerが関連する要因をGoogleよりも前に発見した場合にのみ検出されるため、非常に微妙です。それにもかかわらず、この結果は、P値<0.0001およびRLDが将来の順位の変化をランダムよりも1.5%大きく予測する95%信頼区間で統計的に有意でした。
ページ権限
これまでのところ、最高のパフォーマンス要因はPage Authorityでした。21.5%で、PAはSERPの変化をランダムより2.6%良く正しく予測しました。これは、社会的シェアを大きく上回り、最高の予測生メトリックであるルートリンクドメインを上回っているという主な要因の強力な指標です。これは当然のことです。
Page Authorityはランキングを予測するように構築されているため、ランキングのシフトが発生する可能性がある時点を識別する際に生のメトリックを上回ることを期待してください。これは、GoogleがMoz Page Authorityを使用してサイトをランク付けすることではなく、Moz Page AuthorityがGoogleがランク付けサイトを決定するために使用しているすべてのリンク指標の比較的良い近似値であることを意味します。
おわりに
業界全体の研究を向上させるために使用できる実験デザインは非常に多くありますが、これは因果関係のランキング要因と遅れ相関の違いを排除するのに役立つ方法の1つです。
実験計画は複雑である必要はなく、信頼性を決定するための統計は最先端である必要はありません。機械学習は予測モデルを改善するための大きな可能性を秘めていますが、基礎を確立する際には単純な統計でうまくいく可能性があります。
さあ、そこから出て素晴らしい研究をしてください。