かつて私はプロダクトマネージャーで、新しいデザインが良いかどうかを判断するためにA / Bテストを多く実行してきました。 いくつかはうまくいきましたが、初期の頃には、多くがうまくいきませんでした。
試行錯誤の末、A / Bテストを使用し、ウェブサイトのチェックアウトフローのコンバージョン数を増やすことができました。そのサイトの別領域ではテストを実行してもほとんど変化は見られませんでしたが、それでもやる価値があると思いました。 The Lean Startupのような本では、実際にはすべてを分割テストするように指示すしています。
中小企業などのフリーランスコンサルタントになってからというもの、私はそれをツールとして使うことをやめました。そして私がさらに知識を深めたとき、この選択で良かったと気がつきました。この記事では、主に3つの理由をご説明します。それは結果を得るのに時間がかかる、専門知識がない人には難しい、そしてより良いテストオプションが利用可能だということです。
あなたが中小企業のマーケティングまたデザインで働いているなら、A / Bテストについて考えてみるべきです。テストで全てが分かるという理論は、実際には正解ではありません。
注:定量的データを測定することは重要です。Google Analyticsのようなツールは、ユーザーの行動に関しての指標を見つけるのに非常に便利ですが、あるものを別のものと比較し、適切に判断また決定を下すことによって提示される問題があるのです。
時間がかかる
統計は、ほとんどのテストソフトウェアとテストを実行している人が重視していることですが、見落とされている重要なことがあります。それは、統計の力です。これは結果が偶然ではないことを確認するのに、十分な数をテストを実行しなければならないということを意味します。
テストを行い、ページ変換が5%から5.5%(10%の増加)に変わったことしたければ、ビジネスにとっては何千ドルもの増額を意味する可能性があります、つまりその結果を確実にするために、62,000人のユーザーがA / Bテストを受ける必要があるということになります。
このテストがチェックアウトフローのようにサイト内の深いところにある場合は、1か月以内にテストを完了するには、毎月のユニークユーザートラフィックの10倍の数が必要になります。私が携わることの多い中規模のスタートアップでさえ、そのようなトラフィックはありません。この例は10%というかなり大きな変化を検出するためのものです。小さな変化を検出したい場合、必要なユーザー数は急激に増加します。
スタートアップ時に1か月間テストを実行したままにするのは困難です。その間に多くのことが起こり得るからです。チームで何かをデザインしようとしているときに、チームにまずは結果を待てということができますか?テストを早期に中止して別のものをやれという経営陣の圧力に抵抗できますか?次の月のテストで違いが見られない場合、どのようにしてそれを関係者に提示しますか(多くの場合がそうなります)。
もちろん、テストを少し早く終わらせることもできますが、そうすると、多くの場合テストを長時間実行した時には見られなかった間違った結果が引き起こされます。これは、なにか新しい機能を使い始めた時に、テストと同じ結果が出ず、人々が困惑するのと同じです。
あなたがよく行うテストで、しないといけないことは一貫した特定数でテストを行うということです。すべてのユーザーにテストを表示し1か月間実行する場合、テストの途中で有料トラフィックを大量購入すると、結果が歪む可能性もあります。トラフィックを絞り込むことは、テストをさらに長く実行する必要があることを意味します。
非常に技術的
統計的有意性と統計的検出力は、A / Bテストを実行するときに気をつけるべきことのほんの1つにすぎません。 誤検出、p値、二項分布、帰無仮説、A / Aテスト、両側検定などのコンセプトはよくご存知ですか?
あなたがデザインまたはマーケティング関係の方なら、答えはおそらくノーです。私がA / Bテストを開始したときがそうでした。なぜ多くのA / Bテストが頻繁に行われているかについて、詳細が説明されているので、関連論文を読むことをお勧めします。
別の方法はありません。A/ Bテストをソフトウェアで簡単に実行できるようにすることですが、実際には適切な計算を行うことを意味し、統計を理解していない限り、テストで間違った数字や、悪い結果が出やすくなるでしょう。テストが95%あるいは99%の魔法のような統計的数字に達したとしても、結果は何の保証もしないものになってしまいます。
それ自体が統計的に有意であるというだけでは意味がありません。 実際、多くの科学雑誌はそれを意味のあるものとして受け入れていません。
これは専門家に任せるべき仕事です。A / Bテストの適切なプログラムを使うことを真剣に検討しているのであれば、コピーライターにバックエンドコードを書いてもらうことはないのと同様に、データサイエンティストに投資してください。
ユーザーテストを行う意義
中小企業はA / Bテストよりもユーザーテストの実行に費やすほうがよいと私は確信しています。私がA / Bテストを実行していても、何をテストするべきかについての考えつくもののほとんどは、ユーザーテストから来ていたからです。
ユーザーテストで得られるデータは、ユーザーが実際に行っていることや、製品を使用するときに他の方法では得られないであろう豊富なデータです。よく行われているA / Bテストは、1ページまたは1要素に関する情報でしかありません。 その一方で、適切に実行されたユーザーテストでは、サイトの全体的な流れと、さまざまな要素について人々がどのように考えているかを知ることができます。
A / Bテストを、古いデザインのページと、コンバーションを改良した新しいものとで行ったとき、この先のデザインのために何を学びましたか?ユーザーが好きだった部分は何ですか?そう聞くのは、このテストは1つまたは2つの要素について検討し、一緒に使われるときに限ってのものだからです。
ユーザーテストのような定性的なものは、定量的テストの高水準の統計的厳密さを持つ必要はありません。5人が検索フィールドを見つけることができないと言っている場合、何を変更すればいいのか把握するために統計的なものは必要ないのです。ユーザーが苦労したり諦めたりすることは、他のどの数字よりもはるかに多くのことを知らせてくれます。そして、改善の必要があるものは、ユーザーがバグを発見してくれるのを見るだけいいのです。
ビジネスを始めたばかりの場合や、トラフィック量が少ない場合は、A / Bテストよりも迅速かつ簡単にできるユーザーテストのプログラムを使用し顧客が望むものを提供しましょう。リモートユーザーテストでは、2週間に1回、各メジャーリリースの後にだれでも実行可能なユーザーテストを実行すると、何を変えるべきか、なぜ変えるべきなのかについての沢山アイデアが得られるでしょう。
まとめ
A / Bテストがうまくいかないと言ってるのではありません。トラフィックが多いサイトの統計情報は、データサイエンティストによってテストされ、検討され、分析されれば、あらゆる大企業にとって重要項目となるでしょう。 あなたのビジネスがそのカテゴリに入らない場合は、他の場所に労力を注ぐべきです。
この記事を読んだ後に、1つの簡単な変更をテストすることでサインアップ数が50%増加したと主張するスタートアップブログ投稿を目にすれば、非常に疑わしいと思うでしょう。トラフィックの量や結果を知らせていないのであれば、おそらくそれは無視してかまいません。A / Bテスト結果には虚偽のものも多いのです。