(大規模サイト向け)データポータルでSearch Console のデータをエクスポートする際の注意点

2021年5月13日木曜日

4.データポータル(DataStudio)

t f B! P L

(大規模サイト向け)データポータルでSearch Consoleのデータをエクスポートする際の注意点
flickr(boxes)

JADE社のブログにて、Search Console の検索パフォーマンス レポートにおけるデータの取り扱い方法について長文なブログを書かせていただきました。


取扱注意!?Search Console の検索パフォーマンス レポートを正しく活用するために知っておくべきこと

https://ja.dev/entry/murayama/search-performance-report-in-search-console


Search Console の検索パフォーマンス レポートで表示されるデータは、誰しも簡単に閲覧することができ、データとして活用することができます。WebマーケターがSEOを考えた施策を策定するためには必須のデータです。

しかし、私たちWebマーケターが活用すべきそのデータにはデータの集計仕様とデータ表示時におけるいくつかの制約があるため、正しく活用するために理解しておくべきことをいくつか記載しました。もし、上記の記事を未読でしたらご覧いただければ幸いです。


この記事では、「取扱注意!?Search Console の検索パフォーマンス レポートを正しく活用するために知っておくべきことの補足として、主に大規模サイト向けではありますがデータポータルでSearch Console のデータをエクスポートする際の注意点を紹介します。


データポータルでSearch Console のデータをエクスポートする理由

Search Console の検索パフォーマンス レポートにおけるデータですが、大規模サイトで検索パフォーマンス レポートのデータを取り扱う場合、Googleデータポータル を利用することが多いのではないかと思います。

それは、Search Console のUI画面ではレコード表示およびデータエクスポートの上限が1,000行という大規模サイトにとっては厳しすぎるデータ表示時の制約が存在するためです。下記は個人ブログですが、個人ブログでさえ1,000行では足りないことがわかります。

データポータルでSearch Consoleのデータをエクスポートする際の注意点_01


データポータルでは、ディメンションに「クエリ」のみ、「ページ」のみを設定した場合は、レコード表示およびデータエクスポートの上限が1,000行ではなく5,000行まで拡張されます。

また、ディメンションに「クエリ」と「ページ」の2つを設定した場合は、50,000行未満までのレコード表示およびデータエクスポートが可能となります。(そのデータも一部除外されたデータではあるのですが…)


データポータルでSearch Consoleのデータをエクスポートする際の注意点_02


そのため、ページ数が多いサイトで検索パフォーマンス レポートのデータを活用しようとした場合、データポータルを介してSearch Console の検索パフォーマンス レポートのデータを抽出するのが必然となります。

多くのWebサイトでは、上記のレコード上限以内でレコード上限超過データが切り捨てられることによる一部データの欠損が発生することなくデータをエクスポートすることが可能です。


データポータルでSearch Console のデータをエクスポートする際の2つの注意点

前述までのように、データポータルを利用することでSearch Console の検索パフォーマンス レポート のデータをエクスポートすることができます。しかも、Search Console のレポートUIからエクスポートするより、(一部のデータ欠損はあるものの)大きなボリュームでデータをエクスポートすることができるというメリットが存在します。

しかし、サイト内でページ数の多いサイトを中心にデータポータルでのデータエクスポート時にも注意点が存在します。

注意点1:Search Console プロパティごとのレコード上限

取扱注意!?Search Console の検索パフォーマンス レポートを正しく活用するために知っておくべきことの記事でも記載しましたが、Search Console のドメインプロパティ、URLプレフィックスプロパティの両プロパティに共通して、データセットごとのレコード上限数が存在します。

データポータルでSearch Consoleのデータをエクスポートする際の注意点_03

例えば、上記のようにWebサイトAがSearch Console に登録されていたとします。
以下のような構成で、それぞれプロパティが登録されています。


  • Search Console プロパティA:サイト全体を対象とするドメインプロパティ
  • Search Console プロパティB:/Sample/ディレクトリ以下を対象とするドメインプロパティ
  • Search Console プロパティC:/Sample/hoge/ディレクトリ以下を対象とするドメインプロパティ


それぞれのプロパティにて、データポータルを介してエクスポートできるSearch Console のデータレコード上限数は共通となります。そのため、プロパティ内で計測される可能性があるページ数が多いほど、データが欠損する可能性が高まります。

例えば、以下のようにページが存在したとします。

  • ドメイン全体ページ数:30,000
  • /Sample/ディレクトリ以下ページ数:10,000
  • /Sample/hoge/ディレクトリ以下ページ数:3,000


仮に、上記のページすべてがGoogle検索の検索結果に表示された場合、Search Console の検索パフォーマンス レポートではデータが集計対象のページとなります。
しかし、データポータルにてディメンションを「ページ」、指標を「クリック数」で設定し、データをエクスポートしようとすると、5,001行以上のページにおけるデータは切り捨てにより一部欠損した状態でデータがエクスポートされることになります。
つまり、Search Console プロパティAでは25,000URLが、Search Console プロパティBでは5,000URLのページにおけるデータをエクスポート対象から除外されることになります。
Search Console プロパティCのみ計測対象となるすべてのページにおけるデータがエクスポートできます。

そのため、Search Console プロパティにおけるデータレコード上限数に注意してデータをエクスポートする必要があります。

注意点2:データポータルからエクスポートする際のレコード上限

こちらは取扱注意!?Search Console の検索パフォーマンス レポートを正しく活用するために知っておくべきことの記事では触れていないデータポータル独自の仕様です。

それは、データポータル上では 1,000,000 行までデータが表示していても、データをエクスポートしてみると 750,000 行までのデータしかエクスポートできないという点です。


データポータルでSearch Consoleのデータをエクスポートする際の注意点_04


上記では、1,000,000 行のデータが表示されています。しかし、このデータをエクスポートしてみると、750,000 行までのデータしかエクスポートされないのです。

これはデータポータルでのデータエクスポート上での仕様と考えられ、データをエクスポートしたい対象期間を長くする程、750,001 行以上に含まれてしまうデータが存在する場合には、特に注意が必要となります。

下記は、データエクスポートした数値を調査したものとなります。

(合計レコード数における750,000という値以外の数値は、実際の数値を変更しています)

データポータルでSearch Consoleのデータをエクスポートする際の注意点_06

データ対象期間が2021/2/14 のみのデータでは合計レコード数が21,810、合計クリック数はが26,737でした。合計レコード数が750,000以内のため、レコード上限を超過したことによるデータの切り捨ては発生していないと考えられます。

データ対象期間が2021/1/24~2021/02/20 で2021/2/14 のみでのデータでは、合計レコード数が21,810、合計クリック数はが26,737でした。こちらも合計レコード数が750,000以内のため、レコード上限を超過したことによるデータの切り捨ては発生していないと考えられます。

しかし、データ対象期間が長くなった結果、合計レコード数が750,000以上となるとレコード上限を超過したことによるデータの切り捨ての発生が確認できます。

データ対象期間が2020/12/20~2021/02/20 で2021/2/14 のみでのデータでは、合計レコード数が23,804、合計クリック数はが19,402と、前述までの合計レコード数、合計クリック数より下回る数値となりました。


データ対象期間が長期化すればするほど、その傾向は顕著にあらわれます。


データ対象期間が2020/10/18~2021/02/20 で2021/2/14 のみでのデータでは、合計レコード数が12,994、合計クリック数はが9,954と、データ対象期間が2021/2/14 のみでのデータと比較すると大幅に合計レコード数、合計クリック数が減少してしまいました。


これは、データポータルにてデータの並び替えがクリック数の降順でソートされているため、日付、ページ、検索キーワードの組み合わせでクリック数が多い順に、データが表形式のテーブルへ表示されます。


2021/2/14のみを対象とするデータでは、75,000行以内にデータがおさまるため、超過分として欠損するデータはありません。

しかし、期間を長くすると2021/2/14分のデータが750,001行目以下の切り捨てられる超過分のデータ範囲に多く含まれてしまうため、2021/2/14分のデータにおける合計レコード数や合計クリック数が減少してしまうことをあらわします。

そのため、Search Console のデータをデータポータルを通じてエクスポートする際は、750,000 行を超過しないように注意しましょう。


BIツールが一般化しつつある今だからこそ気をつけよう

無料であるデータポータルを利用するユーザーは増えていると予想されることから、Search Console のデータを可視化するケースは数年前と比較すると格段に増加したのではないかと思います。

それに加え、TableauをはじめとするGoogle社以外のBIツールを利用するユーザーも増加すると、データポータルやSearch Console のAPIを利用してデータをエクスポートし、そのデータをBIツールに接続するといった利用方法も珍しくなくなってきつつあるようにも思います。

しかし、エクスポートするデータ自体にも、エクスポート手段にも独自の仕様が存在するため、結果的にイメージしていたものとは乖離があるデータをBIツールで可視化し、意思決定の場で利用してしまっているケースもあるかもしれません。

分析で重要なプロセスにデータのクレンジングがあるように、取り扱っているデータに対して理解を深めた上で活用したいと改めて感じた次第です。

QooQ