コラム詳細

Tableau、ヒストグラムを活用してデータ分布を可視化しよう

2024年01月26日

  • Tableau
  • レポート・ダッシュボード
  • 使い方

はじめに
セラクCCCのSalesforce推進部Tableau担当のUです。「データを活用して新しい施策を打ちたいが、何から始めたらよいか分からない」という際には、データの分布を可視化して掘り下げるポイントを探すのがオススメです。そこで、本記事ではヒストグラムを使用してデータの分布を可視化する方法についてご紹介します。

 

ヒストグラムとは

ヒストグラムはデータの「ばらつき」を可視化するグラフで、柱図表や度数分布図、柱状グラフとも呼ばれます。
横軸では連続する数量を「階級」や「ビン(bins)」と呼ばれる区分に分割し、縦軸はこの区分ごとの数量を柱の高さ、柱が作る峰で分布の「ばらつき」を表現します。

 


<ヒストグラムのイメージ>

 

ヒストグラムは顧客の取引回数や成約までの期間など、さまざまな視点での分布を表現できます。
商談に関連するデータを例に考えてみましょう。商談とそれに紐づくデータとして[取引先名]や[商談金額]、[取引先担当者]、取引担当者との[最新連絡日]があるだけで以下のような可視化が可能です。

 

  • ・[商談金額]を横軸に、商談件数を縦軸に取って売上規模の分布を可視化
  • ・商談件数を横軸に、取引先企業数を縦軸に取って顧客満足度を可視化
  • ・取引担当者の[最新連絡日]を横軸に、縦軸に取引担当者人数を取って当社担当者のコミュニケーションが十分なのか可視化

 

複数のヒストグラムを組み合わせて利用する以外にも、データの粒度を変える、高い峰や低い裾野のデータを深掘りするなど使い方を工夫することで潜在的な課題を可視化できます。

 

ヒストグラムと棒グラフの違い

ヒストグラムと棒グラフは似ているように見えますが、本質はまったく異なるグラフです。ヒストグラムは分布を、棒グラフは数量比較を表現します。たとえば小売業で商品分類ごとの売上を比較するケースを考えてください。棒グラフは横軸が商品分類という連続していない項目でも利用できますが、ヒストグラムは使えません。一方、どの価格帯の商品を充実させるか検討したい場合には、価格帯ごとに商品売上数の分布を可視化できるヒストグラムが効果的です。

 


<棒グラフとヒストグラムの違いは分布表現>

 

『Tableau Desktop』でヒストグラムを作成する2種類の手順

『Tableau Desktop』でヒストグラムを簡単に作成する2種類の手順を紹介します。

 

手順A:[表示形式]を利用する

[表示形式]を利用する手順は非常に簡単です。
Tableau Desktop画面左の[データ]ペインのメジャーからヒストグラムの横軸に使いたい項目を1つ選び、[表示形式][ヒストグラム]の順で選択します。
この際、縦軸の項目は自動的に挿入されるため、場合によっては粒度を変更するなど調整が必要です。

 


<表示形式からヒストグラムを選択する>

 

[データ]ペインの[ディメンション]には「先ほど選択した項目名(ビン)」という項目が新しく追加されています。
この「先ほど選択した項目名(ビン)」を右クリックして「編集」を選ぶと、ビンのサイズを値の範囲内に記載のある最小値から最大値の間で変更可能です。[ビンサイズの提案]をクリックするとTableauが自動計算した推奨値に変更できるほか、手動での調整もできます。
ヒストグラムは棒と棒の間隔が大きすぎると見にくくなってしまうため、任意で[表示形式]から[マーク]、[サイズ]の順で選択して棒の横幅を調整してください。

 


<ビンの編集画面>

 

手順B:[データ]ペインから[ビン]設定する

[ピン]を先に設定する手順もあります。
[データ]ペインの任意の項目を右クリックから[作成]、[ビン]の順で選択すると、ビンのサイズを値の範囲内に記載のある最小値から最大値の間で変更可能です。[ビンサイズの提案]をクリックするとTableauが自動計算した推奨値に変更できるほか、手動での調整もできます。

 


<[作成]から[ビン]を設定する>

 

ビンの編集が完了すると、[データ]ペインのディメンションに「先ほど選択した項目名(ビン)」という項目が新しく追加されます。この項目を[列]に配置してヒストグラム作成は完了です。
ヒストグラムは棒と棒の間隔が大きすぎると見にくくなってしまうため、[マーク]から[サイズ]の順で選択して棒の横幅を調整してください。

 

ヒストグラムで表現したデータの読み取り方

ヒストグラムは分布でデータの特徴を可視化できます。6つの主な形状とその特徴をご紹介します。

 

・単峰性
分布の中央が最も高くなり両端に向けて左右対称に減少します。データが同質の集団である場合に現れやすい形状です。
・多峰性
分布の左右に複数の峰を持ち中央が低くなります。中央のデータに誤りがある場合や、データ内に異なる集団が2つ存在する場合に表れやすい形状です。データの誤りの可能性を排除するために集計データを確認しましょう。
・散らばりが大きい
データの散らばりが大きくなるにつれて峰は緩やかになり、散らばりが極端に大きいと凸凹になります。データ数が少ない場合や区分の幅(ビン)が少ない場合に現れやすい形状です。区分の幅を調整する、データの粒度を大きくして使用する件数を増やすといったように調整すると、綺麗な峰型になる場合があります。
・散らばりが小さい
単峰性に似ていますが、傾斜が大きい形状です。データのばらつきが小さいため、区分の幅を細かく調整すると特徴を分かりやすく表現できる場合が多いです。
・左右のどちらかに偏る
右側か左側の一方に分布が偏ります。傾斜が極端な部分は上限や下限を設定して集計データの数値を切り捨てている場合に現れることが多いため、集計データを確認して原因を探しましょう。
・外れ値がある
大きな山型以外にポツンと外れ値が存在します。異質なデータの混入やデータ入力の誤りなどが主な原因です。思いもよらぬ発見につながる場合があるため、外れ値は詳細に分析しましょう。

 


<ヒストグラムの形状と意味>

 

まとめ

ヒストグラムの基礎的な作成は簡単であり、データ分析の際にまず大きな分布を可視化したいという場合に効果的です。しかしヒストグラム活用には、中央値や標準偏差といった統計学の知識や「複数のヒストグラムを重ねる」といった応用テクニックも必要となります。そのため、より実戦的にTableauでヒストグラムを活用したいという方はぜひご相談ください。当社には300名(23年5月時点)超のSalesforce/Tableau専門コンサルタントやセキュリティ技術者が在籍しており、定着や活用支援サービスを行っております。

Salesforceでお悩みなら、
まずはお気軽に
お問い合わせください

  • TOP
  • コラム一覧
  • Tableau、ヒストグラムを活用してデータ分布を可視化しよう