ヒストグラムとは、データの度数分布がわかるグラフのことです。データのばらつきや傾向を把握しやすいというメリットがあります。
製造現場での品質管理(QC、Quality Control)に使われて「QC七つ道具のひとつ」と言われるほか、「調査結果のプレゼンテーション」「顧客分析・顧客層の把握」などでも利用されます。
ヒストグラムは棒グラフとよく似ていますが、用いるべきシーンは異なります。両者の違いを把握しておくことで、シーンに応じた適切な使い分けが可能です。
この記事ではヒストグラムの活用例や、棒グラフとの違い、そしてヒストグラムの簡単な作り方についても紹介します。
関連記事
・インフォグラフィックとは!作り方と作成する上でのコツを解説!
・ピボットテーブルの使い方とは?基本を解説
・標準偏差とは?求め方やデータ活用法を解説
目次
ヒストグラムとは
まず「ヒストグラムとはどんなグラフか」「棒グラフとはどう違うのか」について解説します。
ヒストグラムとは
ヒストグラムとは、データの分布を見るために使われるグラフです。具体的にはデータをいくつかの階級に分け横軸とし、縦軸にはデータの数(人数や個数)を入れます。
例えば「テストの点数分布」「店舗ごとの売上高の分布」「ある畑で取れたサツマイモ(1個当たり)の重さの分布」などを示すときに使います。
ヒストグラムでは、複数の階級をまとめたい場合には、階級の横幅を伸ばします。つまり個数が面積に比例するのが特徴です。
棒グラフとの違い
ヒストグラムと似ているグラフに、棒グラフがあります。どちらも数字の大きさを棒(長方形)で示しているのが共通点です。
しかしヒストグラムと棒グラフには、以下のような違いがあります。
ヒストグラム | ・連続したデータの度数分布を示す ・横軸の階級に連続性がある ・横軸の階級の順番は変えられない(区切り幅は変えられる) ・棒と棒がくっついている |
棒グラフ | ・1本の棒が示す内容は、それぞれ独立している ・横軸の順番は入れ替え可能 ・棒と棒の間に隙間がある |
例えば、ある生産者が生産したみかんの重量の度数分布を示したいときにはヒストグラムが適しています。
一方生産者A~Eそれぞれが栽培したみかんの平均重量を比べたいときには、棒グラフが適しています。
生産者ごとの平均重量を比べる際には、横軸の順番を入れ替えても問題ありません。
ヒストグラムの種類
ヒストグラムの形には、いくつかの種類(分類)があります。
一般型(左右対称型)
一般型(左右対象型)は、ヒストグラムの基本的な形で、中心部の数値が多く、左右対称に広がります。テストの点数分布や身長の分布でよく見られる形です。
左右の広がりがなだらかな場合はばらつきが大きく、鋭い山型になっている場合はばらつきが小さいことがわかります。
ふた山型
ふた山型(二つ山型)は、中心付近の数値が少なく、左右の数値が多くなっている形です。
「データが2つのグループに分かれている」「中央の値が間違っている」「異常値が混入している」などの理由が考えられます。
データが2つのグループに分かれている例としては、「男性と女性の身長が混ざっている」「ベテラングループと新人グループの作業スピードが混ざっている」などがあります。
チョコレートのように「他の月より売り上げが多くなる月(バレンタインデーがある2月)」がある商品なども、2月と2月以外の月のデータをわけて分析する必要があります。
歯抜け型(くし歯型)
歯抜け型(くし歯型、ギザギザ型)は、デコボコした山の形(くしの形)になっているヒストグラムです。
歯抜け型になる理由としては、「データが少ない」「区間の幅が狭い」などが考えられます。歯抜け型になってしまった場合は、区間の幅を調整して左右対称型に近づけます。
右すそ引き型(左すそ引き型)
右すそ引き型は、頂点が一般型(左右対象型)の左に寄っていて、右に長く裾を引いている形になります。
一方左すそ引き型は、データが右に偏っていて、左側に長く裾を引く形です。
絶壁型
データの頂点が、左右どちらかに極端に寄っているのが形です。データの数値に上限や下限を設けて、上限・下限を超えた数値を切り捨てている際に現われます。
絶壁型になるのは、集計前に不良品を選別し、不良品なしで分析した場合などです。
離れ小島型
離れ小島型のヒストグラムでは、中央値とは離れた場所に、少量のデータが存在します。離れ小島(外れ値)が発生することで、平均値が引き下げられたり引き上げられたりします。
離れ小島が発生する理由としては、「集計や入力のミス」「不良品の発生」などが考えられます。
ヒストグラムの活用例
ヒストグラムの活用例を紹介します。
マーケティング
ヒストグラムはマーケティングの分野で、「消費者の行動」や「市場調査の結果」を示すときに使われることが多い傾向にあります。
ターゲット層の行動や傾向を効率的に把握・理解したり、「地域ごと」「性別ごと」「年齢ごと」で簡単に比較したりできるためです。把握したターゲット層の特徴を、より効果的なマーケティング戦略の立案に生かすことが可能となります。
また売上データをヒストグラムで視覚化することで、人気商品の価格帯がわかるなど、販売戦略の改善にも繋がります。
関連記事
・データドリブンとは?データドリブンマーケティング実現のために必要なことを解説
・データサイエンスとは!意味や概念をわかりやすく解説!
営業
ヒストグラムは営業活動にも使えます。
例えば顧客の購入頻度や累計購入金額に応じてアプローチを変えたいときに、「購入頻度」「累計購入金額」「最終購入日から何日経っているか」のヒストグラムをつくることで、顧客を「潜在顧客」「初回購入のみの顧客」「リピーター」といったグループ分けの参考になります。
「ある商品が売れる時期」「あまり売れない時期」や、エリア・店舗ごとの売り上げにおける特徴を把握することも可能です。
ヒストグラムを2つ重ねれば、「営業活動の改善をしたあと、売上がどう変わったか」も一目で把握できます。
関連記事
・リピーターとは! 増やすための施策、獲得の重要性を解説!
・インサイトセリング、ビジョンセリングとは?マーケターが知っておきたい新たな営業手法
品質管理
ヒストグラムは製造現場における品質管理でも使われてきました。
例えば製造された「部品の重さやサイズ」「製造にかかる時間」のデータをヒストグラムにしたとき、何らかの異常値がある場合には、「製造過程に問題がある」と推測できます。
データを分析する視点によって、「どの製造グループ・スタッフ」「どの時間帯」「どの機械」で問題が発生しているのかもわかり、対策しやすくなります。
教育
教育分野でもヒストグラムが活用されています。
例えば「テストの成績分布」をヒストグラムで示すことが良くあります。テストを作成した教員が想定した点数の範囲内に人数が集まっているかどうか見ることで、「テストの難易度」
「授業の内容や指導方法」を見直すきっかけになるでしょう。
ヒストグラムの特長
ヒストグラムがもつ特長について紹介します。
データの分布が視覚的にわかる
データの分布が視覚的にわかるのは、ヒストグラムがもつ特長のひとつです。ヒストグラムなら、一目でデータのばらつきを把握できます。
また離れ小島型の発生などきれいなヒストグラムにならない場合は、異常なデータや、間違ったデータの混入があったと判断できます。
視覚的に把握できることで、「地域ごとの比較」「事業所ごとの比較」などもしやすくなりますし、プレゼンや説明の資料としても有効です。ヒストグラムを二つ重ねることで、「施策導入前後の比較」などもしやすくなります。
階級分けによるデータの整理ができる
階級分けによってデータを整理できるのも、ヒストグラムの特長です。ヒストグラムにはデータとして集められた数字を階級分けすることにより、意味を分析できるグラフだからです。
階級分けは自分で決められますが、データの分布がわかりやすくなるように分ける必要があります。
データの特長を形状で読み取れる
データの特長をグラフの形から読み取れるのも、ヒストグラムの特長です。ヒストグラムではデータの分布が直感的にわかり、さらに分布の特徴(上限や下限がどこなのか、どこに偏っているのかなど)もわかります。
例えば、ある企業の従業員たちの年齢分布をヒストグラムで示すと、その企業の傾向が読み取れます。まず全体の大まかな傾向を把握したいときに、ヒストグラムが役立ちます。
ヒストグラムの作成方法
ヒストグラムの作り方を紹介します。
作成目的を明確にする
まずはヒストグラムを作成する目的を明確にしましょう。調査目的を明らかにしておかないと、どんなデータを集めたらいいのかわからないからです。
ヒストグラムの作成目的としては「生徒の成績を把握し、改善が必要な教科・科目を把握したい」「営業成績の分布を把握し、指導に活かしたい」「製造工程における不具合の要因を調べたい」などがあるでしょう。
データを収集し整理する
ヒストグラムの元になるデータを収集します。一般的にデータ数は、100程度以上必要だと言われています。データを収集したら、最大値と最小値を求めておきましょう。
度数分布表を作成する
ヒストグラムを作成する前には、度数分布表を作成します。
度数分布表の作成に必要なのは以下の要素です。
要素 | 決め方の目安・方法 |
区間の数 | ・通常は「√データ数(データ数の平方根の整数部分)」で計算 ※スタージェスの公式というもので目安を求める方法もある |
区間の幅 | (データの最大値)-(最小値)/区間の数 |
下側境界値 | 第一区間の下側境界値=(最小値)-(測定単位/2) |
上側境界値 | (下側境界値)+(区間の幅) |
区間の中心値 | {(下側境界値)+(上側境界値)}/2 |
ある製品のサイズを計測したデータを想定した場合の、度数分布表のイメージは以下の通りです。データ数は100で、測定単位(測定の刻み)は0.01、最小値49.50、最大値50.56です。
No. | 区間 | 区間の中心値 | 度数(データの数) |
1 | 49.495~49.605 | 49.550 | |
2 | 49.605~49.715 | 49.660 | |
3 | 49.715~49.825 | 49.770 | |
4 | 49.825~49.935 | 49.880 | |
5 | 49.935~50.045 | 49.990 | |
6 | 50.045~50.115 | 90.100 | |
7 | 50.115~50.265 | 90.210 | |
8 | 50.265~50.375 | 90.320 | |
9 | 50.375~50.485 | 90.430 | |
10 | 50.485~50.595 | 90.540 | |
計 |
データの度数をカウントする
データの数をカウントして、度数分布表に記入します。
度数の記入が終わった度数分布表のイメージは以下の通りです。
No. | 区間 | 区間の中心値 | 度数(データの数) |
1 | 49.495~49.605 | 49.550 | 5 |
2 | 49.605~49.715 | 49.660 | 4 |
3 | 49.715~49.825 | 49.770 | 7 |
4 | 49.825~49.935 | 49.880 | 11 |
5 | 49.935~50.045 | 49.990 | 12 |
6 | 50.045~50.115 | 90.100 | 23 |
7 | 50.115~50.265 | 90.210 | 13 |
8 | 50.265~50.375 | 90.320 | 13 |
9 | 50.375~50.485 | 90.430 | 7 |
10 | 50.485~50.595 | 90.540 | 5 |
計 | 100 |
「横軸」と「縦軸」を設定する
横軸には区間(階級)を記入します。そして縦軸にはデータの数(度数)を書き入れます。これで実際にヒストグラムを作図する準備が整いました。
度数分布表をもとに、各区間の度数に応じた柱を書き入れて完成です。
ヒストグラムを作図する
上記は手書きでヒストグラムを作図する方法ですが、Microsoft Excelを使えば、簡単にヒストグラムを作成できます。
Microsoft Excelでヒストグラムを作図する方法は以下の通りです。
1. データを準備する
2. データを選択肢、「挿入タブ>統計データの挿入>ヒストグラム」をクリック
3. グラフにタイトルを追加
4. 横軸付近で右クリックし、軸の書式設定でビンの幅を調整
5. 指定数値より大きい数・小さい数をまとめたい場合は「ビンのオーバーフロー」「ビンのアンダーフロー」で設定
Microsoft Excel2016以降からは、度数分布表の作成なしでデータから直接ヒストグラムを作成できるようになっています。なお度数分布表からヒストグラムを作成して横軸の幅がおかしいときには、軸の書式設定でビンを「分類項目別」にしましょう。
ヒストグラム作成時に注意すること
ヒストグラムを作成する時に注意したい点を紹介します。
適切な階級の設定
ヒストグラムを作成する時にもっとも注意したいのは、適正な階級を設定することです。ヒストグラムでは、階級幅のとり方によってグラフの形が変わって印象も変わり、誤った解釈につながりかねません。
例えば階級幅が狭すぎると、きれいな山形の分布にならず歯抜け型になってしまい、データの傾向が掴みにくくなってしまう可能性があります。
また階級の区切り方が中途半端だと、わかりにくくなります。「10ごと」「100ごと」など、きれいな数字で区切るほうがわかりやすいでしょう。また「1以上10未満」など、「以上」と「未満」を明確にすることも重要です。
階級幅の数や決め方に目安はありますが、「必ずこうしなさい」というルールはありません。
ヒストグラムを一目見ればデータの特徴がわかるように区切ることが求められますので、実務では、いくつかグラフを作ってみて分布がわかりやすい幅を採用することが多いです。
まとめ:ヒストグラム活用でわかりやすくデータを提示しよう
ヒストグラムはデータの分布やばらつきを一目で確認できるグラフです。会議資料やプレゼン資料にヒストグラムを活用することで、「数字を使って言いたいこと」を伝えやすくなります。
手書きで作成するのは手間がかかりますが、エクセルを使えば簡単に作成できます。
ただし区間幅の設定によっては分布の傾向がわかりにくくなってしまう可能性があります。上記の場合は区間幅の設定を変更するなどの工夫が必要です。