「データの分析が苦手」
「データの総復習がしたい」
今回はデータの分析に関するこんな悩みを解決します。

データの分析に関する公式をまとめた「完全攻略」記事を書きました。
データの分析 重要公式
本記事では、数学ⅠAのデータの分析について徹底解説します。
長い記事ですがゆっくり読めばデータの分析の総復習ができるようになっています。
数学が苦手な方は「Step1:基礎知識を高速インプットして土台を作る」で5ステップに分けて勉強法を解説しています。
データの分析以外の単元についてもまとめ記事を出しています。
度数分布表
度数分布表とは、「データをいくつかの階級に分けて、各階級のデータの個数を表した表」です。
用語の解説
①階級:データを分ける区間を表します。この度数分布表では20点ごとに分けている区間が階級です。
②階級値:各階級の真ん中の値を階級値といいます。たとえば「20点以上40点未満」の階級の階級値は30です。
③度数:その階級に含まれるデータの個数を表します。
④相対度数:全体の度数に対して、その階級に属する度数の割合
⑤階級の幅:階級の広さを指します。この度数分布表では20点ごとに区切っているので階級の幅は20です。
度数分布表にすることでデータ全体の分布が掴みやすくなります。
例えば以下のようなデータがあるとき、点数の分布はいまいち分かりません。
テスト結果
82 63 91 46 53 7 37 97 15 44 66 74 59 53 62 (点)
そこでテストの点数を一定の幅で分けて、表にしたものが度数分布表です。
度数分布表の各値の求め方は「度数分布表の意味と各値の求め方」で解説しています。
-
度数分布表とは?表の意味と各値の求め方を解説!
続きを見る
ヒストグラム
ヒストグラムとは、度数分布表を棒グラフにしたものです。
左の度数分布表をもとに、右のヒストグラムを作成しました。
ヒストグラムの書き方
それではヒストグラムの書き方を解説します。
ここに英語のテスト結果があります。
テスト結果
82 63 91 46 53 7 37 35 26 44 66 74 59 53 38 (点)
このままでは各階級の度数が分かりづらいので、度数分布表にまとめます。
度数分布表で表したものが下の表です。
データの整理ができたのでヒストグラムを書いていきます。
横軸には階級を書き入れます。
そして各階級の度数を棒グラフに表します。
これでヒストグラムの完成です。
ヒストグラムについては「ヒストグラムの意味と書き方」で詳しく解説しています。 続きを見る
ヒストグラムの意味と書き方!平均値・中央値の求め方を解説!
データの代表値
データ全体の特徴を一つの値を表すものをデータの代表値といいます。
今回は代表値のなかでも、「平均値」,「最頻値」,「中央値」の3つを解説します。
覚えておきたい代表値
- 平均値
- 最頻値
- 中央値
平均値
代表値の中では、平均値が1番身近な代表値だと思います。
全てのデータ値を足して、データの個数で割ると平均値が求められます。
つまり変数\(x\)の\(n\)個の値を\(x_1 ,x_2 ,\cdots,x_n\)とするとき、平均値\(\bar{x}\)は
\[\displaystyle \bar{x}=\frac{x_1 +x_2 +x_3 +...+x_n}{n}=\frac{1}{n}\sum_{k=0}^n x_k\]
で求めることができます。
式にすると少し難しいですが、やっていることは
- 全てのデータの値を足す
- 1で求めた値をデータの個数で割る
これで平均値を求めることができます。
⇒平均値とは?平均値の意味と中央値との違いを解説 続きを見る
平均値とは?平均値の意味と中央値との違いを解説
中央値
中央値は、「データを大きさ順に並べ替えたときに中央にある値」を指します。
データの個数が偶数なのか奇数なのかによって、中央値の求め方が変わるので注意です。
中央値の求め方
データの個数が奇数のときは簡単です。
以下の場合は、中央値60です。
しかし、データの個数が偶数の場合の中央値はどうでしょう。
データの個数が偶数個の時は、中央に隣接する2つのデータの値を足して2で割ったものを中央値とします。
中央値の求め方
データが奇数個のとき:大きさ順に並び替えて中央にくる値
データが偶数個のとき:大きさ順に並び替えて中央に隣接するデータの平均
中央値のメリット&デメリットについては「中央値(メジアン)とは?中央値の求め方とメリットを解説!」で解説しています。 続きを見る
中央値(メジアン)とは?中央値の求め方とメリットを解説!
最頻値
最頻値とは、「もっとも登場回数が多い値」のことを指します。
上の図の場合、69が最も多く登場していているため、最頻値は69になります。
度数分布表の最頻値
度数分布表の最頻値は、「度数が最も高い階級の階級値」です。
参考
各階級の真ん中の値を階級値といいます。
例えば「20点以上40点未満」の階級の階級値は30です。
上の度数分布表で1番度数が大きいのは「40点以上60点未満」の階級です。
「40点以上60点未満」の階級値は50点なので、最頻値は50となります。
最頻値についてもっと詳しく知りたい方 続きを見る
最頻値とは?最頻値の意味と求め方を解説!
データの四分位数
データの散らばりの様子を分布といいます。
データの分布が異なっていても、平均値や中央値が同じになることもあります。
データの範囲
データの範囲というのは、「最大値と最小値の差」です。
つまり以下のようなデータが存在するとき、データの範囲は「25」です
データの最大値から最小値の差を求めたものが範囲です。
⇒データの範囲の求め方! 続きを見る
データの範囲とは?範囲の求め方とデータの分析
四分位数
データを大きさ順に並べたときに、4等分する位置の値を四分位数といいます。
四分位数の求め方
四分位数の求め方を解説します。
今回は、データの個数が偶数の時を例にして解説します。
四分位数の求め方
- データを大きさ順に並べる
- 中央値を求める
- 中央値を境に2等分する
- 下組の中央値,上組の中央値を求める
データの大きさが偶数個の時は中央値が1つのデータに定まりません。
中央の両隣のデータの値を足して2で割ります。
四分位数はデータの個数の偶奇によって、求め方が少し変わります。
あまり自信がない方は「四分位数の求め方を解説」を参考にしてみてください。
-
四分位数の求め方をわかりやすく解説!
続きを見る
四分位範囲・四分位偏差
四分位数における「第2四分位数と第3四分位数の差」が四分位範囲です。
また、四分位範囲の半分を四分位偏差と呼びます。
四分位範囲について詳しくはこちら 続きを見る
⇒四分位範囲と四分位偏差の意味と求め方
四分位範囲と四分位偏差の意味と求め方
箱ひげ図
データの分析で意外と理解されていないのが箱ひげ図です。
箱ひげ図は「最小値」「最大値」「四分位数」「平均値」が分かる優れものです。
箱ひげ図の各線の見方を覚えておきましょう。
①の線\(\cdots\)最小値
②の線\(\cdots\)第1四分位数
③の線\(\cdots\)中央値
④の線\(\cdots\)第3四分位数
⑤の線\(\cdots\)最大値
箱ひげ図の書き方
箱ひげ図の書き方は以下の手順です
箱ひげ図の書き方
- データを大きさ順に並び替える
- 四分位数を求める
- 最大値・最小値・四分位数を数直線上に書き込む
- 四分位数の箱を作る
- 最大値・最小値と箱を結ぶひげを書く
箱ひげ図については別の記事でまとめました。
データの分散
四分位数からデータの分散の様子を読み取ることができました。
次はデータの値を用いて散らばりの度合いを表す分散について解説をします。
分散
分散は、データの散らばりの大きさを表す指標です。
分散の大小によってデータ全体の分布をイメージすることができます。
分散の大小
分散が大きい⇒平均値から離れている値が多い
分散が小さい⇒平均値に近い値が多い
分散の求め方
分散は以下の公式で求めることができます。
分散の公式
変数\(x\)の値が\(x_1,x_2,...,x_n\)で、平均が\(\bar{x}\)のとき
分散\(s^{2}\)は、
\begin{eqnarray}
s^{2}&=&\displaystyle \frac{1}{n}\{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+...+(x_{n}-\bar{x})^{2}\}[[
&=&\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^{2}
\end{eqnarray}
もしくは
\[\displaystyle s^{2}=\frac{1}{n}\sum_{i=1}^n x_i^{2} -\bar{x}^{2}\]
分散が求められると標準偏差や相関係数を求めることができます。
標準偏差や相関係数もテストで出題されるので確認しておきましょう。
分散については別の記事で詳しく解説しました
分散とは?分散の公式と求め方を解説!標準偏差や共分散との違いは?
-
分散とは?分散の公式と求め方を解説!標準偏差や共分散との違いは?
続きを見る
標準偏差
難しいと思われている標準偏差\(s\)ですが、分散\(s^{2}\)が分かれば簡単です。
まずはデータの値から分散を求めます。
分散の公式
変数\(x\)の値が\(x_1,x_2,...,x_n\)で、平均が\(\bar{x}\)のとき
分散\(s^{2}\)は、
\begin{eqnarray}
s^{2}&=&\displaystyle \frac{1}{n}\{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+...+(x_{n}-\bar{x})^{2}\}[[
&=&\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^{2}
\end{eqnarray}
もしくは
\[\displaystyle s^{2}=\frac{1}{n}\sum_{i=1}^n x_i^{2} -\bar{x}^{2}\]
そうして求めた分散の正の平方根が標準偏差です。
\[s=\sqrt{s^{2}}\]




⇒標準偏差とは?標準偏差の意味と求め方を徹底解説します! 続きを見る
標準偏差の公式と求め方を徹底解説します!
データの相関係数
データには2つの数に相関関係がある場合があります。
相関関係があるとは、
一方が増加するときもう一方も増加傾向がある。
もしくは、一方が増加すとき他方は減少傾向にある。
このように2つのデータが連動して動く傾向があることを相関関係があるといいます。
共分散
共分散とは、「2組の対応するデータ間の関係を表す数値」です。
xとyの共分散\(s_{xy}\)は次の公式で求めます。
共分散の公式
\[\displaystyle s_{xy}=\frac{1}{n} \sum_{i=0}^n (x_i -\overline{x})(y_i -\overline{y})\]
nはデータの総数
\(x_i\)と\(y_i\)は個々の数値
\(\overline{x}\)と\(\overline{y}\)はそれぞれの平均値
公式は少し難しいですが、共分散を求めるには大きく3つのステップです。
共分散を求めるステップ
- x,yの平均値を求める
- それぞれの偏差を求める
- 偏差の積の平均値を求める
詳しい手順ともう1つに簡単な求め方について「共分散の求め方」で解説しています。
-
共分散の求め方をサクッと解説!!
続きを見る
分散は1つのデータの散らばり度合いを示す数値でした。
それに対して、共分散は「2組の対応するデータ間の関係を表す数値」です。
共分散を求めることで、
「数学の点数が高いと英語の点数も高いのか?」
「2つのデータに関係性はないのか?」
そんなことを分析することができます。
相関係数
相関係数とは、「2つのデータ間にある関係の強さを表す指標」です。
①のグラフようにx軸の値が大きくなるにつれて、y軸の値も大きくなっていく関係を正の相関があるといいます。
逆に②のグラフには右に行くにつれ下がっているので、負の相関があるといいます。
③のグラフのように2つのデータ間に関係がないと思われるものを相関がないまたは相関関係がないといいます。
相関係数の求め方
相関係数の求め方を解説していきます。
\(x,y\)それぞれの標準偏差を\(s_{x},s_{y}\)として、共分散を\(s_{xy}\)とする。
相関係数の求め方
- 平均値を求める
- 偏差を求める
- 共分散を求める
- 分散を求める
- 標準偏差を求める
- 相関係数を計算する
相関係数を求めるには、途中で「共分散」「分散」「標準偏差」を求める必要があります。
それらがまだ理解できていない方は、さきにそちらを解決させましょう。
例として相関係数を求める手順を1つ示します。
相関係数の例題
5人が数学と英語のテストを受けたとします。
x:数学の点数 y:英語の点数
それぞれの点数が、
(x,y)=(40,50)(50,60)(60,80)(70,60)(80,100)
このとき、数学と英語のテスト結果のあいだにある相関係数を求めましょう。
1.平均値を求める
数学、英語それぞれの平均点を求めます。
2.偏差を求める
つぎに偏差を求めます。
偏差とは「データ値と平均値との差」を指します。
⇒偏差値とは?偏差値の意味と求め方をズバリ解説します!
3.共分散を求める
2で求めたそれぞれの偏差を掛け合わせて、共分散を求めます。
4.分散を求める
\(x,y\)それぞれの分散を求めます。
5.標準偏差を求める
4で求めた分散の正の平方根を計算して、標準偏差を求めます。
標準偏差は分散の正の平方根なので、
\(x\)の標準偏差:\(s_{x}=\sqrt{200}=10\sqrt{2}\)
\(y\)の標準偏差:\(s_{y}=\sqrt{320}=8\sqrt{5}\)
6.相関係数を計算する
長い道のりでしたが、最後に相関係数の公式に共分散、標準偏差を代入して相関係数を求めます。
\begin{eqnarray}
\displaystyle r&=&\frac{s_{xy}}{s_{x} s_{y}}\\
&=&\displaystyle \frac{200}{10\sqrt{2}×8\sqrt{5}}\\
&=&\displaystyle \frac{5}{2\sqrt{10}}\\
&≒&\displaystyle 0.79
\end{eqnarray}
したがって相関係数0.79を求めることができました。
「相関係数の意味と求め方」ではもう少し詳しく相関係数について解説しています。
-
相関係数の意味と求め方を分かりやすく解説!
続きを見る
データの分析 まとめ
今回はデータの分析について「完全攻略」記事としてまとめました。
データの分析に関する記事を網羅的にまとめましたが、詳しいポイントは各単元の記事で解説しています。
そちらもぜひ参考にしてください。
データの分析
データの分析以外の単元についてもまとめ記事を出しています。
教科書に内容に沿った解説記事を挙げているので、定期試験前に確認してください。
ぼくがたった4ヶ月で偏差値を19上げることができた体験談はこちら
それでは最後までご覧いただきありがとうございました。
みんなの努力が報われますように!
マストラ公式LINEアカウントを友達登録しよう!
マストラのLINE公式アカウントができました!
~実際の公式LINEのメニュー~
LINE画面からワンタップで各単元のまとめ記事が読めるようになるよ!
高校生専用のオンライン自習室など
様々なコンテンツを配信予定!
勉強に関する相談や質問にも答えるので、気軽にメッセージを送ってね!
▼この機会にぜひ登録!
完全個別指導のスタディトレーナー
スタディトレーナーは高校生の勉強を支える学習コーチングサービスです。
学習塾やオンライン家庭教師とは違い、365日いつでも質問や相談ができます。
目標に合わせた学習計画で、あなたの志望校合格を実現させます。
スタディトレーナーが行う
9つのサポート
- 勉強のやり方から教えるので安心!
- 目標から逆算した学習計画の作成
- 1人ひとりに合った参考書をお届け
- 映像授業で予習復習もバッチリ
- 24時間365日LINEで質問可能
- オンライン自習室も完備
- 進路相談もいつでも受付
- 1人じゃないから続けられる
- 苦手科目はプロ講師が1対1で指導
2022年度は定員8名としているので、ご希望の方は早めにお申し込みください。