【数学Ⅰ】データの分析重要公式まとめ《完全攻略》

データの分析まとめ

「データの分析が苦手」
「データの総復習がしたい」
今回はデータの分析に関するこんな悩みを解決します。

高校生
データの分析の総復習がしたい...

 

データの分析に関する公式をまとめた「完全攻略」記事を書きました。

データの分析 重要公式

本記事では、数学ⅠAのデータの分析について徹底解説します。

長い記事ですがゆっくり読めばデータの分析の総復習ができるようになっています。

筆者の信頼性

定期テスト対策

中間テストがヤバイ!
河合塾Oneなら10分で分からないを解決できる!

大手予備校河合塾の新サービスを徹底解説しました。

>>河合塾Oneの特徴と評判を解説!実際に使ってみたリアルな感想

※いまなら7日間の無料体験あり

データの分析以外の単元についてもまとめ記事を出しています。

度数分布表

度数分布表とは

度数分布表とは、「データをいくつかの階級に分けて、各階級のデータの個数を表した表」です。

用語の解説

①階級:データを分ける区間を表します。この度数分布表では20点ごとに分けている区間が階級です。

②階級値:各階級の真ん中の値を階級値といいます。たとえば「20点以上40点未満」の階級の階級値は30です。

③度数:その階級に含まれるデータの個数を表します。

④相対度数:全体の度数に対して、その階級に属する度数の割合

⑤階級の幅:階級の広さを指します。この度数分布表では20点ごとに区切っているので階級の幅は20です。

度数分布表にすることでデータ全体の分布が掴みやすくなります。

 

例えば以下のようなデータがあるとき、点数の分布はいまいち分かりません。

テスト結果

82 63 91 46 53 7 37 97 15 44 66 74 59 53 62 (点)

 

そこでテストの点数を一定の幅で分けて、表にしたものが度数分布表です。

度数分布表1

 

度数分布表の各値の求め方は「度数分布表の意味と各値の求め方」で解説しています。

度数分布表
度数分布表とは?表の意味と各値の求め方を解説!
度数分布表とは?表の意味と各値の求め方を解説!

「度数分布表ってなに?」 「各値の求め方が分からない」 今回 ...

続きを見る

ヒストグラム

ヒストグラムとは、度数分布表を棒グラフにしたものです。

ヒストグラム

左の度数分布表をもとに、右のヒストグラムを作成しました。

ヒストグラムの書き方

それではヒストグラムの書き方を解説します。

ここに英語のテスト結果があります。

テスト結果

82 63 91 46 53 7 37 35 26 44 66 74 59 53 38 (点)

このままでは各階級の度数が分かりづらいので、度数分布表にまとめます。

度数分布表で表したものが下の表です。

データの整理ができたのでヒストグラムを書いていきます。

横軸には階級を書き入れます。

ヒストグラムの書き方

そして各階級の度数を棒グラフに表します。

ヒストグラムの書き方

これでヒストグラムの完成です。

ヒストグラムについては「ヒストグラムの意味と書き方」で詳しく解説しています。

データの代表値

データ全体の特徴を一つの値を表すものをデータの代表値といいます。

今回は代表値のなかでも、「平均値」,「最頻値」,「中央値」の3つを解説します。

覚えておきたい代表値

  • 平均値
  • 最頻値
  • 中央値

平均値

代表値の中では、平均値が1番身近な代表値だと思います。

平均値

全てのデータ値を足して、データの個数で割ると平均値が求められます。

 

つまり変数\(x\)の\(n\)個の値を\(x_1 ,x_2 ,\cdots,x_n\)とするとき、平均値\(\bar{x}\)は

\[\displaystyle \bar{x}=\frac{x_1 +x_2 +x_3 +...+x_n}{n}=\frac{1}{n}\sum_{k=0}^n x_k\]

で求めることができます。

 

式にすると少し難しいですが、やっていることは

  1. 全てのデータの値を足す
  2. 1で求めた値をデータの個数で割る

これで平均値を求めることができます。

平均値とは?平均値の意味と中央値との違いを解説

中央値

中央値は、「データを大きさ順に並べ替えたときに中央にある値」を指します。

奇数個の中央値

データの個数が偶数なのか奇数なのかによって、中央値の求め方が変わるので注意です。

中央値の求め方

データの個数が奇数のときは簡単です。

以下の場合は、中央値60です。
奇数個の中央値

 

しかし、データの個数が偶数の場合の中央値はどうでしょう。

偶数個の中央値

データの個数が偶数個の時は、中央に隣接する2つのデータの値を足して2で割ったものを中央値とします。

偶数個の中央値

中央値の求め方

データが奇数個のとき:大きさ順に並び替えて中央にくる値

データが偶数個のとき:大きさ順に並び替えて中央に隣接するデータの平均

中央値のメリット&デメリットについては「中央値(メジアン)とは?中央値の求め方とメリットを解説!」で解説しています。

最頻値

最頻値とは、「もっとも登場回数が多い値」のことを指します。

上の図の場合、69が最も多く登場していているため、最頻値は69になります。

度数分布表の最頻値

最頻値

度数分布表の最頻値は、「度数が最も高い階級の階級値」です。

参考

各階級の真ん中の値を階級値といいます。
例えば「20点以上40点未満」の階級の階級値は30です。

 

上の度数分布表で1番度数が大きいのは「40点以上60点未満」の階級です。

「40点以上60点未満」の階級値は50点なので、最頻値は50となります。

 

最頻値についてもっと詳しく知りたい方


データの四分位数

データの散らばりの様子を分布といいます。

データの分布が異なっていても、平均値や中央値が同じになることもあります。

データの範囲

データの範囲というのは、「最大値と最小値の差」です。

つまり以下のようなデータが存在するとき、データの範囲は「25」です

データの範囲の求め方

データの最大値から最小値の差を求めたものが範囲です。

 

データの範囲の求め方!

四分位数

データを大きさ順に並べたときに、4等分する位置の値を四分位数といいます。

四分位数

四分位数の求め方

四分位数の求め方を解説します。

今回は、データの個数が偶数の時を例にして解説します。

四分位数の求め方

  1. データを大きさ順に並べる
  2. 中央値を求める
  3. 中央値を境に2等分する
  4. 下組の中央値,上組の中央値を求める

データの大きさが偶数個の時は中央値が1つのデータに定まりません。

中央の両隣のデータの値を足して2で割ります。

四分位数の求め方(偶数個の場合)

四分位数はデータの個数の偶奇によって、求め方が少し変わります。

あまり自信がない方は「四分位数の求め方を解説」を参考にしてみてください。

四分位数
四分位数の求め方をわかりやすく解説!
四分位数の求め方をわかりやすく解説!

「四分位数の求め方が分からない」 「四分位範囲ってなに?」 ...

続きを見る

四分位範囲・四分位偏差

四分位数における「第2四分位数と第3四分位数の差」が四分位範囲です。

四分位範囲

また、四分位範囲の半分を四分位偏差と呼びます。

四分位偏差

四分位範囲について詳しくはこちら
四分位範囲と四分位偏差の意味と求め方

箱ひげ図

箱ひげ図

データの分析で意外と理解されていないのが箱ひげ図です。

箱ひげ図は「最小値」「最大値」「四分位数」「平均値」が分かる優れものです。

 

箱ひげ図の各線の見方を覚えておきましょう。

箱ひげ図の見方

①の線\(\cdots\)最小値

②の線\(\cdots\)第1四分位数

③の線\(\cdots\)中央値

④の線\(\cdots\)第3四分位数

⑤の線\(\cdots\)最大値

箱ひげ図の書き方

箱ひげ図の書き方は以下の手順です

箱ひげ図の書き方

  1. データを大きさ順に並び替える
  2. 四分位数を求める
  3. 最大値・最小値・四分位数を数直線上に書き込む
  4. 四分位数の箱を作る
  5. 最大値・最小値と箱を結ぶひげを書く

 

箱ひげ図については別の記事でまとめました。

データの分散

四分位数からデータの分散の様子を読み取ることができました。

次はデータの値を用いて散らばりの度合いを表す分散について解説をします。

分散

分散は、データの散らばりの大きさを表す指標です。

分散

分散の大小によってデータ全体の分布をイメージすることができます。

分散の大小

分散が大きい⇒平均値から離れている値が多い
分散が小さい⇒平均値に近い値が多い

分散の求め方

分散は以下の公式で求めることができます。

分散の公式

変数\(x\)の値が\(x_1,x_2,...,x_n\)で、平均が\(\bar{x}\)のとき
分散\(s^{2}\)は、

\begin{eqnarray}
s^{2}&=&\displaystyle \frac{1}{n}\{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+...+(x_{n}-\bar{x})^{2}\}[[
&=&\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^{2}
\end{eqnarray}

もしくは

\[\displaystyle s^{2}=\frac{1}{n}\sum_{i=1}^n x_i^{2} -\bar{x}^{2}\]

分散が求められると標準偏差相関係数を求めることができます。

標準偏差や相関係数もテストで出題されるので確認しておきましょう。

 

分散については別の記事で詳しく解説しました

分散とは?分散の公式と求め方を解説!標準偏差や共分散との違いは?

分散
分散とは?分散の公式と求め方
分散とは?分散の公式と求め方を解説!標準偏差や共分散との違いは?

「分散ってなんだっけ?」 「分散の求め方が分からない」 「標 ...

続きを見る

標準偏差

標準偏差

難しいと思われている標準偏差\(s\)ですが、分散\(s^{2}\)が分かれば簡単です。

まずはデータの値から分散を求めます。

分散の公式

変数\(x\)の値が\(x_1,x_2,...,x_n\)で、平均が\(\bar{x}\)のとき
分散\(s^{2}\)は、

\begin{eqnarray}
s^{2}&=&\displaystyle \frac{1}{n}\{(x_{1}-\bar{x})^{2}+(x_{2}-\bar{x})^{2}+...+(x_{n}-\bar{x})^{2}\}[[
&=&\displaystyle \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^{2}
\end{eqnarray}

もしくは

\[\displaystyle s^{2}=\frac{1}{n}\sum_{i=1}^n x_i^{2} -\bar{x}^{2}\]

そうして求めた分散の正の平方根が標準偏差です。

\[s=\sqrt{s^{2}}\]

高校生
標準偏差は分散が分かれば余裕ですね!
逆に分散が分からないと何もできないので、まずは分散を確実に覚えましょう!
シータ

標準偏差とは?標準偏差の意味と求め方を徹底解説します!

データの相関係数

データには2つの数に相関関係がある場合があります。

相関関係があるとは、

一方が増加するときもう一方も増加傾向がある。

もしくは、一方が増加すとき他方は減少傾向にある。

このように2つのデータが連動して動く傾向があることを相関関係があるといいます。

共分散

共分散とは、「2組の対応するデータ間の関係を表す数値」です。

xとyの共分散\(s_{xy}\)は次の公式で求めます。

共分散の公式

\[\displaystyle s_{xy}=\frac{1}{n} \sum_{i=0}^n (x_i -\overline{x})(y_i -\overline{y})\]

nはデータの総数
\(x_i\)と\(y_i\)は個々の数値
\(\overline{x}\)と\(\overline{y}\)はそれぞれの平均値

 

公式は少し難しいですが、共分散を求めるには大きく3つのステップです。

共分散を求めるステップ

  1. x,yの平均値を求める
  2. それぞれの偏差を求める
  3. 偏差の積の平均値を求める

共分散

詳しい手順ともう1つに簡単な求め方について「共分散の求め方」で解説しています。

共分散
共分散の求め方をサクッと解説!!

「共分散の公式は?」 「共分散の求め方が分からない」 今回は ...

続きを見る

 

分散は1つのデータの散らばり度合いを示す数値でした。

それに対して、共分散は「2組の対応するデータ間の関係を表す数値」です。

 

共分散を求めることで、

「数学の点数が高いと英語の点数も高いのか?」
「2つのデータに関係性はないのか?」

そんなことを分析することができます。

 

相関係数

相関係数とは、「2つのデータ間にある関係の強さを表す指標」です。

相関係数とは?

①のグラフようにx軸の値が大きくなるにつれて、y軸の値も大きくなっていく関係を正の相関があるといいます。

相関係数とは?

逆に②のグラフには右に行くにつれ下がっているので、負の相関があるといいます。

相関係数とは?

③のグラフのように2つのデータ間に関係がないと思われるものを相関がないまたは相関関係がないといいます。

 

相関係数の求め方

相関係数の求め方を解説していきます。

相関係数の公式
\(x,y\)それぞれの標準偏差を\(s_{x},s_{y}\)として、共分散を\(s_{xy}\)とする。

\(\displaystyle r=\frac{s_{xy}}{s_{x} s_{y}}\)

相関係数の求め方

  1. 平均値を求める
  2. 偏差を求める
  3. 共分散を求める
  4. 分散を求める
  5. 標準偏差を求める
  6. 相関係数を計算する

相関係数を求めるには、途中で「共分散」「分散」「標準偏差」を求める必要があります。

それらがまだ理解できていない方は、さきにそちらを解決させましょう。

 

例として相関係数を求める手順を1つ示します。

相関係数の例題

5人が数学と英語のテストを受けたとします。
x:数学の点数  y:英語の点数

それぞれの点数が、
(x,y)=(40,50)(50,60)(60,80)(70,60)(80,100)

このとき、数学と英語のテスト結果のあいだにある相関係数を求めましょう。

1.平均値を求める

数学、英語それぞれの平均点を求めます。
相関係数の求め方

2.偏差を求める

つぎに偏差を求めます。
偏差とは「データ値と平均値との差」を指します。
偏差値とは?偏差値の意味と求め方をズバリ解説します!

相関係数の求め方

3.共分散を求める

2で求めたそれぞれの偏差を掛け合わせて、共分散を求めます。
相関係数の求め方""

4.分散を求める

\(x,y\)それぞれの分散を求めます。
相関係数の求め方

5.標準偏差を求める

4で求めた分散の正の平方根を計算して、標準偏差を求めます。

標準偏差は分散の正の平方根なので、

\(x\)の標準偏差:\(s_{x}=\sqrt{200}=10\sqrt{2}\)
\(y\)の標準偏差:\(s_{y}=\sqrt{320}=8\sqrt{5}\)

6.相関係数を計算する

長い道のりでしたが、最後に相関係数の公式に共分散、標準偏差を代入して相関係数を求めます。

\begin{eqnarray}
\displaystyle r&=&\frac{s_{xy}}{s_{x} s_{y}}\\
&=&\displaystyle \frac{200}{10\sqrt{2}×8\sqrt{5}}\\
&=&\displaystyle \frac{5}{2\sqrt{10}}\\
&≒&\displaystyle 0.79
\end{eqnarray}

 

したがって相関係数0.79を求めることができました。

 

相関係数の意味と求め方」ではもう少し詳しく相関係数について解説しています。

相関係数
相関係数の意味と求め方を分かりやすく解説!
相関係数の意味と求め方を分かりやすく解説!

「相関係数って何を表してるの?」 「相関係数の求め方は?」 ...

続きを見る

データの分析 まとめ

今回はデータの分析について「完全攻略」記事としてまとめました。

データの分析に関する記事を網羅的にまとめましたが、詳しいポイントは各単元の記事で解説しています。

そちらもぜひ参考にしてください。

データの分析

データの分析以外の単元についてもまとめ記事を出しています。

教科書に内容に沿った解説記事を挙げているので、定期試験前に確認してください。

 

ぼくがたった4ヶ月で偏差値を19上げることができた体験談はこちら

偏差値40から60に上げたぼくの勉強法
【やれば上がるはウソ】偏差値40から60まで上げたぼくの勉強法!

「勉強してるのに成績が上がらない」 「テスト当日は頭が真っ白 ...

続きを見る

それでは最後までご覧いただきありがとうございました。

みんなの努力が報われますように!

記事トップに戻る

 

定期テストにおすすめな映像授業

河合塾One

基本から学びたい方には河合塾Oneがおすすめ!
AIが正答率を判断して、あなただけのオリジナルカリキュラムを作成してくれます!
まずは7日間の無料体験から始めましょう!

スタディサプリ

会員数157万人の業界No.1の映像授業サービス。
月額2,178円で各教科のプロによる授業が受け放題!分からないところだけ学べるので、学習効率も大幅にUP!
本気で変わりたいならすぐに始めよう!

おすすめ記事

偏差値40から60に上げたぼくの勉強法 1

「勉強してるのに成績が上がらない」 「テスト当日は頭が真っ白 ...

【2021年】おすすめ映像授業5選を徹底比較!《高校生向け》 2

  いますぐ始めたい方へ⇩当記事で人気の映像授業は ...

【無料体験あり】AmazonKindleなら参考書が読み放題!いますぐ始めよう! 3

Amazonで参考書が無料で読めるって知っていますか? 今回 ...

-データの分析
-, ,

© 2021 マストラ高校数学まとめサイト Powered by AFFINGER5