【統計分析】平均値と 中央値と その他と

数学

宇宙のすべては数から成り立つ 


ピタゴラス

世の中を観測することと
知識を増やす事が趣味の
"タクヤ"です。


調べたことや その時に思った感情、
独り言を言語化し、
思考の訓練をしていきますね。


自分への備忘録として
残していきます。

データなどの数値を正しく活用するには、しっかりと使い方(技法)を学ばなければならない。

数字は嘘をつかない。
しかし嘘つきは数字を使う。

営業マンの
『Aさん』と『Bさん』

営業成功率
・Aさん50%・Bさん80%


※確率が使われている時に
注目しなくてはいけないのは
分母 です。


Aさんの営業を掛けた数500/1000件

Bさんの営業を掛けた数字 80/100件


営業成功件数だけでみた場合

・Aさん500件 Bさん80件

僕らは 数字を正しく捉えられていない事があります。

それをふまえて、紛らわし言葉

『平均値・中央値・最頻値・偏差値』

平均値 以外 あんまり知らないですよね?

身長を例題として、

平均値、中央値、最頻値、偏差値について考えていきましょう。

例題

あるクラスの生徒たち3人の
身長が以下のようになっています。

160cm, 165cm, 185 cm

平均値:(Mean)

全身長を合計して、生徒数で割る。

(160 + 165 + 185) / 3 = 170 cm

∴ 平均値は170 cm。

平均値は、多くの場合、データ全体の代表的な値と見なされます。したがって、多くの場合、平均値は、データを要約するために使用されます。

ですが外れ値の影響を受けやすくなる。

中央値:(Median)

データを小さい順に並べたときに、ちょうど中央に位置する値

160 cm, 【165 cm】, 185 cm

奇数の場合なら、真ん中にくる数値。

∴中央値は 165 cm

偶数である場合は、中央に位置する値は2つになるので、その2つの値の平均値を中央値とします。

160 cm, 【165 cm, 170 cm】, 185cmの場合

165 + 170 / 2 = 167.5

中央値は、極端な外れ値の影響を受けにくく、データの分布の形に依存しないというメリットがあります。

ただし、データ数が少ない場合には、中央値が実際の分布の中心を正確に反映しないことがあるというデメリットもあります。

最頻値:(Mode)

データの中で最も頻繁に出現する値。

例題のデータでは、どの身長も1回ずつしか出現していないため、最頻値はありません。

∴最頻値 なし

例えば 160 165 165 170 185の場合

165が 2回出ているので

∴最頻値 165 cm

偏差値:(Deviation Value)

偏差値とは、
平均値と個々のデータの差を標準偏差で割った値に50を加えたもの

平均値 (160 + 165 + 185) / 3 = 170

それぞれの人の平均値との差

-10と-5と+15

標準偏差は、各偏差の2乗を平均して平方根を取ります。

(((-10)^2 + (-5)^2 + 15^2) / 3)^(1/2)

= 12.25 ⇽標準偏差

±1 進退する時の波の変化みたいなものです。

[(平均からの偏差)÷標準偏差]×100+50

160cm の偏差値は
[ (160 - 170)/12.25 ]×100+50 = 32.65
165cm の偏差値は
[ (165 - 170)/12.25 ]×100+50 = 54.10
185cm の偏差値は
[ (185 - 170)/12.25 ]×100+50 = 87.24 となります。

どれだけ平均からの偏差があるかを示す指標となります。

それぞれの 注意点

平均値 は 外れ値がある場合、引っ張られやすい。

中央値 は 両極端な対立するような場合やデータ数が少ない場合に、正しく中央を示さないことがある。

最頻値 は 同じ頻度の値が複数ある場合や最頻値が存在しない場合もあり、実際の状況を反映しているのか全体を通して判断する必要がある。

偏差値はあくまでも参考程度のものであり、能力や素質を完全に表現するものではない。

みなさんも 数字に騙されず、正しく理解すれば、

詐欺的な印象操作に引っかからないように努めましょう。

以上 
参考になりましたら幸いです。
どこかでお目にかかりましょう。
𝑰 𝒉𝒐𝒑𝒆 𝒕𝒐 𝒔𝒆𝒆 𝒚𝒐𝒖 𝒂𝒈𝒂𝒊𝒏𓂃 𓈒𓏸

コメント

タイトルとURLをコピーしました