平均値、中央値そして最頻値

2021.11.29

記事画像
こんにちは、フジボウルの根岸です。 世の中で平均◯◯という言葉はよく耳にしますね。 平均点、平均年収、平均年齢などなど。 これらは、「平均値」を用いて求められていると思いますが、似たよう言葉で「中央値」というものがあるのをご存知でしょうか。 今回は「平均値」、「中央値」の違いをその求め方から見ていきたいと思います。 例えば、以下のような数値データがあったとします 70,80,10,20,60,80,100 平均値は全ての数値を足して、その個数で割った値で この場合は、 (70+80+10+20+60+80+100)/7 = 60 になります。 対して、中央値は数値データを昇順に並べた際の真ん中の値で この場合は、数値データを昇順に並べて 10,20,60,70,80,80,100 その真ん中の値 70 になります。 この例ですと、データの個数が奇数なので真ん中の数値が1つに決まりますが、 もしデータ個数が偶数の場合は、真ん中の2つ数値の平均値が中央値になります。 例えば、70,80,10,20,60,80,100,100の場合、 数値データを昇順に並べて 10,20,60,70,80,80,90,100 真ん中の2つの数値の平均値 (70+80)/2 = 75 が中央値になります。 基本、色々な場面で平均値が用いられることが多いですが、 極端に大きな値が含まれている場合などは、中央値を用いた場合が良いときがあります。 「平均値」、「中央値」のようにデータ群の特徴を表すものを「代表値」と呼ぶそうです。 「代表値」には、他にも最もデータ数の多い値を指す「最頻値」というものもあり、 70,80,10,20,60,80,100の例で言うとデータ2つ存在する80が最頻値になります。 これらは、それぞれ内容を理解し状況に応じて使い分けていくことで、より求めたい統計値が得られそうですね。

この記事を書いた人

根岸 聖司

部長、システムエンジニア