度数分布(Frequency Distribution)と尺度水準
母集団に対して実験・調査を行って得られたサンプル(標本)を数量化して、一定の数値の範囲を持つ『階級』に分類したものを『度数分布(Frequency Distribution)』という。度数分布が為されていないバラバラのデータ(数値)の集まりは『離散型の変数』と呼ばれるが、度数分布を明らかにすることによってデータの傾向・ばらつきを大まかに把握することができる。
度数分布では各サンプルのデータ(数値)が含まれる『階級(クラス)』を設定するが、その階級に各データが何個含まれているかを表にしたものを『度数分布表』という。度数分布は母集団の全体的な傾向・頻度(ばらつき)を簡単に把握するための最も基本的な統計手法である。一般的には、データの数字の大小の順番に階級を設定して、それぞれの階級に何個のデータが含まれるかをチェックしていく。
クラス40人分の数学のテスト(100点満点)のデータがあると仮定すると、0〜20点、20〜40点……80〜100点といった『階級(クラス)』を設定して、それぞれの階級に何個のデータが含まれるのかを確認していけば度数分布表を作成することができる。度数分布化されたデータは離散型のデータよりも統計的な処理が簡単になるというメリットがあり、度数分布から中央値・平均値・標準偏差を求める単純なアルゴリズムがあるので、Excelなどの表計算ソフトを使えば簡単にそれらの数値を自動で計算することができる。
サンプルの変数を得る時の尺度には『名義尺度・順序尺度・間隔尺度・比率尺度』があり、どの尺度によって得られたデータかによって、度数分布表が意味する内容は変わってくる。『名義尺度』というのは数字が名詞の代わりとして機能する出席番号や飛行機の番号、電話番号などのことであり、最頻値以外は求める意味がない。『順序尺度』というのは数字が等しいか否か、大きいか小さいかに意味のある数字のことであり、競争の順番や好き嫌いの5段階評価、二択式の質問などで得られるデータである。
『間隔尺度』というのは順序尺度の性質を満たしていて、各データの数字の差(加減)にも意味がある数字のことであり、温度や体重、カレンダーの日付けなどが含まれる。『比率尺度』というのは間隔尺度の性質を満たしていて、加減の演算だけではなくて乗除の演算にも意味がある数字のことであり、物理学的な指標である質量・エネルギー・長さなどが含まれる。年齢・年収・勤続年数などの社会的変数も比率尺度である。
度数分布は『折れ線グラフ(度数多角形)』や『ヒストグラム』などの表・グラフとして表現することができる。度数分布の『尖度(せんど)』というのは、平均値への変数の集中度合のことである。ヒストグラムで表した場合にはグラフの尖り具合が尖度となり、正規分布曲線(ベルカーブ)以上に尖っている場合を『急尖的(leptokurtic)』と言い、尖っていないなだらかな曲線を『緩尖的(platykurtic)』と言っている。

