Murakami's Memorandum

Home Page > My Memo               災害科学ホワイトボード   災害科学コース   理学部

効果量・検定力・サンプルサイズ

とりあえずメモ。

 地球科学系の論文ではおめにかかったことはありませんが,心理学系の学会誌(APA)によっては検定の際には効果量と効果量の信頼区間を記述することを推奨しているそうです。
 差があるかないかの検定よりも,区間推定で情報を示すという傾向もあるようです。

#なぜだか,専門外のメモなのにアクセスが一番多いページになっています。
#責任は取れませんので, 専門書にて確認をお願いします。 m(_._)m

 2016年3月にアメリカ統計学会がp値の誤用に警告を出したようです。否定している訳ではないようですが,p値至上主義への警告と言ったところでしょうか。


 母平均の差の検定

 2群の母平均の差を検定をする方法としては3種類が知られています。昨年まで,必修の授業で紹介してましたが,フローチャートを示しても混乱している人の多い手法です。

  1. 母分散が既知で等しい場合
  2. 母分散は未知であるが等しい場合
  3. 母分散は未知で等しいといえない場合

 調査対象である母集団の情報を事前に知っていることはほとんどないので,1番目の方法はまず使うことはありません。
 2番目の方法を使用するには,まず等分散の検定(F検定)を実施して等分散が否定されなければt検定を実施します。使用していた教科書にはそのことは書いてあるのですが,等分散の検定そのものに関する記述が後に出てくるので,勝手に「等分散であるものとする」と書いて等分散の検定をやらないでこの検定を実施してしまう人が多数出てくるという結果になっていました。読んでおいてねは,読まなくても良いという教訓となりました。
 さて,等分散の検定をやってt検定をする2番目の方法ではなく,3番目のウェルチの検定を実施すべきであるという記述を目にするようになりました。

理由は読んでいただく(教訓が生きていない!)として,独立2標本の平均値の差の検定はWelchの検定を実施することをお勧めします。

Rでやるなら,変数xとyにデータをセットしておいて一行書くだけです。
>x <- c()
>y <- c()
>t.test(x,y)

例えば有意水準5%で有意差を判定するのであれば,p<0.05で「有意差あり」とします。p=0.005でもp=0.00002でも「有意差あり」ですが,「p=0.00002の時の方が2群の母平均の差が大きい」ということは言えません。t-検定で得られるのは,「有意差あり」か「有意差なし」のどちらかです。

 効果量(effect size)

  • 二つの母集団の平均値の差に関する効果量 Cohen’s d

d~=~\frac{|x_1~-~x_2|}{s_p
s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2

2群の標本平均の差を,データのバラツキで規格化した量と考える。

Relative Size of Cohen's d
negligible effect -0.15 =<d<0.15
small effect 0.15=<d<0.4
medium effect 0.4=<d<0.75
large effect 0.75=<d<1.10
very large effect 1.10=<d<1.45
huge effect 1.45=<d

  • 効果量の信頼区間

95%信頼区間下限 d-1.96~\times~s_{es}~
95%信頼区間上限 d+1.96~\times~s_{es}~
標本効果量の標準誤差 s_{es}~=~\sqrt{\frac{n_1+n_2}{n_1~\times~n_2}+\frac{d^2}{2(n_1+n_2-2)}~

  • t値との関係

|t|~=~d~\times~\sqrt~{\left(\frac{n_1~\times~n_2}{n_1+~n_2}\right)\left(\frac{n_1+n_2-2}{n_1+n_2}\right)

効果量が小さくても,データ数が大きくなればt値が大きくなるので「有意さあり」となることを示している。データ数が大きくなりすぎると,大した差でもないのに有意さありとしてしまう危険性(第1種の誤り)が生じる(故意に有意さありに持ち込む方法でもあるが)。でも,データを沢山集める労力は大変である。 ==> 検定力分析(Power Analysis)

 検定力分析(power analysis)

 検定力:「有意差を見つける力」,「母集団において差があるときにサンプルから有意差があるという結果が得られる確率」,「第2種の誤りをおかさない確率」

 有意差検定では,2種類の誤りを考慮する必要がある。

  • 「有意差がないのに有意差あり」(第1 種の誤り)とする確率(α)
  • 「有意差があるのに有意差なし」(第2種の誤り)とする確率(β)

通常,第1 種の誤りを犯す確率(α)(有意水準あるいは危険率)はα= 0.05が使用されることが多い。第2 種の誤りを犯す確率(β)は,β= 0.2 が望ましいと提案されていている (Cohen, 1988)。そして検定力は(1−β)で定義されるため,β= 0.2 の場合には検定力は 0.8 になる。検定力が 0.8 ということは,「80% の確率で実際に有意差があるときには,それを検出できる」ことを意味している。また,Cohen (1992) では,「0.80 以下の検定力の場合には,第2 種の誤りを犯す可能性が高くなる」(p. 156) としている。このように,第2 種の誤りは検定力の計算に直接関わってくる問題である。

事前の分析

検出したい実質差を,十分な検定力で検定するためには標本をいくつとれば良いのか?

n = f (d, 検定力, α)
  n:2群それぞれの標本数(実験前なので2群はそれぞれ同じ数にする)
  d:効果量,本当は未知数なのだが,「d=0.2 小さい効果(差)」,
     「d=0.5 中くらいの効果(差)」,「d=0.8 大きな効果(差)」
     先行研究のデータなどから推定した値など
  α:有意水準 0.05 , 0.01 など
  検定力:0.8 (目安,0.7は最低ライン),第1種の誤り=第2種の誤りと考える
     のであればα=0.05で0.95を指定

Rで事前分析
>library(pwr)        ;Power Analysisのためのパッケージの読み込み

効果量 d=0.2(小さな差)を検出するのに必要なサンプル数
> pwr.t.test(d=0.2,power=0.8,sig.level=0.05)
    Two-sample t test power calculation 
             n = 393.4057    ;一つのグループのサンプル 394必要
             d = 0.2
     sig.level = 0.05
         power = 0.8
    alternative = two.sided

効果量 d=0.5(中くらいの差)を検出するのに必要なサンプル数
> pwr.t.test(d=0.5,power=0.8,sig.level=0.05)
     Two-sample t test power calculation 
               n = 63.76561   ;一つのグループのサンプル 64必要
              d = 0.5
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 効果量 d=0.8(大きな差)を検出するのに必要なサンプル数
> pwr.t.test(d=0.8,power=0.8,sig.level=0.05)
    Two-sample t test power calculation 
             n = 25.52457    ;一つのグループのサンプル 26必要
             d = 0.8
     sig.level = 0.05
         power = 0.8
   alternative = two.sided

事後の分析

実験を実施して得られた結果(標本効果量)を使い検定力を評価する。

標本検定力(観察検定力)= f (n1, n2, d, α)
  n1, n2 :各群の標本数
  d:標本効果量
  α:有意水準 0.05 , 0.01 など

【実験】 平均値の異なる2つの母集団N(0,1)とN(0.5,1)からそれぞれ10サンプル取得して母平均の差をWelchの検定でする。次に,この実験の検定力を評価する。 ※乱数を使っているので下記が再現できるとは限りません。

> x <- rnorm(n=10,mean=0,sd=1)
> y <- rnorm(n=10,mean=0.5,sd=1)
> t.test(x,y)
        Welch Two Sample t-test
data:  x and y 
t = -1.7995, df = 16.86, p-value = 0.08987
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -1.7461533  0.1391691 
sample estimates:
mean of x mean of y 
0.2020729 1.0055650 

p値が0.05よりも大きいので有意水準5%で有意と言えない。つまり帰無仮説「二つの母集団の平均値は等しい」は棄却されない。母平均の差の95%信頼区間を見ると,( -1.7461533 , 0.1391691)でゼロを挟んでいる。(※これは乱数を使って試行した一例です。必ず同一の結果が得られるわけではありません。)
 実際には平均値の異なる正規分布からサンプリングしたのでこれは第2種の誤りを犯していることになる。では,この実験の検定力を評価してみる。

> pwr.t2n.test(n1=10,n2=10,sig.level=0.05,d=0.8482924)
    t test power calculation 
            n1 = 10
            n2 = 10
             d = 0.8482924
     sig.level = 0.05
         power = 0.4347856
   alternative = two.sided

検定力(power)が約0.43となるので,十分な検定力がなかったことになる。「有意差なし」という結果であっても,検定力が示されていれば十分な検定力のもとでの結論なのかどうかがわかる。

 実験の2群の母平均の差の検定結果は,「有意差なし」(p=0.090, mean effect size:0.848, 95%CI:-0.071 - 1.768)であるが,効果量の95%信頼区間は無視できる程度から非常に大きいまでの広い範囲にわたることからも検定力が弱いことがわかる。事前の分析におけるd=0.8の結果を見れば,各グループのデータ数は26個以上必要である。

明日への分析

実験で得られた標本効果量が実質差と比べて小さい時,次の実験の標本数の目安をつける。

n = f (d, 検定力, α)
  n:2群それぞれの標本数
  d:標本効果量
  α:有意水準 0.05 , 0.01 など
  検定力:0.8 (目安,0.7は最低ライン),第1種の誤り=第2種の誤りと考える
     のであればα=0.05で0.95を指定

(ref. 豊田 編著,『検定力入門』,東京図書)

フリーウェア

G*Power3 定番の検定力分析ソフトのようです。

 サンプルサイズの決め方


 参考書


 関連

最終更新時間:2016年09月27日 10時51分17秒


HomePage > FrontPage