NumPy配列から確率分布関数を決定するにはどうすればよいでしょうか? 質問する

Question

あなたがテストを正しく使用したと仮定すると、私の推測では、あなたは小さい正規分布からの偏差であり、サンプルサイズが非常に大きいため、小さな偏差でも正規分布の帰無仮説が棄却されます。

normed1 つの可能性は、多数のビンを持つヒストグラムと、およびを持つ pdf をloc=data.mean()プロットして、データを視覚的に検査することですscale=data.std()。

正規性をテストするための代替テストがあり、分布パラメータを推定するときに、statsmodels には Anderson-Darling テストと Lillifors (Kolmogorov-Smirnov) テストがあります。

ただし、サンプル数が多いため、結果に大きな違いは出ないだろうと予想しています。

主な問題は、サンプルが「正確に」正規分布から来ているかどうかをテストしたいのか、それともサンプルが正規分布に非常に近い分布から来ているかどうかだけに興味があるかということです。近い実用的な使用の点では。

最後の点について詳しく説明します。

サンプルサイズが大きくなるにつれて、仮説検定のパワーが増します。つまり、検定では、差がどんどん小さくなっても、同等性の帰無仮説を棄却できるようになります。有意水準を固定したままにしておくと、結局、あまり気にしない小さな差も棄却することになります。

代替タイプの仮説検定では、サンプルが与えられた点仮説に近いことを示す必要があります。たとえば、2 つのサンプルの平均値がほぼ同じである場合などです。問題は、同等性領域を定義しなければならないことです。

適合度検定の場合、サンプルと仮定分布の間の距離尺度を選択し、距離尺度のしきい値を定義する必要があります。この距離しきい値を選択する際に直感が役立つという説明は見つかりませんでした。

stats.normaltest は、正規分布からの歪度と尖度の偏差に基づいています。

Anderson-Darling は、cdf 間の重み付き二乗差の積分に基づいています。

コルモゴロフ-スミルノフは、cdf 間の最大絶対差に基づいています。

ビン化されたデータのカイ二乗は、ビン確率の二乗の加重和に基づきます。

等々。

私はこれまで、ビン分割または離散化されたデータを使用した同等性テストのみを試してきましたが、その際に、いくつかの参照ケースからのしきい値を使用しましたが、それでもかなり恣意的でした。

医学的同等性試験では、2 つの治療法が同等とみなされるか、または同様に片側バージョンで劣っているか優れているかを指定するための定義済みの基準がいくつかあります。

Answer 1