? по статистике

Ljolja · Post by **Ljolja** » 11 Sep 2007 23:33

имеется 2 ~случайные выборки А & Б соответственно с оценками для среднего и среднеквадратичного отклонения <А>,<Б>, Са, Сб.
Как оценить минимальную разницу м/у <А>,<Б> при которой можно утверждать что А & Б различны в статистическом смысле? Может ли студентьс т-тест нам в етом помочь, если да, как именно? Распределения для А & Б можно считать Гауссовыми.

Post by **perkins** » 12 Sep 2007 02:03

Можно попробовать тест Колмогорова , в чем его суть вам подскажет google, а его реализацию можно найти во многих матпакетах

FruFru · Post by **FruFru** » 12 Sep 2007 03:10

А & Б различны в статистическом смысле - скорее всего имеется ввиду, можно ли мат. ожидания соответсвующих гауссовых распределений считать различными.
Именно эта гипотеза (H0: mu_A=mu_B vs Ha: mu_A<>mu_B) и проверяется с помощью t-test (в данном случае, two-tailed).

Если выборку А можно считать независимой от выборки Б, тогда independent t-test Вам в помощь. Иначе - paired t-test.
За формулами - в инет. Только тут еще размеры выборок надо знать...

Далее, нужно найти rejection region - значения t-statistic, при которых null hypothesis отвергается. Ключевые слова: significance level (уровень значимости, альфа), critical value (критическое значение), quantile of t-distribution (квантиль t-распределения), degrees of freedom (число степеней свобод).
Потом простые математические манипуляции дадут искомую необходимую минимальную разницу < A> - <Б>.

Если что непонятно, то пишите - могу разжевать подробнее.

Ljolja · Post by **Ljolja** » 12 Sep 2007 16:45

будет ли верным утверждение, что с достоверностью, скажем 99%, наши величины различны, если
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?

FruFru · Post by **FruFru** » 12 Sep 2007 21:08

Ljolja wrote:будет ли верным утверждение, что с достоверностью, скажем 99%, наши величины различны, если
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?

1) t-distribution характеризуется числом степеней свобод - т.е. нужно еще указать degrees of freedom, которые в данном случае 2n-2 (когда размер выборки А равен размеру выборки B и равен n): t_99 -> t(0.99, 2n-2)

2) складывают variances, а не standard deviations - т.е. правильнее будет
I A - B I > t(0.99, 2n-2)*sqrt(Sa^2+Sb^2)/sqrt(n)

Иоп · Post by **Иоп** » 12 Sep 2007 21:50

Хорошая тема! Может быть кто-нибудь порекомендует книги по статистике для "чайников" - т.е., чтобы вся математика пояснялась на словах?

Post by **chenko** » 12 Sep 2007 22:12

http://www.amazon.com/Statistics-Dummie ... 499&sr=8-1

http://www.amazon.com/Complete-Idiots-G ... 499&sr=8-3

Post by **chenko** » 12 Sep 2007 22:16

А вот даже в картинках есть, для тех кто и читать не умеет

http://www.amazon.com/Cartoon-Guide-Sta ... 499&sr=8-3

Ljolja · Post by **Ljolja** » 13 Sep 2007 01:29

FruFru wrote: I A - B I > t(0.99, 2n-2)*sqrt(Sa^2+Sb^2)/sqrt(n)

Thanks

Ljolja · Post by **Ljolja** » 13 Sep 2007 01:31

Иоп wrote:Хорошая тема! Может быть кто-нибудь порекомендует книги по статистике для "чайников" - т.е., чтобы вся математика пояснялась на словах?

а про книги была другая тема, может там есть, что для Вас интересно

Ljolja · Post by **Ljolja** » 14 Sep 2007 03:00

все же меня терзают "смутные сомнения",
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001 :pain1:

FruFru · Post by **FruFru** » 14 Sep 2007 05:57

Ljolja wrote:все же меня терзают "смутные сомнения",
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001

не уверена, что поняла, что Вы хотели сказать...

1) дисперсия = variance, т.е. в квадрат ее еще раз возводить уже не нужно
ну ок, допустим, что Sa^2=Sb^2=4*exp(-4)=0.07326 (для обеих выборок)

2) т=4 - это критическое значение t-statistic?
вообще-то, для df=198 (2*100-2) оно в районе 2.6 (для уровня значимости, alpha, в 1%).
кстати, у меня там ошибочка в формуле - поскольку у нас two-sided test, то нужно t(1-alpha/2, 2n-2) вместо просто t(1-alpha, 2n-2) (т.е. t(0.995, 2n-2) вместо t(0.99, 2n-2))

3) в итоге, получаем
2.6*sqrt(2*0.07326/100)=0.0995

таким образом
1) откуда взялось 0.001?
2) что имелось ввиду под простой повторной подгонкой?
3) вы там про гауссовы выборки писали, а случайная величина, которая принимает значения на [0,1] не является нормальной :wink:

(но даже если выборки не из нормального распределения, при большом размере выборки и отсутствии outliers t-test все равно прокатит - типа ЦПТ работает)

Ljolja · Post by **Ljolja** » 14 Sep 2007 22:45

я не совсем точно выразилась по поводу формата дисперсии,
4е-04=0.0004 к тому же забыла, что и из етого числа нужно корень извлечь, т.е. величина получается порядка 0.005, а это уже ближе к реальности.

2) что имелось ввиду под простой повторной подгонкой?

один и тот же эксперимент можно повторить несколько раз

вы там про гауссовы выборки писали, а случайная величина, которая принимает значения на [0,1] не является нормальной

ну Гауссом-то является не сама величина, а аппроксимируюшая функция, при етом любой гаусс можно расянуть и сжать, вытянуть и сплюшить :wink:

В любом случае, спаибо :love: