имеется 2 ~случайные выборки А & Б соответственно с оценками для среднего и среднеквадратичного отклонения <А>,<Б>, Са, Сб.
Как оценить минимальную разницу м/у <А>,<Б> при которой можно утверждать что А & Б различны в статистическом смысле? Может ли студентьс т-тест нам в етом помочь, если да, как именно? Распределения для А & Б можно считать Гауссовыми.
? по статистике
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
? по статистике
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 3832
- Joined: 07 Mar 2005 19:06
-
- Уже с Приветом
- Posts: 185
- Joined: 22 Mar 2007 00:57
- Location: Moscow->Seattle
А & Б различны в статистическом смысле - скорее всего имеется ввиду, можно ли мат. ожидания соответсвующих гауссовых распределений считать различными.
Именно эта гипотеза (H0: mu_A=mu_B vs Ha: mu_A<>mu_B) и проверяется с помощью t-test (в данном случае, two-tailed).
Если выборку А можно считать независимой от выборки Б, тогда independent t-test Вам в помощь. Иначе - paired t-test.
За формулами - в инет. Только тут еще размеры выборок надо знать...
Далее, нужно найти rejection region - значения t-statistic, при которых null hypothesis отвергается. Ключевые слова: significance level (уровень значимости, альфа), critical value (критическое значение), quantile of t-distribution (квантиль t-распределения), degrees of freedom (число степеней свобод).
Потом простые математические манипуляции дадут искомую необходимую минимальную разницу < A> - <Б>.
Если что непонятно, то пишите - могу разжевать подробнее.
Именно эта гипотеза (H0: mu_A=mu_B vs Ha: mu_A<>mu_B) и проверяется с помощью t-test (в данном случае, two-tailed).
Если выборку А можно считать независимой от выборки Б, тогда independent t-test Вам в помощь. Иначе - paired t-test.
За формулами - в инет. Только тут еще размеры выборок надо знать...
Далее, нужно найти rejection region - значения t-statistic, при которых null hypothesis отвергается. Ключевые слова: significance level (уровень значимости, альфа), critical value (критическое значение), quantile of t-distribution (квантиль t-распределения), degrees of freedom (число степеней свобод).
Потом простые математические манипуляции дадут искомую необходимую минимальную разницу < A> - <Б>.
Если что непонятно, то пишите - могу разжевать подробнее.
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
будет ли верным утверждение, что с достоверностью, скажем 99%, наши величины различны, если
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 185
- Joined: 22 Mar 2007 00:57
- Location: Moscow->Seattle
Ljolja wrote:будет ли верным утверждение, что с достоверностью, скажем 99%, наши величины различны, если
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?
1) t-distribution характеризуется числом степеней свобод - т.е. нужно еще указать degrees of freedom, которые в данном случае 2n-2 (когда размер выборки А равен размеру выборки B и равен n): t_99 -> t(0.99, 2n-2)
2) складывают variances, а не standard deviations - т.е. правильнее будет
I A - B I > t(0.99, 2n-2)*sqrt(Sa^2+Sb^2)/sqrt(n)
-
- Уже с Приветом
- Posts: 8832
- Joined: 18 Feb 2005 08:00
- Location: Yekaterinburg --> Toronto
-
- Уже с Приветом
- Posts: 1478
- Joined: 26 Jul 2001 09:01
- Location: Киев-->...-->NJ
-
- Уже с Приветом
- Posts: 1478
- Joined: 26 Jul 2001 09:01
- Location: Киев-->...-->NJ
А вот даже в картинках есть, для тех кто и читать не умеет
http://www.amazon.com/Cartoon-Guide-Sta ... 499&sr=8-3
http://www.amazon.com/Cartoon-Guide-Sta ... 499&sr=8-3
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
а про книги была другая тема, может там есть, что для Вас интересноИоп wrote:Хорошая тема! Может быть кто-нибудь порекомендует книги по статистике для "чайников" - т.е., чтобы вся математика пояснялась на словах?
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
все же меня терзают "смутные сомнения",
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
-
- Уже с Приветом
- Posts: 185
- Joined: 22 Mar 2007 00:57
- Location: Moscow->Seattle
Ljolja wrote:все же меня терзают "смутные сомнения",
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001
не уверена, что поняла, что Вы хотели сказать...
1) дисперсия = variance, т.е. в квадрат ее еще раз возводить уже не нужно
ну ок, допустим, что Sa^2=Sb^2=4*exp(-4)=0.07326 (для обеих выборок)
2) т=4 - это критическое значение t-statistic?
вообще-то, для df=198 (2*100-2) оно в районе 2.6 (для уровня значимости, alpha, в 1%).
кстати, у меня там ошибочка в формуле - поскольку у нас two-sided test, то нужно t(1-alpha/2, 2n-2) вместо просто t(1-alpha, 2n-2) (т.е. t(0.995, 2n-2) вместо t(0.99, 2n-2))
3) в итоге, получаем
2.6*sqrt(2*0.07326/100)=0.0995
таким образом
1) откуда взялось 0.001?
2) что имелось ввиду под простой повторной подгонкой?
3) вы там про гауссовы выборки писали, а случайная величина, которая принимает значения на [0,1] не является нормальной (но даже если выборки не из нормального распределения, при большом размере выборки и отсутствии outliers t-test все равно прокатит - типа ЦПТ работает)
-
- Уже с Приветом
- Posts: 2924
- Joined: 01 Apr 2004 04:22
я не совсем точно выразилась по поводу формата дисперсии,
4е-04=0.0004 к тому же забыла, что и из етого числа нужно корень извлечь, т.е. величина получается порядка 0.005, а это уже ближе к реальности.
В любом случае, спаибо
4е-04=0.0004 к тому же забыла, что и из етого числа нужно корень извлечь, т.е. величина получается порядка 0.005, а это уже ближе к реальности.
один и тот же эксперимент можно повторить несколько раз2) что имелось ввиду под простой повторной подгонкой?
ну Гауссом-то является не сама величина, а аппроксимируюшая функция, при етом любой гаусс можно расянуть и сжать, вытянуть и сплюшитьвы там про гауссовы выборки писали, а случайная величина, которая принимает значения на [0,1] не является нормальной
В любом случае, спаибо
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)