? по статистике

Курсы, колледжи, университеты.
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

? по статистике

Post by Ljolja »

имеется 2 ~случайные выборки А & Б соответственно с оценками для среднего и среднеквадратичного отклонения <А>,<Б>, Са, Сб.
Как оценить минимальную разницу м/у <А>,<Б> при которой можно утверждать что А & Б различны в статистическом смысле? Может ли студентьс т-тест нам в етом помочь, если да, как именно? Распределения для А & Б можно считать Гауссовыми.
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
perkins
Уже с Приветом
Posts: 3832
Joined: 07 Mar 2005 19:06

Post by perkins »

Можно попробовать тест Колмогорова , в чем его суть вам подскажет google, а его реализацию можно найти во многих матпакетах
User avatar
FruFru
Уже с Приветом
Posts: 185
Joined: 22 Mar 2007 00:57
Location: Moscow->Seattle

Post by FruFru »

А & Б различны в статистическом смысле - скорее всего имеется ввиду, можно ли мат. ожидания соответсвующих гауссовых распределений считать различными.
Именно эта гипотеза (H0: mu_A=mu_B vs Ha: mu_A<>mu_B) и проверяется с помощью t-test (в данном случае, two-tailed).

Если выборку А можно считать независимой от выборки Б, тогда independent t-test Вам в помощь. Иначе - paired t-test.
За формулами - в инет. Только тут еще размеры выборок надо знать...

Далее, нужно найти rejection region - значения t-statistic, при которых null hypothesis отвергается. Ключевые слова: significance level (уровень значимости, альфа), critical value (критическое значение), quantile of t-distribution (квантиль t-распределения), degrees of freedom (число степеней свобод).
Потом простые математические манипуляции дадут искомую необходимую минимальную разницу < A> - <Б>.


Если что непонятно, то пишите - могу разжевать подробнее.
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Post by Ljolja »

будет ли верным утверждение, что с достоверностью, скажем 99%, наши величины различны, если
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
FruFru
Уже с Приветом
Posts: 185
Joined: 22 Mar 2007 00:57
Location: Moscow->Seattle

Post by FruFru »

Ljolja wrote:будет ли верным утверждение, что с достоверностью, скажем 99%, наши величины различны, если
| A - B | > t_99/sqrt(n)*(S_a+S_b),
где t_99 t-test tabulated value from the table on 99% of confidence, n - размер выборок ?


1) t-distribution характеризуется числом степеней свобод - т.е. нужно еще указать degrees of freedom, которые в данном случае 2n-2 (когда размер выборки А равен размеру выборки B и равен n): t_99 -> t(0.99, 2n-2)

2) складывают variances, а не standard deviations - т.е. правильнее будет
I A - B I > t(0.99, 2n-2)*sqrt(Sa^2+Sb^2)/sqrt(n)
User avatar
Иоп
Уже с Приветом
Posts: 8832
Joined: 18 Feb 2005 08:00
Location: Yekaterinburg --> Toronto

Post by Иоп »

Хорошая тема! Может быть кто-нибудь порекомендует книги по статистике для "чайников" - т.е., чтобы вся математика пояснялась на словах?
User avatar
chenko
Уже с Приветом
Posts: 1478
Joined: 26 Jul 2001 09:01
Location: Киев-->...-->NJ

Post by chenko »

User avatar
chenko
Уже с Приветом
Posts: 1478
Joined: 26 Jul 2001 09:01
Location: Киев-->...-->NJ

Post by chenko »

А вот даже в картинках есть, для тех кто и читать не умеет :D
http://www.amazon.com/Cartoon-Guide-Sta ... 499&sr=8-3
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Post by Ljolja »

FruFru wrote: I A - B I > t(0.99, 2n-2)*sqrt(Sa^2+Sb^2)/sqrt(n)
Thanks
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Post by Ljolja »

Иоп wrote:Хорошая тема! Может быть кто-нибудь порекомендует книги по статистике для "чайников" - т.е., чтобы вся математика пояснялась на словах?
а про книги была другая тема, может там есть, что для Вас интересно
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Post by Ljolja »

все же меня терзают "смутные сомнения",
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001 :pain1:
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)
User avatar
FruFru
Уже с Приветом
Posts: 185
Joined: 22 Mar 2007 00:57
Location: Moscow->Seattle

Post by FruFru »

Ljolja wrote:все же меня терзают "смутные сомнения",
допустим наше случайная величина принимает значения в интервале [0;1]. дисперсия у нее ке-02, соответственно квадрат дисперсии к^2е-04. Размер выборки 100. Пусть максимальная к будет 2 (округлением до ближайшего большего[условно] целого) , по томуже принципу положем т=4, тогда получаем, что рашождения между <А> и <Б> в третьем знаке, позволяет считать их различными в статистическом смысле. Тогда как простая повторная прогонка, говорит, что ето не так, т.е. <А1> > <А2>+-0.001 :pain1:


не уверена, что поняла, что Вы хотели сказать...

1) дисперсия = variance, т.е. в квадрат ее еще раз возводить уже не нужно
ну ок, допустим, что Sa^2=Sb^2=4*exp(-4)=0.07326 (для обеих выборок)


2) т=4 - это критическое значение t-statistic?
вообще-то, для df=198 (2*100-2) оно в районе 2.6 (для уровня значимости, alpha, в 1%).
кстати, у меня там ошибочка в формуле - поскольку у нас two-sided test, то нужно t(1-alpha/2, 2n-2) вместо просто t(1-alpha, 2n-2) (т.е. t(0.995, 2n-2) вместо t(0.99, 2n-2))

3) в итоге, получаем
2.6*sqrt(2*0.07326/100)=0.0995

таким образом
1) откуда взялось 0.001?
2) что имелось ввиду под простой повторной подгонкой?
3) вы там про гауссовы выборки писали, а случайная величина, которая принимает значения на [0,1] не является нормальной :wink: (но даже если выборки не из нормального распределения, при большом размере выборки и отсутствии outliers t-test все равно прокатит - типа ЦПТ работает)
User avatar
Ljolja
Уже с Приветом
Posts: 2924
Joined: 01 Apr 2004 04:22

Post by Ljolja »

я не совсем точно выразилась по поводу формата дисперсии,
4е-04=0.0004 к тому же забыла, что и из етого числа нужно корень извлечь, т.е. величина получается порядка 0.005, а это уже ближе к реальности.
2) что имелось ввиду под простой повторной подгонкой?
один и тот же эксперимент можно повторить несколько раз
вы там про гауссовы выборки писали, а случайная величина, которая принимает значения на [0,1] не является нормальной
ну Гауссом-то является не сама величина, а аппроксимируюшая функция, при етом любой гаусс можно расянуть и сжать, вытянуть и сплюшить :wink:

В любом случае, спаибо :love:
Я боюсь, что наступит день, когда технологии превзойдут простое человеческое обшение. И мир получит поколение идиотов (c)

Return to “Образование”