Решение задач контрольной работы по математической статистике

Воскресенье, 6 мая, 2012

Решение задач по математической статистике

Зачастую студенты предпочитают откладывать сдачу всех работ на самый последний момент. Поэтому для многих преподавателей работа в авральном режиме во время экзаменационной сессии стала уже привычной. Предлагаю вашему вниманию решение контрольной работы по математической статистике для II курса Московского отделения Всероссийского Заочного Финансово-Экономического Института (ВЗФЭИ).

Задача 1. С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице:

Время обслуживания, мин. <2 2-4 4-6 6-8 8-10 10-12 >12 Итого
Число клиентов 6 10 21 39 15 6 3 100

Найти:

  • границы, в которых с вероятностью 0,9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
  • вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
  • объем повторной выборки, при котором с вероятностью 0,9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).

Решение. Находим выборочную среднюю:

    \[ \overline{x}=\frac{1}{n}\sum_{i=1}^7{\overline{x_i}\cdot n_i}. \]

Здесь: n = 100 - объем выборки, x_1 = 1, x_2 = 3, x_3 = 5, x_4 = 7, x_5 = 9, x_6 = 11, x_7 = 13 — середины интервалов. Крайние незамкнутые интервалы заменены интервалами соответствующей длины.

    \[ \overline{x}=\frac{1}{100}(1\cdot 6+3\cdot 10+5\cdot 21+7\cdot 39+ \]

    \[ +9\cdot 15+11\cdot 6+13\cdot 3) = 6,54. \]

Находим выборочную дисперсию:

    \[ s^2 = \frac{1}{n}\sum_{i=1}^7{(x_i-\overline{x})^2\cdot n_i}. \]

    \[ s^2 = \frac{1}{100}((1-6,54)^2\cdot 6+(3-6,54)^2\cdot 10+ \]

    \[ +(5-6,54)^2\cdot 21+(7-6,54)^2\cdot 39+(9-6,54)^2\cdot 15+ \]

    \[ +(11-6,54)^2\cdot 6+(13-6,54)^2\cdot 3) = 7,0284. \]

а) Находим границы, в которых с вероятностью 0,9946 заключено среднее время обслуживания всех клиентов пенсионного фонда.

По таблицам значений функции Лапласа находим \Phi(t) = 0,9946 \Rightarrow t = 2,78.

Интервальные оценки для средней находятся по формулам при объеме выборки N\rightarrow \mathcal{1}:

    \[ \Delta = t\sigma'_{\overline{x}}\approx t\sqrt{\frac{s^2}{n}} \approx 0,737. \]

Искомые границы определяются двойным неравенством \overline{x}-\Delta \leqslant \overline{x_0}\leqslant \overline{x}+\Delta, то есть 5,803\leqslant \overline{x_0}\leqslant 7,277.

б) Находим среднюю квадратическую ошибку выборки для доли. С учетом того, что число клиентов очень велико, объем генеральной совокупности N\rightarrow \mathcal{1}, поэтому формула принимает вид (для бесповторной выборки):

    \[ \sigma'_w \approx \sqrt{\frac{w(1-w)}{n}}. \]

Здесь w - выборочная доля клиентов в выборке, время обслуживания которых составило меньше 6 минут:

    \[ w=\frac{6+10+21}{100} = 0,37. \]

Тогда в нашем случае получаем:

    \[ \sigma'_w \approx \sqrt{\frac{(1-0,37)\cdot 0,37}{100}} \approx 0,048. \]

Ищем вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).

    \[ P(|w-p|\leqslant 0,1)=\Phi\left(\frac{0,1}{\sigma'_w}\right) = \Phi(2,08) = 0,96247. \]

в) Ищем объем повторной выборки, при котором с вероятностью 0,9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).

Учитывая, что \Phi(t) = 0,9907, по таблице значений функции Лапласа определяем, что t = 2,60, предельная ошибка доли равна E=0.1, и объем повторной выборки равен:

    \[ n=\frac{w(1-w)t^2}{E^2}=\frac{0,37\cdot(1-0.37)\cdot 2.60^2}{0.1^2}\approx 158. \]

Задача 2. По данным задачи 1, используя \chi^2-критерий Пирсона, на уровне значимости a=0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.

Решение. Нормальное распределение имеет вид:

    \[ f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-a)^2}{2\sigma^2}}. \]

Используем данные, полученные в предыдущем задании: \overline{x} = 6,54, s^2 =  7,0284. Поскольку количество наблюдений достаточно велико, в качестве дисперсии нормального распределения \sigma^2 возьмем s^2. То есть a=6,54, \sigma^2 = 7,0284, \sigma = 2,651.  Тогда теоретическое нормальное распределение принимает вид:

    \[ f(x) = 0,1505\cdot e^{-0,0711(x-6,54)^2}. \]

Для расчета вероятностей p_i попадания случайной величины в интервал [x_i;x_{i+1}] используем функцию Лапласа:

    \[ p_i(x_i\leqslant X\leqslant x_{i+1})= \]

    \[ =\frac{1}{2}\left[\Phi\left(\frac{x_{i+1}-a}{\sigma}\right)-\Phi\left(\frac{x_i-a}{\sigma}\right)\right]. \]

Для нашего случая получаем:

    \[ p_i(x_i\leqslant X\leqslant x_{i+1})\approx \]

    \[ \approx \frac{1}{2}\left[\Phi\left(\frac{x_{i+1}-6,54}{2,651}\right)-\Phi\left(\frac{x_i-6,54}{2,651}\right)\right]. \]

Для каждого промежутка получаем:

    \[ p_1(0\leqslant X\leqslant 2)\approx \frac{1}{2}[\Phi(-1,71)-\Phi(-2,47)] = \]

    \[ =\frac{1}{2}(-0,91273+0,98649) = 0,0365. \]

    \[ p_2(2\leqslant X\leqslant 4)\approx \frac{1}{2}[\Phi(-0,96)-\Phi(-1,71)] = \]

    \[ =\frac{1}{2}(-0.66294+0.91273) = 0,1249. \]

    \[ p_3(4\leqslant X\leqslant 6)\approx \frac{1}{2}[\Phi(-0,20)-\Phi(-0,96)] = \]

    \[ =\frac{1}{2}(-0.15852+0.66294) = 0,25221. \]

    \[ p_4(6\leqslant X\leqslant 8)\approx \frac{1}{2}[\Phi(0,55)-\Phi(-0,20)] = \]

    \[ =\frac{1}{2}(0.41768+0.15852) = 0,2881. \]

    \[ p_4(8\leqslant X\leqslant 10)\approx \frac{1}{2}[\Phi(1,31)-\Phi(0,55)] = \]

    \[ =\frac{1}{2}(0.80980-0.41768) = 0,19606. \]

    \[ p_4(10\leqslant X\leqslant 12)\approx \frac{1}{2}[\Phi(2,06)-\Phi(1,31)] = \]

    \[ =\frac{1}{2}(0.96060-0.80980) = 0,0754. \]

    \[ p_4(12\leqslant X\leqslant 14)\approx \frac{1}{2}[\Phi(2,81)-\Phi(2,06)] = \]

    \[ =\frac{1}{2}(0.99505-0.96060) = 0,017225. \]

Составим таблицу

Интервал [x_i; x_{i+1}] Эмпирические частоты n_i Вероятности p_i \frac{(n_i-np_i)^2}{np_i}
<2 6 0,0365 1,513
2-4 10 0,1249 0,4964
4-6 21 0,25221 0,7064
6-8 39 0,2881 3,6042
8-10 15 0,19606 1,0821
10-12 6 0,0754 0,3145
>12 3 0,017225 0,9475
Сумма 100 0,9904 \chi^2=8,6641

Итого значение статистики \chi^2 = 8,66.

Определим количество степеней свободы по формуле k=m-r-1, m=7 — число интервалов, r=2 — число параметров закона распределения. То есть k=4. Соответствующее критическое значение статистики для уровня значимости \alpha = 0,05 равно 9,49, что больше полученных 8,66. Вывод: гипотеза подтверждается.

Тут бы надо построить графическое изображение эмпирического (в виде гистограммы) и теоретического (в виде линии) распределений. На бумаге я это сделал без труда, а вот на компьютере почему-то стало лень рисовать. Может быть найдутся желающие мне помочь улучшить статью? Something like that:

Теоретическое и эмпирическое нормальное распределение

Задача 3. Распределение 50 предприятий пищевой промышленности по степени автоматизации производства Х (%) и росту производительности труда Y (%) представлено в таблице:

5-9 9-13 13-17 17-21 21-25 Итого
15-21 3 2 1 6
21-27 1 2 3 2 8
27-33 2 7 3 12
33-39 2 5 8 15
39-45 2 2 1 5
45-51 2 2 4
Итого 4 8 18 17 3 50

Необходимо:

  • вычислить групповые средние , построить эмпирические линии регрессии;
  • предполагая, что между переменными Х и Y существует линейная корреляционная зависимость:
    • найти уравнения прямых регрессии, дать экономическую интерпретацию полученных уравнений;
    • вычислить коэффициент корреляции; на уровне значимости a=0,05 оценить его значимость и сделать вывод о тесноте и направлении связи между переменными Х и Y;
    • используя соответствующее уравнение регрессии, оценить рост производительности труда при степени автоматизации производства 43 %.

Решение. 

1. Находим групповые средние по формулам:

    \[ \overline{x_i} = \frac{\sum x_i\cdot n_{ij}}{n_i},\,\overline{y_i} = \frac{\sum y_i\cdot n_{ij}}{n_i}. \]

Здесь x_i и y_i — середины соответствующих интервалов:

    \[ x_i = [18, 24, 30, 36, 42, 48]. \]

    \[ y_i = [7, 11, 15, 19, 23]. \]

Пример вычислений групповых средних:

\overline{x_1} = \frac{18\cdot 3+24\cdot 1}{3+1} = 19,5.

\overline{y_1} = \frac{7\cdot 3+11\cdot 2+15\cdot 1}{3+2+1} = 9,667.

Полученные значения заносим в таблицу:

7 11 15 19 23 Групповые средние по Y
18 3 2 1 9,667
24 1 2 3 2 14
30 2 7 3 15,333
36 2 5 8 16,6
42 2 2 1 18,2
48 2 2 21
Групповые средние по X 19,5 27 31,333 35,647 46

2. Отвечаем на оставшиеся вопросы.

a) Для нахождения уравнений регрессии вычисляем необходимые суммы:

\sum x_i\cdot n_i = 18\cdot 6+24\cdot 8+30\cdot 12 +36\cdot 15+42\cdot 5+

+48\cdot 4 = 1602.

\sum x_i^2\cdot n_i = 18^2\cdot 6+24^2\cdot 8+30^2\cdot 12 +36^2\cdot 15+42^2\cdot 5+

+48^2\cdot 4 = 54828.

\sum y_i\cdot n_i = 7\cdot 4+11\cdot 8+15\cdot 18+19\cdot 17+23\cdot 3 = 778.

\sum y_i^2\cdot n_i = 7^2\cdot 4+11^2\cdot 8+15^2\cdot 18+19^2\cdot 17+23^2\cdot 3 =

=12938.

\sum\sum x_i\cdot y_j\cdot n_{ij} = 26070.

\overline{x}=\frac{\sum x_i\cdot n_i}{n} = \frac{1602}{50}=32,04.

\overline{y} = \frac{\sum y_i\cdot n_i}{n}=\frac{778}{50} = 15,56.

s_x^2 = \frac{\sum x_i^2\cdot n_i}{n} -\overline{x}^2=\frac{54828}{50}-32,04^2 = 69,9984.

s_y^2 = \frac{\sum y_i^2\cdot n_i}{n} -\overline{y}^2=\frac{12938}{50}-15,56^2 = 16,6464.

\mu = \overline{xy}-\overline{x}\cdot\overline{y} = \frac{\sum\sum x_i\cdot y_j\cdot n_{ij}}{n}-\overline{x}\cdot\overline{y} = 22,8576.

b_{yx} =\frac{\mu}{s_x^2} = \frac{22,8576}{69,9984} = 0,3265.

b_{xy} = \frac{\mu}{s_y^2} = \frac{22,8576}{16,6464} =  1,3731.

Искомые линии регрессии тогда имеют вид:

y_x = b_{yx}x-b_{yx}\overline{x}+\overline{y}=0,3265x+5,0989.

x_y = b_{xy}y-b_{xy}\overline{y}+\overline{x} = 1,3731y+10,675.

б) Находим коэффициент корреляции r=\pm\sqrt{b_{yx}\cdot b_{xy}}, радикал берем с плюсом, поскольку коэффициенты b_{xy} и b_{yx} положительны:

    \[ r = \sqrt{0,3265\cdot 1,3731} = 0,6696. \]

Оцениваем коэффициент значимости корреляции:

    \[ t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0,6696\sqrt{50-2}}{\sqrt{1-0,6696^2}} = 6,246. \]

По таблице значений критерия Стьюдента для уровня значимости в 0,05 находим t'=2,01. Так как t'<t, коэффициент значимости значительно отличается от нуля, делаем вывод, что связь тесная и прямая.

в) По найденному уравнению регрессии оцениваем рост производительности труда при степени автоматизации производства 43 %:

y_{x=43} = 0,3265\cdot 43 + 5,0989 = 19 %.

Репетитор по физике и математике
Сергей Валерьевич

Существуют три вида лжи: ложь, наглая ложь и статистика.
© Марк Твен

Комментарии

  1. Елена:

    СПАСИБО ОГРОМНЕЙШЕЕ!!!!!!

    1. Sergey Seliverstov:

      🙂 Пожалуйста, очень рад, что это кому-то пригодилось.

  2. Елена:

    еще как)

  3. НАТАЛИ:

    подскажите пожалуйста, я не совсем понимаю, про данные которые надо заносить в таблицу. это надо новую табл. рисовать или в первую заносить значения???

    1. Sergey Seliverstov:

      нужно добавить в первую таблицу соответствующие столбики и строки и внести в них посчитанные значения групповых средних. Расписал для примера, как они считаются для одного интервала, для остальных аналогично.

  4. Кристина:

    1. Провести группировку, если известно, что студенты сдавали тест по русскому языку. Ими были получены следующие баллы:
    91; 43; 55; 64; 71; 70; 52; 50; 92; 95; 44; 59; 69; 62; 102; 100; 48; 47; 49; 88.

    1. Sergey Seliverstov:

      Кристина, могу Вам посоветовать ознакомиться с этим материалом: http://www.aup.ru/books/m81/3.htm
      Все очень доходчиво расписано, можно легко разобраться.

  5. Анастасия:

    Огромное спасибо,все доходчиво написано!

  6. Татьяна:

    я не могу правильно нарисовать чертёж,вы не могли бы мне с ним помочь?

    1. Sergey Seliverstov:

      Надо по горизонтальной оси отложить интервалы (для эмпирического распределения) или середины соответствующих интервалов (для теоретического разбиения), а по вертикальной соответственно эмпирические или теоретические вероятности.

  7. Евгения:

    Сергей, добрый вечер!
    Подскажите пожалуйста, во второй задаче такие данные как ЭМПИРИЧЕСКИЕ ЧАСТОТЫ вы как посчитали?
    Заранее спасибо)

  8. Евгения:

    Сергей,извините,что побеспокоила) я уже разобралась-это элементарно) видимо сильно устала) еще раз спасибо)

    1. Sergey Seliverstov:

      Всегда пожалуйста, даже если в данном случае не за что:-)

  9. milashka0666:

    помогите решить

    Вероятности того, что каждый из трех кассиров занят обслуживанием покупателей, равны соответственно 0,7; 0,8; 0,9.
    Найти вероятность того, что в данный момент заняты обслуживанием покупателей:
    а) все кассиры;
    б) только один кассир;
    в) хотя бы один кассир

    1. Sergey Seliverstov:

      1) И первый И второй И третий кассир заняты (И — логическое умножение): 0.7*0.8*0.9 = 0.504
      2) (занят первый И НЕ занят второй И НЕ занят третий) ИЛИ (занят второй И НЕ занят первый И НЕ занят третий) ИЛИ (занят третий И НЕ занят первый И НЕ занят второй) (ИЛИ — логическое сложение, НЕ — логическое отрицание): 0.7*(1-0.8)*(1-0.9) + (1-0.7)*0.8*(1-0.9) + (1-0.7)*(1-0.8)*0.9 = 0.092
      3) Ищем вероятность противоположного события (не занят ни один кассир). То есть НЕ занят первый И НЕ занят второй И НЕ занят третий: (1-0.7)*(1-0.8)*(1-0.9) = 0.006. Интересующее нас событие будет противоположным данному, поэтому его вероятность равна 1-0.006 = 0.994

  10. Aнна:

    Огромнейшее спасибо, это страница просто спасение для меня!!!)

  11. Кристинка:

    Просто и гениально!!!!!!!!!! Выражаю огромную благодарность от непонимающих тервер!))

    1. Sergey Seliverstov:

      Спасибо! Рад, что Вам это пригодилось.

  12. Валентина:

    спасибо Вам огромное. Очень помогли!!!

  13. Елена:

    Спасибо огромное!

  14. Екатерина:

    Извините,но вы не правильно нашли выборочную дисперсию, поскольку (если вы внимательно посмотрите на формулу),то S^2=(100/99)*дисперсию=7,1 . (дисперсия в нашем случае равна 7,0284)
    С уважением,Екатерина.

    1. Sergey Seliverstov:

      Честно говоря, я настолько давно это решал, что все благополучно забыл. Скорее всего Вы правы. Поясните только, пожалуйста, почему для вычисления выборочной дисперсии нужно домножать обычную дисперсию на 100/99?

  15. Елена:

    во 2 задаче,буква Б, имеется ошибка при расчете средней квадратической ошибки выборки для доли..в формуле стоят скобки, однако при подсчете автор забыл их проставить… От сюда и потекла ошибка 🙂

    1. Sergey Seliverstov:

      Действительно, скобки там были пропущены, я исправил, но посчитано там всё было с учетом этих скобок.

  16. ЖироК:

    Спасибо ОГРОМНОЕ!!! Вы облегчили жизнь бедным студентам!!! Побольше бы таких!!!

  17. Александра:

    спасибо большое! очень помогли!

  18. Сергей:

    Поясните, пожалуйста, почему в задаче 1, пункт 3 delta взята равной 0.2651. Как это связано с тем, что спрашивается — долей клиентов с временем обслуживания менее 6 минут, отличающейся не более чем на 10% от таких же клиентов в выборке?

    1. Sergey Seliverstov:

      Честно говоря, это было так давно, что я уже не помню. Рекомендую Вам посмотреть вот здесь: http://mathprofi.com/uploads/files/63_f_41_kontrolnaya-po-terveru-i-statistike.pdf?key=610bbca7a69e2aceaa880a44d5738ad6

  19. Поясните пожалуйста, откуда в 3 задаче 26070?

    1. Сергей:

      Нужно посчитать записанную двойную сумму и получится этот ответ.

Добавить комментарий