Главная | Цены | Статьи | Контакты
Меню
Категории
Мой канал на Youtube
Решение задач контрольной работы по математической статистике
06.05.2012 Методическая копилка

Решение задач по математической статистике

Зачастую студенты предпочитают откладывать сдачу всех работ на самый последний момент. Поэтому для многих преподавателей работа в авральном режиме во время экзаменационной сессии стала уже привычной. Предлагаю вашему вниманию решение контрольной работы по математической статистике для II курса Московского отделения Всероссийского Заочного Финансово-Экономического Института (ВЗФЭИ).

Задача 1. С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице:

Время обслуживания, мин. <2 2-4 4-6 6-8 8-10 10-12 >12 Итого
Число клиентов 6 10 21 39 15 6 3 100

Найти:

  • границы, в которых с вероятностью 0,9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
  • вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
  • объем повторной выборки, при котором с вероятностью 0,9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).

Решение. Находим выборочную среднюю:

    \[ \overline{x}=\frac{1}{n}\sum_{i=1}^7{\overline{x_i}\cdot n_i}. \]

Здесь: n = 100 - объем выборки, x_1 = 1, x_2 = 3, x_3 = 5, x_4 = 7, x_5 = 9, x_6 = 11, x_7 = 13 — середины интервалов. Крайние незамкнутые интервалы заменены интервалами соответствующей длины.

    \[ \overline{x}=\frac{1}{100}(1\cdot 6+3\cdot 10+5\cdot 21+7\cdot 39+ \]

    \[ +9\cdot 15+11\cdot 6+13\cdot 3) = 6,54. \]

Находим выборочную дисперсию:

    \[ s^2 = \frac{1}{n}\sum_{i=1}^7{(x_i-\overline{x})^2\cdot n_i}. \]

    \[ s^2 = \frac{1}{100}((1-6,54)^2\cdot 6+(3-6,54)^2\cdot 10+ \]

    \[ +(5-6,54)^2\cdot 21+(7-6,54)^2\cdot 39+(9-6,54)^2\cdot 15+ \]

    \[ +(11-6,54)^2\cdot 6+(13-6,54)^2\cdot 3) = 7,0284. \]

а) Находим границы, в которых с вероятностью 0,9946 заключено среднее время обслуживания всех клиентов пенсионного фонда.

По таблицам значений функции Лапласа находим \Phi(t) = 0,9946 \Rightarrow t = 2,78.

Интервальные оценки для средней находятся по формулам при объеме выборки N\rightarrow \mathcal{1}:

    \[ \Delta = t\sigma'_{\overline{x}}\approx t\sqrt{\frac{s^2}{n}} \approx 0,737. \]

Искомые границы определяются двойным неравенством \overline{x}-\Delta \leqslant \overline{x_0}\leqslant \overline{x}+\Delta, то есть 5,803\leqslant \overline{x_0}\leqslant 7,277.

б) Находим среднюю квадратическую ошибку выборки для доли. С учетом того, что число клиентов очень велико, объем генеральной совокупности N\rightarrow \mathcal{1}, поэтому формула принимает вид (для бесповторной выборки):

    \[ \sigma'_w \approx \sqrt{\frac{w(1-w)}{n}}. \]

Здесь w - выборочная доля клиентов в выборке, время обслуживания которых составило меньше 6 минут:

    \[ w=\frac{6+10+21}{100} = 0,37. \]

Тогда в нашем случае получаем:

    \[ \sigma'_w \approx \sqrt{\frac{(1-0,37)\cdot 0,37}{100}} \approx 0,048. \]

Ищем вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).

    \[ P(|w-p|\leqslant 0,1)=\Phi\left(\frac{0,1}{\sigma'_w}\right) = \Phi(2,08) = 0,96247. \]

в) Ищем объем повторной выборки, при котором с вероятностью 0,9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).

Учитывая, что \Phi(t) = 0,9907, по таблице значений функции Лапласа определяем, что t = 2,60, предельная ошибка доли равна E=0.1, и объем повторной выборки равен:

    \[ n=\frac{w(1-w)t^2}{E^2}=\frac{0,37\cdot(1-0.37)\cdot 2.60^2}{0.1^2}\approx 158. \]

Задача 2. По данным задачи 1, используя \chi^2-критерий Пирсона, на уровне значимости a=0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.

Решение. Нормальное распределение имеет вид:

    \[ f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-a)^2}{2\sigma^2}}. \]

Используем данные, полученные в предыдущем задании: \overline{x} = 6,54, s^2 =  7,0284. Поскольку количество наблюдений достаточно велико, в качестве дисперсии нормального распределения \sigma^2 возьмем s^2. То есть a=6,54, \sigma^2 = 7,0284, \sigma = 2,651.  Тогда теоретическое нормальное распределение принимает вид:

    \[ f(x) = 0,1505\cdot e^{-0,0711(x-6,54)^2}. \]

Для расчета вероятностей p_i попадания случайной величины в интервал [x_i;x_{i+1}] используем функцию Лапласа:

    \[ p_i(x_i\leqslant X\leqslant x_{i+1})= \]

    \[ =\frac{1}{2}\left[\Phi\left(\frac{x_{i+1}-a}{\sigma}\right)-\Phi\left(\frac{x_i-a}{\sigma}\right)\right]. \]

Для нашего случая получаем:

    \[ p_i(x_i\leqslant X\leqslant x_{i+1})\approx \]

    \[ \approx \frac{1}{2}\left[\Phi\left(\frac{x_{i+1}-6,54}{2,651}\right)-\Phi\left(\frac{x_i-6,54}{2,651}\right)\right]. \]

Для каждого промежутка получаем:

    \[ p_1(0\leqslant X\leqslant 2)\approx \frac{1}{2}[\Phi(-1,71)-\Phi(-2,47)] = \]

    \[ =\frac{1}{2}(-0,91273+0,98649) = 0,0365. \]

    \[ p_2(2\leqslant X\leqslant 4)\approx \frac{1}{2}[\Phi(-0,96)-\Phi(-1,71)] = \]

    \[ =\frac{1}{2}(-0.66294+0.91273) = 0,1249. \]

    \[ p_3(4\leqslant X\leqslant 6)\approx \frac{1}{2}[\Phi(-0,20)-\Phi(-0,96)] = \]

    \[ =\frac{1}{2}(-0.15852+0.66294) = 0,25221. \]

    \[ p_4(6\leqslant X\leqslant 8)\approx \frac{1}{2}[\Phi(0,55)-\Phi(-0,20)] = \]

    \[ =\frac{1}{2}(0.41768+0.15852) = 0,2881. \]

    \[ p_4(8\leqslant X\leqslant 10)\approx \frac{1}{2}[\Phi(1,31)-\Phi(0,55)] = \]

    \[ =\frac{1}{2}(0.80980-0.41768) = 0,19606. \]

    \[ p_4(10\leqslant X\leqslant 12)\approx \frac{1}{2}[\Phi(2,06)-\Phi(1,31)] = \]

    \[ =\frac{1}{2}(0.96060-0.80980) = 0,0754. \]

    \[ p_4(12\leqslant X\leqslant 14)\approx \frac{1}{2}[\Phi(2,81)-\Phi(2,06)] = \]

    \[ =\frac{1}{2}(0.99505-0.96060) = 0,017225. \]

Составим таблицу

Интервал [x_i; x_{i+1}] Эмпирические частоты n_i Вероятности p_i \frac{(n_i-np_i)^2}{np_i}
<2 6 0,0365 1,513
2-4 10 0,1249 0,4964
4-6 21 0,25221 0,7064
6-8 39 0,2881 3,6042
8-10 15 0,19606 1,0821
10-12 6 0,0754 0,3145
>12 3 0,017225 0,9475
Сумма 100 0,9904 \chi^2=8,6641

Итого значение статистики \chi^2 = 8,66.

Определим количество степеней свободы по формуле k=m-r-1, m=7 — число интервалов, r=2 — число параметров закона распределения. То есть k=4. Соответствующее критическое значение статистики для уровня значимости \alpha = 0,05 равно 9,49, что больше полученных 8,66. Вывод: гипотеза подтверждается.

Тут бы надо построить графическое изображение эмпирического (в виде гистограммы) и теоретического (в виде линии) распределений. На бумаге я это сделал без труда, а вот на компьютере почему-то стало лень рисовать. Может быть найдутся желающие мне помочь улучшить статью? Something like that:

Теоретическое и эмпирическое нормальное распределение

Задача 3. Распределение 50 предприятий пищевой промышленности по степени автоматизации производства Х (%) и росту производительности труда Y (%) представлено в таблице:

5-9 9-13 13-17 17-21 21-25 Итого
15-21 3 2 1 6
21-27 1 2 3 2 8
27-33 2 7 3 12
33-39 2 5 8 15
39-45 2 2 1 5
45-51 2 2 4
Итого 4 8 18 17 3 50

Необходимо:

  • вычислить групповые средние , построить эмпирические линии регрессии;
  • предполагая, что между переменными Х и Y существует линейная корреляционная зависимость:
    • найти уравнения прямых регрессии, дать экономическую интерпретацию полученных уравнений;
    • вычислить коэффициент корреляции; на уровне значимости a=0,05 оценить его значимость и сделать вывод о тесноте и направлении связи между переменными Х и Y;
    • используя соответствующее уравнение регрессии, оценить рост производительности труда при степени автоматизации производства 43 %.

Решение. 

1. Находим групповые средние по формулам:

    \[ \overline{x_i} = \frac{\sum x_i\cdot n_{ij}}{n_i},\,\overline{y_i} = \frac{\sum y_i\cdot n_{ij}}{n_i}. \]

Здесь x_i и y_i — середины соответствующих интервалов:

    \[ x_i = [18, 24, 30, 36, 42, 48]. \]

    \[ y_i = [7, 11, 15, 19, 23]. \]

Пример вычислений групповых средних:

\overline{x_1} = \frac{18\cdot 3+24\cdot 1}{3+1} = 19,5.

\overline{y_1} = \frac{7\cdot 3+11\cdot 2+15\cdot 1}{3+2+1} = 9,667.

Полученные значения заносим в таблицу:

7 11 15 19 23 Групповые средние по Y
18 3 2 1 9,667
24 1 2 3 2 14
30 2 7 3 15,333
36 2 5 8 16,6
42 2 2 1 18,2
48 2 2 21
Групповые средние по X 19,5 27 31,333 35,647 46

2. Отвечаем на оставшиеся вопросы.

a) Для нахождения уравнений регрессии вычисляем необходимые суммы:

\sum x_i\cdot n_i = 18\cdot 6+24\cdot 8+30\cdot 12 +36\cdot 15+42\cdot 5+

+48\cdot 4 = 1602.

\sum x_i^2\cdot n_i = 18^2\cdot 6+24^2\cdot 8+30^2\cdot 12 +36^2\cdot 15+42^2\cdot 5+

+48^2\cdot 4 = 54828.

\sum y_i\cdot n_i = 7\cdot 4+11\cdot 8+15\cdot 18+19\cdot 17+23\cdot 3 = 778.

\sum y_i^2\cdot n_i = 7^2\cdot 4+11^2\cdot 8+15^2\cdot 18+19^2\cdot 17+23^2\cdot 3 =

=12938.

\sum\sum x_i\cdot y_j\cdot n_{ij} = 26070.

\overline{x}=\frac{\sum x_i\cdot n_i}{n} = \frac{1602}{50}=32,04.

\overline{y} = \frac{\sum y_i\cdot n_i}{n}=\frac{778}{50} = 15,56.

s_x^2 = \frac{\sum x_i^2\cdot n_i}{n} -\overline{x}^2=\frac{54828}{50}-32,04^2 = 69,9984.

s_y^2 = \frac{\sum y_i^2\cdot n_i}{n} -\overline{y}^2=\frac{12938}{50}-15,56^2 = 16,6464.

\mu = \overline{xy}-\overline{x}\cdot\overline{y} = \frac{\sum\sum x_i\cdot y_j\cdot n_{ij}}{n}-\overline{x}\cdot\overline{y} = 22,8576.

b_{yx} =\frac{\mu}{s_x^2} = \frac{22,8576}{69,9984} = 0,3265.

b_{xy} = \frac{\mu}{s_y^2} = \frac{22,8576}{16,6464} =  1,3731.

Искомые линии регрессии тогда имеют вид:

y_x = b_{yx}x-b_{yx}\overline{x}+\overline{y}=0,3265x+5,0989.

x_y = b_{xy}y-b_{xy}\overline{y}+\overline{x} = 1,3731y+10,675.

б) Находим коэффициент корреляции r=\pm\sqrt{b_{yx}\cdot b_{xy}}, радикал берем с плюсом, поскольку коэффициенты b_{xy} и b_{yx} положительны:

    \[ r = \sqrt{0,3265\cdot 1,3731} = 0,6696. \]

Оцениваем коэффициент значимости корреляции:

    \[ t=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}} = \frac{0,6696\sqrt{50-2}}{\sqrt{1-0,6696^2}} = 6,246. \]

По таблице значений критерия Стьюдента для уровня значимости в 0,05 находим t'=2,01. Так как t'<t, коэффициент значимости значительно отличается от нуля, делаем вывод, что связь тесная и прямая.

в) По найденному уравнению регрессии оцениваем рост производительности труда при степени автоматизации производства 43 %:

y_{x=43} = 0,3265\cdot 43 + 5,0989 = 19 %.

Репетитор по физике и математике
Сергей Валерьевич

Существуют три вида лжи: ложь, наглая ложь и статистика.
© Марк Твен
30 комментариев
  1. СПАСИБО ОГРОМНЕЙШЕЕ!!!!!!

  2. еще как)

  3. НАТАЛИ

    подскажите пожалуйста, я не совсем понимаю, про данные которые надо заносить в таблицу. это надо новую табл. рисовать или в первую заносить значения???

    • Sergey Seliverstov

      нужно добавить в первую таблицу соответствующие столбики и строки и внести в них посчитанные значения групповых средних. Расписал для примера, как они считаются для одного интервала, для остальных аналогично.

  4. Кристина

    1. Провести группировку, если известно, что студенты сдавали тест по русскому языку. Ими были получены следующие баллы:
    91; 43; 55; 64; 71; 70; 52; 50; 92; 95; 44; 59; 69; 62; 102; 100; 48; 47; 49; 88.

  5. Анастасия

    Огромное спасибо,все доходчиво написано!

  6. Татьяна

    я не могу правильно нарисовать чертёж,вы не могли бы мне с ним помочь?

    • Sergey Seliverstov

      Надо по горизонтальной оси отложить интервалы (для эмпирического распределения) или середины соответствующих интервалов (для теоретического разбиения), а по вертикальной соответственно эмпирические или теоретические вероятности.

  7. Евгения

    Сергей, добрый вечер!
    Подскажите пожалуйста, во второй задаче такие данные как ЭМПИРИЧЕСКИЕ ЧАСТОТЫ вы как посчитали?
    Заранее спасибо)

  8. Евгения

    Сергей,извините,что побеспокоила) я уже разобралась-это элементарно) видимо сильно устала) еще раз спасибо)

  9. milashka0666

    помогите решить

    Вероятности того, что каждый из трех кассиров занят обслуживанием покупателей, равны соответственно 0,7; 0,8; 0,9.
    Найти вероятность того, что в данный момент заняты обслуживанием покупателей:
    а) все кассиры;
    б) только один кассир;
    в) хотя бы один кассир

    • Sergey Seliverstov

      1) И первый И второй И третий кассир заняты (И — логическое умножение): 0.7*0.8*0.9 = 0.504
      2) (занят первый И НЕ занят второй И НЕ занят третий) ИЛИ (занят второй И НЕ занят первый И НЕ занят третий) ИЛИ (занят третий И НЕ занят первый И НЕ занят второй) (ИЛИ — логическое сложение, НЕ — логическое отрицание): 0.7*(1-0.8)*(1-0.9) + (1-0.7)*0.8*(1-0.9) + (1-0.7)*(1-0.8)*0.9 = 0.092
      3) Ищем вероятность противоположного события (не занят ни один кассир). То есть НЕ занят первый И НЕ занят второй И НЕ занят третий: (1-0.7)*(1-0.8)*(1-0.9) = 0.006. Интересующее нас событие будет противоположным данному, поэтому его вероятность равна 1-0.006 = 0.994

  10. Огромнейшее спасибо, это страница просто спасение для меня!!!)

  11. Кристинка

    Просто и гениально!!!!!!!!!! Выражаю огромную благодарность от непонимающих тервер!))

  12. Валентина

    спасибо Вам огромное. Очень помогли!!!

  13. Спасибо огромное!

  14. Екатерина

    Извините,но вы не правильно нашли выборочную дисперсию, поскольку (если вы внимательно посмотрите на формулу),то S^2=(100/99)*дисперсию=7,1 . (дисперсия в нашем случае равна 7,0284)
    С уважением,Екатерина.

    • Sergey Seliverstov

      Честно говоря, я настолько давно это решал, что все благополучно забыл. Скорее всего Вы правы. Поясните только, пожалуйста, почему для вычисления выборочной дисперсии нужно домножать обычную дисперсию на 100/99?

  15. во 2 задаче,буква Б, имеется ошибка при расчете средней квадратической ошибки выборки для доли..в формуле стоят скобки, однако при подсчете автор забыл их проставить… От сюда и потекла ошибка 🙂

    • Sergey Seliverstov

      Действительно, скобки там были пропущены, я исправил, но посчитано там всё было с учетом этих скобок.

  16. Спасибо ОГРОМНОЕ!!! Вы облегчили жизнь бедным студентам!!! Побольше бы таких!!!

  17. Александра

    спасибо большое! очень помогли!

  18. Сергей

    Поясните, пожалуйста, почему в задаче 1, пункт 3 delta взята равной 0.2651. Как это связано с тем, что спрашивается — долей клиентов с временем обслуживания менее 6 минут, отличающейся не более чем на 10% от таких же клиентов в выборке?

  19. Поясните пожалуйста, откуда в 3 задаче 26070?

Добавить комментарий для Сергей

Нажмите, чтобы отменить ответ.


Можно не заполнять

Можно не заполнять

*