Распределение случайной величины (распределение генеральной совокупности) характеризуется обычно рядом числовых характеристик:

  • для нормального распределения N(a, σ) - это математическое ожидание a и среднее квадратическое отклонение σ ;
  • для равномерного распределения R(a,b) - это границы интервала , в котором наблюдаются значения этой случайной величины.
Такие числовые характеристики, как правило, неизвестные, называются параметрами генеральной совокупности . Оценка параметра - соответствующая числовая характеристика, рассчитанная по выборке. Оценки параметров генеральной совокупности делятся на два класса: точечные и интервальные .

Когда оценка определяется одним числом, она называется точечной оценкой . Точечная оценка, как функция от выборки, является случайной величиной и меняется от выборки к выборке при повторном эксперименте.
К точечным оценкам предъявляют требования, которым они должны удовлетворять, чтобы хоть в каком-то смысле быть «доброкачественными». Это несмещённость , эффективность и состоятельность .

Интервальные оценки определяются двумя числами – концами интервала, который накрывает оцениваемый параметр. В отличие от точечных оценок, которые не дают представления о том, как далеко от них может находиться оцениваемый параметр, интервальные оценки позволяют установить точность и надёжность оценок.

В качестве точечных оценок математического ожидания, дисперсии и среднего квадратического отклонения используют выборочные характеристики соответственно выборочное среднее, выборочная дисперсия и выборочное среднее квадратическое отклонение.

Свойство несмещенности оценки .
Желательным требованием к оценке является отсутствие систематической ошибки, т.е. при многократном использовании вместо параметра θ его оценки среднее значение ошибки приближения равно нулю - это свойство несмещенности оценки .

Определение . Оценка называется несмещенной , если ее математическое ожидание равно истинному значению оцениваемого параметра:

Выборочное среднее арифметическое является несмещенной оценкой математического ожидания, а выборочная дисперсия - смещенная оценка генеральной дисперсии D . Несмещенной оценкой генеральной дисперсии является оценка

Свойство состоятельности оценки .
Второе требование к оценке - ее состоятельность - означает улучшение оценки с увеличением объема выборки.

Определение . Оценка называется состоятельной , если она сходится по вероятности к оцениваемому параметру θ при n→∞.


Сходимость по вероятности означает, что при большом объеме выборки вероятность больших отклонений оценки от истинного значения мала.

Свойство эффективной оценки .
Третье требование позволяет выбрать лучшую оценку из нескольких оценок одного и того же параметра.

Определение . Несмещенная оценка является эффективной , если она имеет наименьшую среди всех несмещенных оценок дисперсию.

Это означает, что эффективная оценка обладает минимальным рассеиванием относительно истинного значения параметра. Заметим, что эффективная оценка существует не всегда, но из двух оценок обычно можно выбрать более эффективную, т.е. с меньшей дисперсией. Например, для неизвестного параметра a нормальной генеральной совокупности N(a,σ) в качестве несмещенной оценки можно взять и выборочное среднее арифметическое, и выборочную медиану. Но дисперсия выборочной медианы примерно в 1.6 раза больше, чем дисперсия среднего арифметического. Поэтому более эффективной оценкой является выборочное среднее арифметическое.

Пример №1 . Найдите несмещенную оценку дисперсии измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 13,15,17.
Решение. Таблица для расчета показателей.

x |x - x ср | (x - x ср) 2
13 2 4
15 0 0
17 2 4
45 4 8

Простая средняя арифметическая (несмещенная оценка математического ожидания)


Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего - смещенная оценка).


Несмещенная оценка дисперсии - состоятельная оценка дисперсии (исправленная дисперсия).

Пример №2 . Найдите несмещенную оценку математического ожидания измерений некоторой случайной величины одним прибором (без систематических ошибок), результаты измерения которой (в мм): 4,5,8,9,11.
Решение. m = (4+5+8+9+11)/5 = 7.4

Пример №3 . Найдите исправленную дисперсию S 2 для выборки объема n=10, если выборочная диспресия равна D = 180.
Решение. S 2 = n*D/(n-1) = 10*180/(10-1) = 200

) задач математической статистики .

Предположим, что имеется параметрическое семейство распределений вероятностей (для простоты будем рассматривать распределение случайных величин и случай одного параметра). Здесь - числовой параметр, значение которого неизвестно. Требуется оценить его по имеющейся выборке значений, порожденной данным распределением.

Различают два основных типа оценок: точечные оценки и доверительные интервалы .

Точечное оценивание

Точечное оценивание - это вид статистического оценивания, при котором значение неизвестного параметра приближается отдельным числом. То есть необходимо указать функцию от выборки (статистику)

,

значение которой будет рассматриваться в качестве приближения к неизвестному истинному значению .

К общим методам построения точечных оценок параметров относятся: метод максимального правдоподобия , метод моментов , метод квантилей .

Ниже приводятся некоторые свойства, которыми могут обладать или не обладать точечные оценки.

Состоятельность

Одно из самых очевидных требований к точечной оценке заключается в том, чтобы можно было ожидать достаточно хорошего приближения к истинному значению параметра при достаточно больших значениях объема выборки . Это означает, что оценка должна сходиться к истинному значению при . Это свойство оценки и называется состоятельностью . Поскольку речь идет о случайных величинах, для которых имеются разные виды сходимости, то и данное свойство может быть точно сформулировано по-разному:

Когда употребляют просто термин состоятельность , то обычно имеется в виду слабая состоятельность, т.е. сходимость по вероятности.

Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.

Несмещенность и асимптотическая несмещенность

Оценка параметра называется несмещенной , если ее математическое ожидание равно истинному значению оцениваемого параметра:

.

Более слабым условием является асимптотическая несмещенность , которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:

.

Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако могут быть такие статистические задачи, в которых несмещенных оценок не существует. Наиболее известным примером является следующий: рассмотрим распределение Пуассона с параметром и поставим задачу оценки параметра . Можно доказать, что для этой задачи не существует несмещенной оценки.

Сравнение оценок и эффективность

Для сравнения между собой различных оценок одного и того же параметра применяют следующий метод: выбирают некоторую функцию риска , которая измеряет отклонение оценки от истинного значения параметра, и лучшей считают ту, для которой эта функция принимает меньшее значение.

Чаще всего в качестве функции риска рассматривают математическое ожидание квадрата отклонения оценки от истинного значения

Для несмещенных оценок это есть просто дисперсия .

Существует нижняя граница на данную функцию риска, называемая неравенство Крамера-Рао .

(Несмещенные) оценки, для которых достигается эта нижняя граница (т.е. имеющие минимально возможную дисперсию), называются эффективными . Однако существование эффективной оценки есть довольно сильное требование на задачу, которое имеет место далеко не всегда.

Более слабым является условие асимптотической эффективности , которое означает, что отношение дисперсии несмещенной оценки к нижней границе Крамера-Рао стремится к единице при .

Заметим, что при достаточно широких предположениях относительно исследуемого распределения, метод максимального правдоподобия дает асимптотически эффективную оценку параметра, а если существует эффективная оценка - тогда он дает эффективную оценку.

Достаточные статистики

Статистика назвается достаточной для параметра , если условное распределение выборки при условии того, что , не зависит от параметра для всех .

Важность понятия достаточной статистики обуславливается следующим утверждением . Если - достаточная статистика, а - несмещенная оценка параметра , тогда условное математическое ожидание является также несмещенной оценкой параметра , причем ее дисперсия меньше или равна дисперсии исходной оценки .

Напомним, что условное математическое ожидание есть случайная величина, являющаяся функцией от . Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).

(Несмещенная) эффективная оценка параметра всегда является достаточной статистикой.

Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке .

является смещенной О. с. для дисперсии , так как ; в качестве несмещенной О. с. для s 2 обычно берут функцию


См. также Несмещенная оценка.

За меру точности несмещенной О. с. а для параметра ачаще всего принимают дисперсию Da.

О. с. с наименьшей дисперсией наз. наилучшей. В приведенном примере среднее арифметическое (1) - наилучшая О. с. Однако если случайных величин X i отлично от нормального, то О. с. (1) может и не быть наилучшей. Напр., если результаты наблюдений Х i распределены равномерно в интервале (b, с ), то наилучшей О. с. для математич. ожидания а= (b+с )/2 будет полусумма крайних значений

(3)

В качестве характеристики для сравнения точности различных О. с. применяют эффективность - дисперсий наилучшей оценки и данной несмещенной оценки. Напр., если результаты наблюдений Х i распределены равномерно, то дисперсии оценок (1) и (3) выражаются формулами

и (4)

Так как оценка (3) наилучшая, то эффективность оценки (1) в данном случае есть

При большом количестве наблюдений побычно требуют, чтобы выбранная О. с. стремилась по вероятности к истинному значению параметра а, т. е. чтобы для всякого e > 0

такие О. с. наз. состоятельными (пример состоятельной О. с,- любая , дисперсия к-рой при стремится к нулю; см. также Состоятельная оценка ). Поскольку важную роль при этом играет стремления к пределу, то асимптотически наилучшими являются асимптотически эффективные О. с., то есть такие О. с., для к-рых при

Напр., если распределены одинаково нормально, то О. с. (2) представляет собой асимптотически эффективную оценку для неизвестного параметра , так как при дисперсия оценки и дисперсия наилучшей оценки асимптотически эквивалентны:

и, кроме того,

Фундаментальное значение для теории О. с. и ее приложений имеет тот факт, что О. с. для параметра аограничено снизу нек-рой величиной (этой величиной Р. Фишер (R. Fischer) предложил характеризовать количество информации относительно неизвестного параметра a, содержащийся в результатах наблюдений). Напр., если независимы и одинаково распределены с плотностью вероятности р(х; а ).и если - О. с. для нек-рой функции g(a).от параметра а, то в широком классе случаев

Функцию b(а) наз. смещением, а величину, обратную правой части неравенства (5), наз. количеством информации (по Фишеру) относительно функции g(a), содержащейся в результате наблюдений. В частности, если а - несмещенная О. с. параметра а, то,

причем количество информации nIa в этом случае пропорционально количеству наблюдений (функцию I(а).наз. количеством информации, содержащейся в одном наблюдении).

Основные условия, при к-рых справедливы неравенства (5) и (6), - гладкость оценки акак функции от X i , а также от параметра амножества тех точек х, где р( х, а )=0. Последнее условие не выполняется, напр., в случае равномерного распределения, и поэтому дисперсия О. с. (3) не удовлетворяет неравенству (6) [согласно (4) эта дисперсия есть порядка n -2 , в то время как по неравенству (6) она не может иметь малости выше, чем п -1 ].

Неравенства (5) и (6) справедливы и для дискретно распределенных случайных величин X i нужно лишь в определении информации I(а). р(х; а ).заменить вероятностью события {Х=х}.

Если дисперсия несмещенной О. с. a* для параметра асовпадает с правой частью неравенства (6), то - наилучшая оценка. Обратное утверждение, вообще говоря, неверно: дисперсия наилучшей О. с. может превышать . Однако если , то дисперсия наилучшей оценки асимптотически эквивалентна правой части (6), т. е. . Таким образом, с помощью количества информации (по Фишеру) можно определить асимптотич. эффективность несмещенной О. с. а, полагая

Особенно плодотворным информационный подход к теории О. с. сказывается тогда, когда плотность (в дискретном случае - ) совместного распределения случайных величин пред-ставима в виде произведения двух функций h(x 1 ,х 2 ,...,х п ).[у( х 1 , х 2 ,..., х n );а], из к-рых первая не зависит от а, а вторая представляет собой плотность распреде-деления нек-рой случайной величины Z=y (X 1 , Х 2 ,.. ., Х п ), наз. достаточной статистикой или исчерпывающей статистикой.

Один из наиболее распространенных методов нахождения точечных О. с.- моментов метод. Согласно этому методу, теоретич. распределению, зависящему от неизвестных параметров, ставят в дискретное выборочное , к-рое определяется результатами наблюдений X i и представляет собой распределение вероятностей воображаемой случайной величины, принимающей значения с одинаковыми вероятностями, равными 1/n (выборочное распределение можно рассматривать как точечную О. с. для теоретич. распределения). В качестве О. с. для моментов теоретич. распределения принимают соответствующие моменты выборочного распределения; напр., для математич. ожидания аи дисперсии s 2 метод моментов дает следующие О. с.: (1) и выборочную дисперсию (2). Неизвестные параметры обычно выражаются (точно или приближенно) в виде функций от нескольких моментов теоретич. распределения. Заменяя в этих функциях теоретич. моменты выборочными, получают искомые О. с. Этот метод, часто приводящий на практике к сравнительно простым вычислениям, дает, как правило, О. с. невысокой асимптотической эффективности (см. выше пример оценки математического ожидания равномерного распределения).

Другой метод нахождения О. с., более совершенный с теоретич. точки зрения,- максимального правдоподобия метод, или наибольшего правдоподобия метод. Согласно этому методу, рассматривают функцию правдоподобия L(а), к-рая представляет собой функцию неизвестного параметра аи получается в результате замены в плотности совместного распределения аргументов x i самими случайными величинами X i ; если X i - независимы и одинаково распределены с плотностью вероятности р(x; а ), то

(если X i распределены дискретно, то в определении функции правдоподобия Lследует плотности заменить вероятностями событий ). В качестве О. с. максимального правдоподобия для неизвестного параметра апринимают такую величину a, для к-рой L(a) достигает наибольшего значения (при этом часто вместо Lрассматривают т. н. логарифмическую функцию правдоподобия ; в силу монотонности логарифма точки максимумов функций L(a).и l(a) совпадают). Примерами О. с. максимального правдоподобия являются оценки по наименьших квадратов методу.

Основное достоинство О. с. максимального правдоподобия заключается в том, что при нек-рых общих условиях эти оценки состоятельны, асимптотически эффективны и распределены приближенно нормально.

Перечисленные свойства означают, что если a есть О. с. максимального правдоподобия, то при

(если Xнезависимы, то ). Таким образом, для функции распределения нормированной О. с. имеет место предельное соотношение

Преимущества О. с. максимального правдоподобия оправдывают вычислительную работу по отысканию максимума функции L(или l). В нек-рых случаях вычислительная работа существенно сокращается благодаря следующим свойствам: во-первых, если a* - такая О. с., для к-рой (6) обращается в равенство, то О. с. максимального правдоподобия единственна и совпадает с a*, во-вторых, если существует Z, то О. с. максимального правдоподобия есть функция Z.

Пусть, напр., независимы и распределены одинаково нормально так, что

поэтому

Координаты а= а 0 и s= s 0 точки максимума функции I( а, s).удовлетворяют системе уравнений


Таким образом, и, значит, в данном случае О. с. (1) и (2) - оценки максимального правдоподобия, причем - наилучшая О. с. параметра а, распределенная нормально (, ), а - асимптотически эффективная О. с. параметра s 2 , распределенная при больших пприближенно нормально (). Обе оценки представляют собой независимые достаточные статистики.

Еще один пример, в к-ром

Эта плотность удовлетворительно описывает распределение одной из координат частиц, достигших плоского экрана и вылетевших из точки, расположенной вне экрана (a - координата проекции источника на экран- предполагается неизвестной). Для указанного распределения математич. ожидание не существует, т. к. соответствующий расходится. Поэтому отыскание О. с. для аметодом моментов невозможно. Формальное применение в качестве О. с. среднего арифметического (1) лишено смысла, т. к. распределено в данном случае с той же плотностью р(х; a), что и каждый единичный результат наблюдений. Для оценки аможно воспользоваться тем обстоятельством, что рассматриваемое распределение симметрично относительно точки х=а и, значит, а - медиана теоретич. распределения. Несколько видоизменяя метод моментов, в качестве О. с. для апринимают т. н. выборочную медиану m, к-рая при является несмещенной О. с. для a, причем если пвелико, то m распределена приближенно нормально с дисперсией


В то же время

поэтому и, значит, согласно (7) асимптотич. эффективность равна . Таким образом, для того чтобы m была столь же точной О. с. для a, как и оценка наибольшего правдоподобия a, нужно количество наблюдений увеличить на 25%. Если затраты на эксперимент велики, то для определения аследует воспользоваться О. с. а, к-рая в данном случае определяется как уравнения

В качестве первого приближения выбирают a 0 =u и далее решают это последовательными приближениями по формуле

См. также Точечная оценка.

Интервальные оценки. Интервальной оценкой наз. такая О. с., к-рая геометрически представима в виде множества точек, принадлежащих пространству параметров. Интервальную О. с. можно рассматривать как точечных О. с. Это множество зависит от результатов наблюдений и, следовательно, оно случайно; поэтому каждой интервальной О. с. ставится в соответствие вероятность, в к-рой эта оценка "накроет" неизвестную параметрич. точку. Такая вероятность, вообще говоря, зависит от неизвестных параметров; поэтому в качестве характеристики достоверности интервальной О. с. принимают доверия - наименьшее возможное значение указанной вероятности. Содержательные стати-стич. выводы позволяют получать лишь те интервальные О. с., коэффициент доверия к-рых близок к единице.

Если оценивается один параметр a, то интервальной О. с. обычно является нек-рый (b, g).(т. н. ), конечные точки к-рого (b и g представляют собой функции от результатов наблюдений; коэффициент доверия со в данном случае определяется как вероятности одновременного осуществления двух событий {b < a} и (g > a}, вычисляемая по всем возможным значениям параметра a:


Если середину такого интервала принять за точечную О. с. для параметра a, то с вероятностью не менее чем со можно утверждать, что этой О. с. не превышает половины длины интервала . Иными словами, если руководствоваться указанным правилом оценки абсолютной погрешности, то ошибочное заключение будет получаться в среднем менее чем в случаев. При фиксированном коэффициенте доверия со наиболее выгодны кратчайшие доверительные интервалы, для к-рых математич. ожидание длины достигает наименьшего значения.

Если распределение случайных величин X i зависит только от одного неизвестного параметра а, то построение доверительного интервала обычно осуществляется с помощью какой-либо точечной О. с. а. Для большинства практически интересных случаев функция распределения разумно выбранной О. с. а монотонно зависит от параметра а. В этих условиях для отыскания интервальной О. с. следует в F(х; а )подставить х= a. и определить корни а 1 = a 1 (a, w) и а 2 =a 2 (a, w) уравнений

(9) где

[для непрерывных распределений ]. Точки с координатами и ограничивают доверительный интервал с коэффициентом доверия w. Разумеется, интервал, построенный столь простым способом, во многих случаях может отличаться от оптимального (кратчайшего). Однако если a - асимптотически эффективная О. с. для a, то при достаточно большом количестве наблюдений такая интервальная О. с. практически несущественно отличается от оптимальной. В частности, это верно для О. с. наибольшего правдоподобия, т. к. она распределена асимптотически нормально (см. (8)). В тех случаях, когда уравнений (9) затруднительно, интервальную О. с. вычисляют приближенно с помощью точечной О. с. максимального правдоподобия и соотношения (8):

где х - корень уравнения

Если , то истинный коэффициент доверия интервальной оценки стремится к w. В более общем случае распределение результатов наблюдений X i - зависит от нескольких параметров а, b,... . В этих условиях указанные выше правила построения доверительных интервалов часто оказываются неприменимыми, т. к. распределение точечной О. с. a, зависит, как правило, не только от a, но и от остальных параметров. Однако в практически интересных случаях О. с. a можно заменить такой функцией от результатов наблюдений X i и неизвестного параметра я, распределение к-рой не зависит (или "почти не зависит") от всех неизвестных параметров. Примером такой функции может служить нормированная О. с. максимального правдоподобия ; если в знаменателе аргументы a, b,... заменить их оценками максимального правдоподобия a, b,. . . , то предельное распределение останется тем же самым, что и в формуле (8). Поэтому приближенные доверительные интервалы для каждого параметра в отдельности можно строить так же, как и в случае одного параметра.

Как уже отмечалось выше, если ,... - независимые и одинаково нормально распределенные случайные величины, то и s 2 - наилучшие О. с. для параметров a и s 2 соответственно. Функция распределения О. с. выражается формулой


и, следовательно, она зависит не только от a, но также и от s. В то же время распределение т. н. отношения Стьюдента


не зависит ни от a, ни от s, причем

где постоянная выбирается так, чтобы выполнялось равенство . Таким образом, доверительному интервалу

соответствует коэффициент доверия

Распределение оценки s 2 зависит лишь от s 2 , причем функция распределения О. с. s 2 аадается формулой

где постоянная D n-1 определяется условием (так наз. -распределением с п-1степенями свободы).

Так как с ростом s вероятность монотонно возрастает, то для построения интервальной О. с. применимо правило (9). Таким образом, если х 1 и x 2 - корни уравнений и = , то доверительному интервалу

соответствует коэффициент доверия w. Отсюда, в частности, следует, что доверительный интервал для относительной ошибки задается неравенствами

Подробные таблицы функций распределения Стьюдента и -распределения имеются в большинстве руководств по математич. статистике.

До сих пор предполагалось, что функция распределения результатов наблюдений известна с точностью до значений нескольких параметров. Однако в приложениях часто встречается случай, когда функции распределения неизвестен. В этой обстановке для оценки параметров могут оказаться полезными т. н. непараметрические методы статистики (т. е. такие методы, к-рые не зависят от исходного распределения вероятностей). Пусть, напр., требуется оценить медиану ттеоретич. непрерывного распределения независимых случайных величин X 1 , Х 2 ,..., Х п (для симметричных распределений совпадает с математич. ожиданием, если, конечно, оно существует). Пусть Y 1 - те же величины X i но расположенные в порядке возрастания. Тогда, если k - целое число, удовлетворяющее неравенствам n/2 , то

Таким образом, - интервальная О. с. для тс коэффициентом доверия w=w n,k . Этот верен при любом непрерывном распределении случайных величин X i .

Выше отмечалось, что выборочное распределение - точечная О. с. для неизвестного теоретич. распределения. Более того, функция Выборочного распределения F n (x).- несмещенная О. с. для функции теоретич. распределения F(x). При этом, как показал А. Н. Колмогоров, распределение статистики

не зависит от неизвестного теоретич. распределения и при стремится к предельному распределению К(у), к-рое наз. распределением Колмогорова. Таким образом, если у - решение уравнения К(y)=w, то с вероятностью w можно утверждать, что функции теоретич. распределения F(у).целиком "покрывается" полосой, заключенной между графиками функций (при различие допредельного и предельного распределений статистики l n практически несущественно). Такую интервальную О. с. наз. доверительной зоной. См. также Интервальная оценка.

Статистические оценки в теории ошибок. Теория ошибок - раздел математич: статистики, посвященный численному определению неизвестных величин по результатам измерений. В силу случайного характера ошибок измерений и, быть может, случайной природы самого изучаемого явления не все такие результаты равноправны: при повторных измерениях нек-рые из них встречаются чаще, другие - реже.

В основе теории ошибок лежит математич. , согласно к-рой до опыта совокупность всех мыслимых результатов измерения трактуется как множество значений нек-рой случайной величины. Поэтому важную роль приобретает О. с. Выводы теории ошибок носят статистич. . Смысл и содержание таких выводов (как, впрочем, и выводов теории О.

Полагая результат измерения Xслучайной величиной, различают три основных типа ошибок измерений: систематические, случайные и грубые (качественные описания таких ошибок даны в ст. Ошибок теория ). При этом ошибкой измерения неизвестной величины аназ. X-а, математич. ожидание этой разности E( Х-а )=b наз. систематической ошибкой (если b=0, то говорят, что измерения лишены систематич. ошибок), а разность d=Х- а-b наз. случайной ошибкой . Таким образом, если приведено пнезависимых измерений величины a, то их результаты можно записать в виде равенств

где аи b- постоянные, a d i - случайные величины. В более общем случае

где b i - не зависящие от d i случайные величины, к-рые равны нулю с вероятностью, весьма близкой к единице (поэтому всякое другое значение маловероятно). Величину b i наз. грубой ошибкой.

Задача оценки (и устранения) систематич. ошибки обычно выходит за рамки математич. статистики. Исключения составляют т. н. метод эталонов, согласно к-рому для оценки bпроизводят серию измерений известной величины а(в этом методе b - оцениваемая величина и а - известная систематич. ошибка), а также , позволяющий оценивать систематич. расхождения между несколькими сериями измерений.

Основная задача теории ошибок - отыскивание О. с. для неизвестной величины аи оценка точности измерений. Если систематич. ошибка устранена (b=0) и наблюдения грубых ошибок не содержат, то согласно (10) Х i =a+d i и, значит, в этом случае задача оценки асводится к отысканию в том или ином смысле оптимальной О. с. для математич. ожидания одинаково распределенных случайных величин X i . Как было показано в предыдущих разделах, вид такой О. с. (точечной или интервальной) существенно зависит от закона распределения случайных ошибок. Если этот закон известен с точностью до нескольких неизвестных параметров, то для оценки, а также для оценки аможно применять, напр., метод максимального правдоподобия; в противном случае следует сначала по результатам наблюдений Х i найти О. с. для неизвестной функции распределения случайных ошибок d i ("непараметрическая" интервальная О. с. такой функции указана выше). В практич. работе часто довольствуются двумя О. с. и (см. (1) и (2)). Если d i распределены одинаково нормально, то эти О. с. наилучшие; в других случаях эти оценки могут оказаться малоэффективными.

Наличие грубых ошибок усложняет задачу оценки параметра а. Обычно доля наблюдений, в к-рых бывает невелика, а математич. ожидание ненулевых |b i | значительно превышает (грубые ошибки возникают в результате случайного просчета, неправильного чтения показаний измерительного прибора и т. п.). Результаты измерений, содержащие грубые ошибки, часто бывают хорошо заметны, т. к. они сильно отличаются от других результатов измерений. В этих условиях наиболее целесообразный способ выявления (и устранения) грубых ошибок - непосредственный анализ измерений, тщательная проверка неизменности условий всех экспериментов, запись результатов "в две руки" и т. д. Статистич. методы выявления грубых ошибок следует применять лишь в сомнительных случаях.

Простейший пример таких методов - статистпч. выявление одного резко выделяющегося наблюдения, когда подозрительным может оказаться либо Y 1 =minX 1 , либо Y п =mахХ i (предполагается, что в равенствах (11) b=0 и закон распределения величин d i известен). Для того чтобы выяснить, обосновано ли предположение о наличии одной грубой ошибки, для пары Y 1 , Y n вычисляют совместную интервальную О. с. (доверительную ), полагая все b i равными нулю. Если эта О. с. "накрывает" точку с координатами (Y 1 , Y n ), то подозрение о наличии грубой ошибки следует считать статистически необоснованным; в противном случае гипотезу о присутствии грубой ошибки надо признать подтвердившейся (при этом обычно забракованное наблюдение отбрасывают, т. к. сколько-нибудь надежно оценить величину грубой ошибки по одному наблюдению статистически не представляется возможным).

по самоподготовке к практическому занятию по математике

Тема : Статистическое распределение выборки, дискретные и интервальные вариационные ряды. Точечные и интервальные оценки параметров распределения. Погрешности измерений и их оценки.

Актуальность темы : ознакомление с основными понятиями и методами математической статистики как средством решения задач физического, химического, биологического и иного характера, встречающихся как в процессе изучения профильных дисциплин, так и в дальнейшей профессиональной деятельности

Цель занятия : научиться строить статистические ряды для дискретных и непрерывных случайных величин и вычислять точечные оценки генеральных параметров, вычислять погрешности при прямых и косвенных измерениях.

План изучения темы

1. Основные задачи математической статистики.

2. Генеральная и выборочная совокупности.

3. Дискретный вариационный ряд и его графическое изображение.

4. Интервальный вариационный ряд и его графическое изображение. Виды статистических оценок.

5. Требования к статистическим оценкам.

6. Понятия генеральной и выборочной средних.

7. Понятия генеральной, выборочной и исправленной дисперсий.

8. Понятия генерального, выборочного и исправленного среднего квадратического отклонения.

Основная литература:

1. Морозов, Ю.В. Основы высшей математики и статистики: учеб. для студентов мед. и фаpмацевт. вузов и фак./Ю.В. Морозов.-

М.:Медицина, 2004.-232 с.

2. Основы высшей математики и математической статистики: учеб. для студентов мед. и фармацевт. вузов/И.В. Павлушков, Л.В.Розовский, А.Е.Капульцевич и др.-2-е изд., испр.-М.:ГОЭТАР-

Медиа, 2006.-423 с.

Дополнительная литература:

Методические рекомендации к практическим занятиям по высшей математике [Электронный ресурс]: учеб.-метод. пособие для вузов/ авт.-сост. : Т.А.Новичкова; ГОУ ВПО "Курск. гос. мед. ун-т", каф. физики, информатики и математики.-Курск:КГМУ, 2009.

Гмурман В.Е. Теория и математическая статистика. М. «Высшая школа», изд. 5, 2004.

Вопросы для самоконтроля:

1) Определение статистического ряда.

2) Определение генеральной совокупности.

3) Определение выборочной совокупности.

4) Репрезентативность выборки.

5) Виды выборок.

6) Что называется вариантой?

7) Определение ранжирования.

8) Определение частоты, относительной частоты, накопленной частоты.

9) Алгоритм построения интервального вариационного ряда.

10) Определение полигона, кумуляты (дискретного вариационного ряда).

11) Определение гистограммы, кумуляты (интервального вариационного ряда) определение статистической оценки.

12) какие требования предъявляются к статистическим оценкам.

13) Какая статистическая оценка называется смещенной, несмещенной?

14) формулы для расчета генеральной и выборочной средней для сгруппированных и несгруппированных данных.

15) формулы для расчета генеральной и выборочной дисперсии для сгруппированных и несгруппированных данных.

16) Какой оценкой считается выборочная средняя для генеральной средней?

17) Какой оценкой считается выборочная дисперсия для генеральной?

18) Формула для расчета исправленного среднего квадратического отклонения.

19) Какие измерения называются прямыми?

20) Что понимают под истинной абсолютной погрешностью величины X?

21) Что принимают за истинное значение величины X?

22) Что служит точечной оценкой истинного значения величины X?

23) Что служит оценкой дисперсии X?

25) Как найти границы доверительного интервала для истинного значения величины X ?

26) Какие измерения называются косвенными?

27) Если y = f(x1, x2, ..., xn), то по какой формуле вычисляется средняя квадратическая погрешность среднего значения y?

28) По какой формуле находится абсолютная погрешность y: у ?

29) Как найти относительную погрешность y: ε у ?

Задания на самоподготовку:

1. В результате отдельных испытаний активности тетрациклина были получены следующие значения (в единицах действия на 1 мг): 925, 940, 760, 905, 995, 965, 940, 925, 940, 905. составить ряда распределения. Построить полигон, кумуляту.

2. Построить гистограмму относительных частот по распределению выборки: 11, 15, 16, 18, 15.5, 19, 20.1, 20.9, 23, 24.5, 23, 21, 23.9, 24.6, 25.5, 26, 29, 28.6, 30.1, 32.

3. Найти исправленное среднее квадратическое отклонение по данному распределению выборки

Ориентировочные основы действий:

1. Изучить основные понятия по теме

2. Ответить на вопросы для самоконтроля

3. Проработать примеры решения задач по теме

4. Выполнить задания для самостоятельного контроля

5. Решить контрольные задания по теме

После изучения данной темы студент должен знать: понятие вариационного ряда, его виды и их графическое изображение,

понятия статистической оценки, их виды, требования к оценкам, понятия генеральной и выборочной средней, генеральной и выборочной дисперсий. уметь: строить статистические ряды для дискретных и непрерывных случайных величин и вычислять точечные оценки генеральных параметров, вычислять погрешности при прямых и косвенных измерениях.

Краткая теория

Математическая статистика – это раздел прикладной математики, посвящённый методам сбора, группировки и анализа статистических сведений, полученных в результате наблюдений или экспериментов.

Отсюда следуют задачи математической статистики:

способы отбора статистических данных.

способы группировки статистических данных.

методы анализа данных:

оценка параметров известного распределения;

оценка неизвестной функции распределения;

оценка зависимости одной случайной величины от других;

проверка статистических гипотез.

способы определения числа наблюдений (планирование эксперимента).

принятие решений.

В математической статистике изучение случайной величины связано

с выполнением ряда независимых опытов, в которых она принимает определенные значения.

Статистическая совокупность – множество объектов, однородных относительно некоторого качественного или количественного признака.

Н-р, если имеется серия таблеток лекарственного вещества, то качественным признаком может служить стандартность таблетки, а количественным – контролируемая масса таблетки.

Генеральная совокупность – совокупность, состоящая из всех объектов, которые могут быть к ней отнесены.

Теоретически это м.б. бесконечно большая или приближающаяся к бесконечности совокупность.

Н-р, все больные ревматизмом на земном шаре – генеральная совокупность. Реально это в конкретных пределах (город, область).

Число объектов генеральной совокупности называют её объемом и обозначают N.

Выборочная совокупность – множество объектов, случайно отобранных из генеральной совокупности.

Число объектов в выборке называют её объемом и обозначают n.

Для того, чтобы свойства выборки достаточно хорошо отражали свойства генеральной совокупности выборка должна быть репрезентативной (представительной) .

Это требование обеспечивает случайность отбора элементов в выборку, т.е. равновероятность попасть в выборку любому объекту.

В зависимости от техники отбора объектов из генеральной совокупности выборки делятся на:

Повторная

Бесповторная

(отобранный объект возвращается

(отобранный объект не возвращается

в генеральную совокупность)

в генеральную совокупность)

На практике пользуются бесповторной выборкой.

При больших объемах N генеральной совокупности и малом относительном объеме n/N выборки различия в формулах, описывающих обе выборки по технике их отбора невелики.

Дискретный ряд распределения

Наблюдаемые значения признака называются вариантами. Ранжирование – расположение вариант по возрастанию, либо

убыванию.

Вариационным рядом называется ранжированный ряд вариантов и соответствующих им частот.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

Пусть из генеральной совокупности извлечена выборка объемом n. Количественное значение изучаемого признака x1 появилось m1 раз, x2 – m 2

раз, …, x k – m k раз.

Причем ∑ m i = n

i =1

Числа mi называют частотами, а их отношения к объему выборки n – относительными частотами pi =mi /n. Причем Σpi =1.

Для случая когда количественный признак является дискретным, его значения и соответствующие им частоты или относительные частоты представляют виде таблицы.

pi =mi /n

pi * =

m1 /n

(m1 +m2 )/n

mi * /n

При изучении вариационных рядов наряду с понятием частоты используется накопленная частота (mi * ). Накопленная частота показывает, сколько наблюдалось вариантов со значением признака меньше х.

Отношение наколенной частоты mi * к общему числу наблюдений n называется относительной частотой pi * = mi * /n.

Графическое изображение дискретного статистического ряда – полигон частот (относительных).

Полигон служит для изображения дискретного вариационного ряда и представляет собой ломаную, в которой концы отрезков прямой имеют координаты (xi , mi ) или (xi , pi ) в случае полигона относительных частот.

Интервальный статистический ряд.

В случае большого количества вариант (n>50) и непрерывного распределения признака статистическое распределение признака можно задать виде последовательности интервалов и соответствующих им частот.

Чаще используют равноинтервальный ряд.

Нужно правильно выбрать ширину классового интервала. Число интервалов должно зависеть от размаха выборки и её объёма.

Алгоритм построения гистограммы.

1. Дана выборка Х = {x 1 , x 2 , …, x n } ; n – её объём

Размах выборки D = x max – x min

2. Число классов

К = 1 + 3,32 × lg n (формула Стерджесса для n < 100 )

К = 5 × lg n (формула Брукса для n > 100 )

3. Величина классового интервала D x = D / К

4. Границы и середины частичных интервалов

x1л = xmin – D x / 2

x1пр = x2л = xmin + D x / 2

х 1 = x min

х 2 = х 1 + D x

5. Частоты попадания в интервал:

вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака xi =xi+1 -xi , i=1,2,…,k и высотами, равными частотам (относительным частотам) mi (pi ) интервалов.

Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.

Эмпирическая функции распределения Чтобы получить представление о распределении случайной

величины Х, для которой неизвестен закон распределения, строят эмпирическую функцию распределения.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию F* (x), определяющую для каждого значения х относительную частоту события X

, где m* - число наблюдений, при которых наблюдалось значение признака Х меньше х.

Функцию распределения генеральной совокупности называют теоретической функцией.

Различие между эмпирической и теоретической функциями в том, что теоретическая функция определяет вероятность события Х<х, а эмпирическая – относительную частоту данного события.

Понятие статистической оценки.

Требуется изучить количественный признак генеральной совокупности. Допустим, нам известен закон распределения генеральной совокупности. Этот закон определяется несколькими параметрами. Для оценки неизвестных параметров генеральной совокупности используются данные выборки.

Статистической оценкой неизвестного параметра распределения генеральной совокупности называют функцию от наблюдаемых случайных величин.

Обозначим:

θ – неизвестный параметр; θ * – статистическая оценка неизвестного параметра; θ * = f (x 1, x 2, …, x n)

Статистическая оценка θ* является случайной величиной , поэтому имеет дисперсию и среднеквадратическое отклонение, а также ошибку репрезентативности (отклонение выборочного показателя от генерального).

Статистические оценки бывают двух видов: точечные и интервальные .

Оценка одним числом, зависящим от выборочных данных, называется точечной .

Оценка двумя числами, являющимися концами интервала, называется интервальной .

Требования, предъявляемые к точечным статистическим оценкам.

Качество оценки определяется не по одной конкретной выборке, а по

всему мыслимому набору конкретных выборок, т.е. по всему множеству

точечных оценок θ i * неизвестного параметра θ .

Для того, чтобы статистические оценки давали хорошее

приближение оцениваемых параметров, они должны удовлетворять

следующим требованиям:

несмещённость (отсутствие систематических ошибок при

любом объёме выборки М(θ *) = θ );

эффективность (среди всех возможных оценок эффективная

оценка обладает наименьшей дисперсией min D(θ *) ).

состоятельность

(стремление

вероятности

оцениваемому параметру при n → ∞ , т.е. θ * ¾¾ ¾ ® θ );

n →∞

Генеральный

Точечная оценка

Свойства

параметр

точечной оценки

М(Х) = хг =

Не смещаемая

х в = ∑ x i

= ∑ m i x i выборочная

Эффективная

∑x i

i = 1

i = 1

Состоятельная

N i = 1

Асимптотически

− x

− x

несмещённая, т.е.

М(Dв ) ¹ σ г 2 , но

n i = 1

n i = 1

D(X) = σ г =

выборочная дисперсия

) = σ

− x i )

n →∞

N i = 1

S 2 =

D исправленная

n - 1

Не смещаемая

дисперсия

δ в =

Смещаемая

(стандарт)

σ г =

σ г 2

исправленное

среднеквадратическое

Несмещённая

отклонение

является случайной величиной, то у неё есть дисперсия –

хв

дисперсия выборочной средней:

× n × S 2 =

) = D(

∑ xi ) =

D(∑ xi ) =

∑ D(xi ) =

∑ (xi −

n(n − 1) i =1

Точность, надежность оценки

Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность точечной оценки.

Пусть q * – точечная оценка неизвестного параметра q , являющаяся случайной величиной.

Чем меньше ½q - q * ½ , тем точнее q * определяет параметр q .

Если δ > 0 и ½q - q * ½ < δ , то чем меньше δ , тем точнее оценка. Число

δ называется точностью оценки .

В силу случайности q * можно лишь говорить о вероятности осуществления неравенства ½q - q * ½ < e .

Надёжностью (доверительной вероятностью) оценки q * называют вероятность g , с которой осуществляется неравенство ½q - q * ½ < δ .

Обычно g = 0,95; 0,99; 0,999… P(|Θ-Θ*|< δ)=γ

Иногда говорят, что доверительная вероятность g характеризует степень нашей уверенности в том, что доверительный интервал покроет параметр q .

Р {q * - e < q < q * + e} = g означает, что вероятность того, что интервал (q * - e ; q * + e ) заключает в себе неизвестный параметр q , равна g :

Вероятность того, что неизвестный параметр не попадёт в интервал ½q - q * ½ < e , равна 1 - g = a (уровень значимости).

Уровнем значимости (риском) называют вероятность того, что модуль отклонения эмпирической характеристики от теоретической превысит предельную ошибку P(|Θ-Θ*|< ∆)=γ , предельная ошибка – максимально допустимая |Θ-Θ*|< ∆

Распределение Стьюдента

Пусть X ~ N(µ,σ), причем параметры распределения неизвестны.

Рассмотрим распределение величины T = x в − μ .

Распределение величины Т с f=n-1 степенями свободы называется t- распределением или распределением Стьюдента.

Функция плотности вероятности φ(t) зависит от числа степеней свободы и не зависит от дисперсии случайных величин.

С ростом числа степеней свободы распределение данной величины приближается к нормальному

Интервальной оценкой математического ожидания при неизвестной дисперсии является интервал

(x - tγ (f ) × Sx ; x + tγ (f ) × Sx )

Интервальной оценкой математического ожидания при известной

дисперсии является интервал

(x - uα × Sx ; x + uα × Sx )

Ф (u α ) = 1− α - функция Лапласа.

Примеры решения задач

1) Представить в виде статистического дискретного ряда, построить полигон частот, относительных частот, кумулятивную кривую (кривую накопленных частот): 6,7; 6,8; 7; 6,5; 7,3; 7; 7,2; 6,9; 7,1; 6,8; 7,1; 6,8; 7,1; 7,2; 6,8; 6,9;

7; 6,7; 6,6; 6,3; 7,5; 6,9.

Решение. mi – частота, p – относительная частота, pi * - накопленная относительная частота

pi *

Полигон частот

Изучив эту главу, студент будет знать, что выборка может рассматриваться как эмпирический аналог генеральной совокупности, что с помощью выборочных данных можно судить о свойствах генеральной совокупности и оценивать ее характеристики, основные законы распределения статистических оценок, уметь производить точечные и интервальные оценки параметров генеральной совокупности методом моментов и максимального правдоподобия, владеть способами определения точности и надежности полученных оценок.

Виды статистических оценок

О параметрах генеральной совокупности мы знаем то, что они объективно существуют, но определить их непосредственно невозможно в силу того, что генеральная совокупность или бесконечна или чрезмерно велика. Поэтому может стоять вопрос только об оценке этих характеристик.

Ранее было установлено, что для выборки, извлеченной из генеральной совокупности, при соблюдении условий репрезентативности, можно определить характеристики, которые являются аналогами характеристик генеральной совокупности.

cjp Определение 8.1. Приближенные значения параметров распределения, найденные по выборке, называются оценкой параметра.

Обозначим оцениваемый параметр случайной величины (генеральной совокупности) как 0, а его оценку, полученную с помощью выборки, 0.

Оценка 0 является случайной величиной, поскольку любая выборка является случайной. Оценки, полученные для разных выборок, будут отличаться друг от друга. Поэтому будем считать 0 функцией, зависящей от выборки: 0 = 0(Х в).

ЩР Определение 8.2. Статистическая оценка называется состоятельной, если она стремиться по вероятности к оцениваемому параметру:

Это равенство означает, что событие 0=0 становится достоверным при неограниченном возрастании объема выборки.

В качестве примера можно привести относительную частоту некоторого события А, которая является состоятельной оценкой вероятности этого события в соответствии с теоремой Пуассона (см. формулу (6.1), часть 1).

Определение 8.3. Статистическая оценка называется эффективной, если она имеет наименьшую дисперсию при одних и тех же объемах выборки.

Рассмотрим оценку М х математического ожидания М х случайной величины X. В качестве такой оценки выберем X . Найдем математическое ожидание случайной величины X .

Сначала сделаем важное утверждение: учитывая то, что все случайные величины X, извлекаются из одной и той же генеральной совокупности X, а значит, имеют одно и то же распределение что и X, можно записать:

Теперь найдем М(Х в):


Таким образом, выборочная средняя является статистической оценкой математического ожидания случайной величины. Эта оценка является состоятельной поскольку в соответствии со следствием из теоремы Чебышева она сходится по вероятности к математическому ожиданию (6.3).

Мы установили, что в рассматриваемом случае математическое ожидание выбранной нами оценки (случайной величины) равно самому оцениваемому параметру. Оценки, обладающие таким свойством, занимают особое место в математической статистике, они называются несмещенными.

Определение 8.4. Статистическая оценка © называется несмещенной, если ее математическое ожидание равно оцениваемому параметру

Если это требование не выполнено, то оценка называется смещенной.

Таким образом, выборочная средняя является несмещенной оценкой математического ожидания.

Проведем анализ смещенности выборочной дисперсии D , если ее выбрать в качестве оценки генеральной дисперсии D x . Для этого проверим выполнимость условия (8.2) для?) :


Преобразуем каждое из двух полученных слагаемых:

Здесь было использовано равенство М(Х.) = М(Х 2), справедливое по той же причине, что и (8.1).

Рассмотрим второе слагаемое. С помощью формулы квадрата суммы п слагаемых получаем


учитывая снова равенство (8.1), а также то, что X. и X независимые случайные величины запишем

и окончательно получим:

Подставим полученные результаты в (8.3)

После преобразования получим

Таким образом, можно сделать вывод, что выборочная дисперсия является смещенной оценкой генеральной дисперсии.

Учитывая полученный результат, поставим задачу построить такую оценку генеральной дисперсии, которая удовлетворяла бы условию несмещенности (8.2). Для этого рассмотрим случайную величину

Легко видеть, что для этой величины условие (8.2) выполняется:

Заметим, что различие между выборочной дисперсией и исправленной выборочной дисперсией становятся незначительными при больших объемах выборки.

При выборе оценок характеристик случайных величин важно знать их точность. В некоторых случаях требуется высокая точность, а иногда достаточно иметь грубую оценку. Например, планируя перелет с пересадкой нам важно знать как можно точнее планируемое время прилета к месту стыковки авиарейсов. В другой ситуации, например, находясь дома и ожидая курьера с заказанным нами товаром, высокая точность времени его прибытия для нас не важна. В обоих случаях случайной величиной является время прибытия, а интересующей нас характеристикой случайной величины - среднее время в пути.

Оценки бывают двух видов. В первом случае ставится задача получить конкретное числовое значение параметра. В другом случае определяется интервал, в который с заданной вероятностью попадает интересующий нас параметр.