В начало

Точечные оценки и их свойства (Лекция)

ПЛАН ЛЕКЦИИ

1. Средняя арифметическая и математическое ожидание

2. Дисперсия и среднее квадратическое отклонение

3. Начальные моменты

4. Центральные моменты

5. Свойства точечных оценок

 

1. Средняя арифметическая и математическое ожидание

Средняя арифметическая является оценкой математического ожидания МХ=μ (оценка истинного значения измеряемой величины).

 

Математическое ожидание

  

является также первым начальным моментом.

В случае статистического ряда, когда значению параметра соответствует какая-либо частота имеем

.,

2. Дисперсия и среднее квадратическое отклонение

Дисперсия  – это характеристика рассеивания случайной величины

и среднее квадратическое отклонение (характеристика рассеивания)

как оценки генеральной дисперсии DX2 и среднего квадратического отклонения σ ():

Дисперсия представляет собой второй центральный момент.

 

3. Начальные моменты

Начальные моменты (усредняются величины, отсчитываемые от начала координат):

,

.

 

4. Центральные моменты

Центральные моменты (усредняются величины, отсчитываемые от центра распределения):

,

Начальные и центральные моменты (до четвертого порядка включительно, т.е. k=1, 2, 3, 4) используются в качестве оценок соответствующих моментов генеральной совокупности.

Очевидно, что средняя арифметическая равна первому начальному моменту , а дисперсия выборки – второму центральному моменту выборки .

В качестве оценки вероятности p (генеральной доли) появления какого-то события в практике статистического приемочного контроля используют выборочную долю ω

,

где m – число появлений этого события в выборке объемом n.

При определении оценки  медианы по выборке объемом n наблюдения располагают в порядке возрастания:

х(1)<x(2)<…<x(n).

За оценку  принимают средний член этого ряда. Если же число наблюдений четное, то в качестве оценки медианы берут среднюю арифметическую двух средних значений.

Модой (Мо) случайной величины называется ее значение, которое наиболее часто встречается в данном ряду. Для дискретного ряда мода определяется по частотам наблюдаемых значений контролируемого параметра качества и соответствует значению параметра с наибольшей частотой.

При непрерывном распределении с равными интервалами модальный интервал определяется по наибольшей частоте, при неравных интервалах – по наибольшей плотности. Плотность вычисляется как отношение частоты к продолжительности интервала.

Для отображения рассеяние в математической статистике применяют размах R, представляющий собой величину неустойчивую, зависящую от случайных обстоятельств и поэтому применяемую, как правило, в качестве приблизительной оценки рассеивания. Однако, размах бывает очень удобно применять в контрольных картах. Он вычисляется как разность между наибольшим и наименьшим значениями наблюдаемой случайной величины

.

Отношение стандартного отклонения к средней арифметической, выраженное в процентах, называют коэффициентом вариации V

.

Коэффициент вариации также используется как статистическая оценка рассеивания, показывает относительное колебание отдельных значений около средней арифметической. Коэффициент вариации, являясь безразмерной величиной, удобен для сравнения рассеивания случайной величины с ее средним значением.

Оценка коэффициента асимметрии, характеризующая скошенность вариационного ряда, определяется как

,

Третий центральный момент

характеризует асимметрию. Для нормального распределения А*=0.

 

 

Рис. Распределение плотности вероятности при различных значениях коэффициента асимметрии

 

Оценка эксцесса, характеризующая островершинность вариационного ряда, определяется по формуле

.

Четвертый центральный момент

характеризует эксцесс. Для нормального распределения Е*=3.

Если средняя арифметическая, медиана и среднее квадратическое отклонение имеют размерность признака, то коэффициенты асимметрии и эксцесса являются безразмерными величинами.

 

Рис. Распределение плотности вероятности с различными коэффициентами эксцесса

 

В отличие от параметров генеральной совокупности всякая статистика, а следовательно, и точечная оценка являются случайной величиной. Например, если доля изделий 1-го сорта в партии, состоящей из N=1000 изделий, оценивается по выборке объемом n=100, то, повторив несколько раз соответствующее выборочное обследование, мы увидим, что эта оценка, т.е. доля изделий 1-го сорта в выборке, варьирует случайным образом от одной выборки к другой. В то же время существует некоторое истинное значение доли (генеральная доля) изделий 1-го сорта в данной партии, около которого и происходит это случайное варьирование ее статистических оценок.

 

5. Свойства точечных оценок

В математической статистике в зависимости от задачи статистику рассматривают либо как случайную величину, либо как число (конкретную реализацию случайной величины). Возникает вопрос, каким требованиям должны отвечать точечные оценки, чтобы их можно было считать в каком-то определенном смысле «хорошими»? Эти требования характеризуются понятиями несмещенности, состоятельности и эффективности.

Оценку Qn называют несмещенной, если при любом объеме выборки п ее математическое ожидание равно оцениваемому параметру Q, Т.Е. MQn*=Q. Смещением оценки Вn называют разность Вn=MQn*Q. Смещение характеризует систематическую погрешность, которая, вообще говоря, зависит от объема выборки.

Смещение оценки  монотонно убывает при неограниченном возрастании n, т.е. Bn→0 при n→∞, что важно при исследовании состоятельности оценки. Отсюда ясно, что требование несмещенности особенно существенно при малом количестве наблюдений.

Однако оценку s2 можно легко исправить. Несмещенной оценкой генеральной дисперсии σ2 является скорректированная выборочная дисперсия

.

Оценка Qn* параметра Q называется состоятельной, если по мере роста числа наблюдений n (т.е. при nN – в случае конечной генеральной совокупности объемом N или при n→∞ в случае бесконечной генеральной совокупности) она стремиться (сходиться по вероятности) к оцениваемому параметру Q, т.е.

.

«Сходимость по вероятности» означает, что при любом как угодно малом ε>0 вероятность события {Qn*-ε<Q<Qn*} стремиться по мере возрастания объема выборки n к единице.

Условием состоятельности оценок является стремление к нулю при неограниченном возрастании n смещения Bn и дисперсии DQ*n оценки (т. Е. Bn→0 и DQn*→0 при n→∞).

Можно показать, что средняя арифметическая , выборочная дисперсия s2 и относительная частота ω есть состоятельные оценки соответственно математического ожидания μ, генеральной дисперсии σ2 и вероятности р.

При выполнении условия состоятельности имеет смысл увеличивать объем наблюдений, так как это приводит к повышению точности оценивания.

Так как среднее арифметическое результатов наблюдений получено в результате сложения случайных величин , то оно также является случайной величиной с дисперсией D(x). Значение дисперсии среднего значения можно определить:

.

Отсюда следует, что точность результата измерения можно повысить при увеличении числа наблюдений. Дисперсия среднего арифметического из n наблюдений в n раз меньше дисперсии результата однократного наблюдения.

Среднее квадратическое отклонение среднего арифметического  определяется по формуле

.

При n→∞ . Это означает, что среднее арифметическое ряда наблюдений сходится по вероятности к математическому ожиданию и является его состоятельной оценкой.

Дисперсия выборочной оценки связана с еще одним ее важным свойством — эффективностью. Несмещенная оценка Qn* параметра Q называется эффективной, если среди прочих несмещенных оценок того же параметра она обладает наименьшей дисперсией. Требование эффективности оценки основано на логическом правиле, заключающемся в том, что если имеется несколько несмещенных оценок параметра, то следует отдать предпочтение той из них, которая подвержена меньшим случайным колебаниям около неизвестного нам значения оцениваемого параметра (меньшему рассеянию) при переходе от одной выборки объема п к другой, т. Е. оценке с наименьшей дисперсией D(Qn*).

Например, если выборка взята из генеральной совокупности X, имеющей нормальное распределение, то при п→∞ дисперсия средней арифметической D= в π/2 раз меньше, чем дисперсия медианы Dxmed=. Отсюда следует, что в случае нормального распределения для получения с помощью медианы оценки генеральной средней μ той же точности, что и оценка, полученная с помощью , необходимо увеличить объем выборки в π/2=1,57 раза.

Эффективность оценки зависит от закона распределения исследуемой совокупности и объема выборки п.

Наиболее оптимальным методом получения хороших оценок является метод наибольшего правдоподобия. Он основан на использовании функции правдоподобия

,    (1.25)

где f(x,Q) — функция вероятностей (для дискретной случайной величины) или плотность вероятностей (для непрерывной случайной величины); Q=(Q1, Q2, …, Qk)T - вектор параметров закона распределения, подлежащих оцениванию по выборке.

Функцию правдоподобия можно рассматривать как вероятность (или плотность вероятностей) совместного появления результатов выборки (x1, х2, .... хп). За оценки наибольшего правдоподобия принимают значения , максимизирующие функцию правдоподобия. Обычно эти оценки находят, решая систему k уравнений

,

где j=1, 2, …, k.

Оценка наибольшего правдоподобия эффективна, если параметр Q имеет эффективную оценку, состоятельна, имеет асимптотически нормальное распределение, с математическим ожиданием Q и конечной дисперсией.