В начало

Диаграмма разброса

 

Часто приходится выяснять, существует ли зависимость между двумя различными параметрами процесса.

Обычно предполагается, что исследуемые параметры отражают характеристики качества и влияющие на них факторы. Чтобы понять, есть ли какая-либо связь между рассматриваемыми параметрами, используют диаграммы разброса.

Диаграмма разброса – это графическое представление пар исследуемых данных в виде множества точек на координатной плоскости.

Диаграмма разброса дает возможность выдвинуть гипотезу о наличии или отсутствии корреляционной связи  между двумя случайными величинами. При этом изучаются обычно величины, описывающие:

– характеристику качества и влияющий на нее фактор;

– две различные характеристики качества;

– два фактора, влияющие на одну характеристику качества.

Чтобы построить диаграмму разброса необходимо:

1) Собрать парные данные (х, у) об изучаемых случайных величинах. Для удобства эти данные записывают в виде таблицы. Желательно, чтобы число наблюдений было не меньше 30, так как в противном случае результаты корреляционного и регрессионного анализа недостаточно достоверны.

 

Таблица. Данные для построения диаграммы разброса

y

y1

y2

yn

x

x1

x2

xn

 

2) Ввести на плоскости систему координат ху, причем шкалы на горизонтальной и вертикальной осях подбираются таким образом, чтобы обе длины рабочих частей получились примерно одинаковыми. В этом случае диаграмма рассеивания более удобна для визуального анализа.

3) Каждую пару данных отметить на координатной плоскости точкой с координатами (х, у). Если какие-либо пары повторяются, то соответствующие им точки надо либо ставить рядом, либо использовать условные обозначения, например, концентрические кружки.

4) Сделать поясняющие надписи, то есть название диаграммы; интервал времени, который отражается на диаграмме; число пар данных; названия и единицы измерения для каждой оси; данные о составителе диаграммы.

После построения диаграммы разброса проводят её анализ.

Если на диаграмме разброса есть далеко отстоящие точки, необходимо исследовать причины их появления. Они могут появляться в результате ошибок измерения, записи данных, либо изменений вешних условий. При этом можно получить неожиданную, но иногда весьма полезную информацию, однако из последующего корреляционного анализа эти точки обычно исключают.

Если точки расположены хаотично, то полагают, что между рассматриваемыми случайными величинами нет корреляции.

Рис. Отсутствие корреляции

Рис. Отсутствие корреляции

Если точки группируются таким образом, что явно выражена некоторая тенденция, то говорят о положительной  или отрицательной   корреляции.

 

Рис. Линейная положительная корреляция

Рис. Линейная положительная корреляция

 

Рис. Линейная отрицательная корреляция

Рис. Линейная отрицательная корреляция

 

Если точки расположены так, что можно предположить нелинейную зависимость, то бывает полезно осуществить расслоение данных, то есть разделение данных по какому-либо дополнительному признаку. Например, при исследовании зависимости равномерности окраски от марки применяемого красителя можно отдельно учесть степень загрузки резервуара для краски.

Рис. Криволинейная корреляция

Рис. Криволинейная корреляция

 

Так как всегда может оказаться, что требуется провести расслоение или осуществить группировку собранных данных каким-либо иным способом, то необходимо очень тщательно подходить к исходной информации. Кроме того, становиться понятным требование полноты поясняющих надписей на диаграмме рассеивания. Любые выводы, сделанные на основании диаграммы рассеивания, должны сопровождаться подробным перечислением условий сбора данных и составления этой диаграммы.

Во всех случаях после визуального анализа диаграммы рассеивания необходимо вычислить коэффициент корреляции. Это позволит подтвердить или опровергнуть выдвинутую гипотезу о наличии либо отсутствии корреляционной связи и установить силу этой связи.

Корреляция – это взаимозависимость двух или нескольких случайных величин в распределении двух или нескольких случайных величин.

Коэффициент корреляции– отношение ковариации двух случайных величин к произведению их среднеквадратических отклонений:

где x, y – случайные величины; mx, my – математические ожидания случайных величин; sx, sy – среднеквадратические отклонения случайных величин; covxy – ковариация случайных величин.

Если диаграмма разброса позволяет предположить линейную корреляцию между изучаемыми величинами, то строятся линии регрессии.

Прямые регрессии наносят обычно на диаграмму рассеивания, что позволяет более наглядно представить себе тенденцию влияния одной случайной величины на другую. При проведении регрессионного анализа предварительное построение диаграммы рассеивания является необходимым этапом, так как анализ этой диаграммы позволяет выдвинуть гипотезу о линейной или нелинейной зависимости, о степени доверия к обрабатываемым результатам измерений и даже о надежности методики проведения экспериментов.