RuNormy.RU
Untitled Page
RuNormy.RU
Untitled Page
"ГОСТ Р ИСО 16269-4-2017. Национальный стандарт Российской Федерации. Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов"
Скачать текст бесплатно в формате MS Word
Поделитесь данным материалом с друзьями:

Скачать
Утвержден и введен в действие
Приказом Федерального
агентства по техническому
регулированию и метрологии
от 10 августа 2017 г. N 865-ст

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

СТАТИСТИЧЕСКИЕ МЕТОДЫ

СТАТИСТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

ЧАСТЬ 4

ВЫЯВЛЕНИЕ И ОБРАБОТКА ВЫБРОСОВ

Statistical methods. Statistical data presentation.
Part 4. Detection and treatment of outliers

(ISO 16269-4:2010, Statistical interpretation of
data - Part 4: Detection and treatment of outliers, IDT)

ГОСТ Р ИСО 16269-4-2017

Группа Т59

ОКС 03.120.30

Дата введения
1 декабря 2018 года

Предисловие

1 ПОДГОТОВЛЕН Открытым акционерным обществом "Научно-исследовательский центр контроля и диагностики технических систем" (АО "НИЦ КД") на основе собственного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 125 "Применение статистических методов"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 10 августа 2017 г. N 865-ст
4 Настоящий стандарт идентичен международному стандарту ИСО 16269-4:2010 "Статистическое представление данных. Часть 4. Выявление и обработка выбросов" (ISO 16269-4:2010 "Statistical interpretation of data - Part 4: Detection and treatment of outliers", IDT).
Международный стандарт разработан Техническим комитетом ISO/ТС 69.
Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).
При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА
5 ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

Введение

Выявление выбросов - одна из старейших проблем анализа данных. Причинами появления выбросов могут быть ошибки измерений, ошибки отбора выборки, преднамеренное искажение или некорректная фиксация результатов анализа выборки, ошибочные предположения о распределении данных или модели, малое количество наблюдений и т.д.
Выбросы могут искажать и сокращать информацию, содержащуюся в источнике данных или процедуре их генерации. В производстве наличие выбросов снижает результативность производственных процессов, качество продукции, а также процедур контроля продукции. Выбросы не всегда следует трактовать как "плохие" или "ошибочные" данные. В некоторых случаях выбросы дают важную информацию, которую необходимо учитывать в процессе исследований.
Выявление и анализ выбросов в процессе измерения ведут к более полному пониманию изучаемых процессов и более глубокому анализу данных, и как следствие, к более достоверным выводам.
Так как проблеме обнаружения и обработки выбросов посвящено большое количество литературных публикаций, важной задачей является определение и стандартизация (на международном уровне) этих методов.
Настоящий стандарт содержит шесть приложений. В приложении A приведен алгоритм вычисления статистик и критических значений для выявления выбросов в выборке из нормального распределения. В приложениях B, D и E приведены таблицы, необходимые для применения рекомендованных в стандарте процедур. В приложении C приведено статистическое обоснование построения диаграмм, помогающих в решении задачи отслеживания выбросов. В приложении F приведено поэтапное руководство по применению процедур, установленных в настоящем стандарте, и представлена блок-схема соответствующих действий.

1 Область применения

В настоящем стандарте установлены статистические критерии и методы графического анализа данных, полученные в результате измерений. В настоящем стандарте приведены рекомендации по методам определения робастных оценок и процедурам проверки наличия выбросов в данных.
Методы, представленные в настоящем стандарте, предназначены главным образом для выявления и обработки выбросов одномерных данных. Однако в настоящем стандарте представлены также некоторые рекомендации по работе с многомерными данными и данными регрессионного анализа.

2 Термины и определения

В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 выборка, набор данных (sample, data set): Подмножество генеральной совокупности, состоящее из одной или нескольких выборочных единиц.
Примечание 1 - В зависимости от исследуемой генеральной совокупности выборочными единицами могут быть объекты, числовые значения, а также абстрактные элементы.
Примечание 2 - Выборку из генеральной совокупности, подчиняющуюся нормальному распределению (2.22), гамма-распределению (2.23), экспоненциальному распределению (2.24), распределению Вейбулла (2.25), логнормальному распределению (2.26) или распределению экстремальных значений типа I (2.27) часто называют выборкой из нормального распределения, гамма-распределения, экспоненциального распределения, распределения Вейбулла, логнормального распределения или распределения экстремальных значений типа I соответственно.

2.2 выброс (outlier): Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки (2.1).
Примечание 1 - Классификация наблюдения или подмножество выборки как выброс (или выбросы) зависит от выбранной модели генеральной совокупности, из которой отобрана выборка. Выброс не рассматривают как истинный элемент генеральной совокупности.
Примечание 2 - Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений.
Примечание 3 - Подмножество может содержать одно или несколько наблюдений.

2.3 маскировка (masking): Наличие более одного выброса (2.2), затрудняющее обнаружение каждого выброса.
2.4 вероятность ложного обнаружения выбросов (some-outside rate): Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы (2.2).
2.5 метод коррекции выбросов (outlier accommodation method): Метод нечувствительный к наличию выбросов (2.2) при принятии решения о генеральной совокупности.
2.6 устойчивая оценка (resistant estimation): Оценка, подверженная лишь малым изменениям при замене небольшой доли набора данных (2.1), элементами, возможно, имеющими значительное отличие от замененных элементов.
2.7 робастная оценка (robust estimation): Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.
Примечание - Примером может быть оценка, полученная методом, предназначенным для нормального распределения (2.2), при применении к близким распределениям, но имеющим некоторую асимметрию или тяжелые хвосты функции распределения. Группа таких оценок включает в себя L-оценки (взвешенное среднее арифметическое порядковых статистик (2.10)) и M-оценки (см. [9]).

2.8 ранг (rank): Положение наблюдаемого значения в упорядоченном наборе наблюдаемых значений.
Примечание 1 - Наблюдаемые значения упорядочивают в неубывающем (ведя отсчет от наименьшего элемента) или в невозрастающем (ведя отсчет от наибольшего элемента) порядке.
Примечание 2 - В соответствии с целями настоящего стандарта одинаковым наблюдаемым значениям присваивают разные, но последовательные ранги.

2.9 глубина (depth): Наименьший из двух рангов (2.8), присвоенных элементу при упорядочивании выборки (2.1) в неубывающем и невозрастающем порядках.
Примечание 1 - Значение глубины может быть не целым числом (см. приложение A).
Примечание 2 - Для всех полученных значений, отличных от медианы (2.11), глубина определяет два значения - одно ниже медианы, другое выше медианы. Например, два значения с глубиной 1 представляют собой минимальное и максимальное значение в выборке (2.1).

2.10 порядковая статистика (order statistic): Статистика, определяемая рангом при упорядочивании набора данных в неубывающем порядке.
[ИСО 3534-1:2006, п. 1.9]
Примечание 1 - Пусть  - неупорядоченная выборка. После ее упорядочивания, обозначенные заново элементы составляют упорядоченную выборку, где , тогда  - наблюдаемое значение k-й порядковой статистики в выборке объема n.
Примечание 2 - На практике для определения порядковых статистик данных в выборке (2.1) производят их упорядочивание в соответствии с примечанием 1.

2.11 медиана, выборочная медиана, медиана набора чисел Q2 (median, sample median, median of a set of numbers, Q2): k-я порядковая статистика, где , если объем выборки - нечетное число или полусумма -й и -й порядковых статистик, если n - четное число.
[ИСО 3534-1:2006, п. 1.13]
Примечание - Медиана является вторым квартилем (Q2).

2.12 первый квартиль, нижний выборочный квартиль Q1 (first quartile sample lower quartile, Q1): Медиана (2.11) первых наименьших (n - 1)/2 значений для нечетного числа наблюдений; медиана первых наименьших n/2 значений для четного числа наблюдений.
Примечание 1 - В литературе встречается много различных определений выборочного квартиля, что приводит в некоторой степени к различным выводам. В настоящем стандарте приведено определение, которое широко распространено и удобно в применении.
Примечание 2 - Популярными вариантами квартиля являются "сгибы" и "четверти" (2.19 и 2.20). В некоторых случаях (см. примечание 3 в 2.19) первый квартиль и нижняя четверть (2.19) идентичны.

2.13 третий квартиль, верхний выборочный квартиль Q3 (third quartile, sample upper quartile, Q3): Медиана (2.11) последних наибольших (n - 1)/2 значений для нечетного числа наблюдений или медиана последних наибольших n/2 значений для четного числа наблюдений.
Примечание 1 - В литературе встречается много различных определений выборочного квартиля, что приводит в некоторой степени к различным выводам. В настоящем стандарте приведено определение, которое широко распространено и удобно в применении.
Для просмотра документа целиком скачайте его >>>
Нормы из информационного банка "Строительство":
Пожарные нормы:
ГОСТы:
Счетчики:
Политика конфиденциальности
Copyright 2020 - 2022 гг. RuNormy.RU. All rights reserved.
При использовании материалов сайта активная гипер ссылка  обязательна!