Цензурирование в статистике кратко

Лекция



Привет, Вы узнаете о том , что такое цензурирование, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое цензурирование , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .

В статистике цензурирование — это состояние, при котором значение измерения или наблюдения известно лишь частично.

Например, предположим, что проводится исследование влияния препарата на уровень смертности . В таком исследовании может быть известно, что возраст умершего человека составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если он жив в настоящее время и ему 75 лет.

Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут измерять только до 140 кг, после чего перескакивают через 0 и продолжают отсчет. Если на этих весах взвесить человека весом 160 кг, наблюдатель будет знать только, что его вес равен 20 mod 140 кг (помимо 160 кг, он может весить 20 кг, 300 кг, 440 кг и так далее).

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной известно частично, связана с проблемой пропущенных данных , когда наблюдаемое значение некоторой переменной неизвестно.

Цензурирование не следует путать с родственной ему идеей усечения . При цензурировании результаты наблюдений либо позволяют узнать точное значение, которое применяется, либо определить, что значение находится в интервале . При усечении результаты наблюдений никогда не выходят за пределы заданного диапазона: значения в генеральной совокупности, выходящие за пределы диапазона, никогда не наблюдаются, а если и наблюдаются, то никогда не регистрируются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .

Цензурирование — это форма проблемы пропущенных данных, при которой время до события не отслеживается по таким причинам, как завершение исследования до того, как все набранные участники продемонстрировали интересующее событие, или когда участник покинул исследование до того, как событие произошло. Цензурирование часто встречается в анализе выживаемости.

Если известна только нижняя граница l для истинного времени события T , при этом T > l , это называется правым цензурированием . Правое цензурирование будет иметь место, например, для тех испытуемых, чья дата рождения известна, но которые еще живы на момент потери данных для последующего наблюдения или окончания исследования. Мы обычно сталкиваемся с данными, цензурированными по правому цензурированию.

Если событие, представляющее интерес, уже произошло до того, как субъект был включен в исследование, но неизвестно, когда оно произошло, то говорят, что данные подвергнуты левой цензуре . [ 24 ] Когда можно только сказать, что событие произошло между двумя наблюдениями или исследованиями, это интервальная цензура .

Типы

  • Левая цензура — точка данных ниже определенного значения, но неизвестно, насколько.
  • Интервальное цензурирование — точка данных находится где-то в интервале между двумя значениями.
  • Правое цензурирование — точка данных превышает определенное значение, но неизвестно, насколько.
  • Цензурирование типа I происходит, если в эксперименте участвует определенное количество субъектов или предметов, и эксперимент останавливается в заранее определенное время, после чего все оставшиеся субъекты подвергаются правой цензуре.
  • Цензурирование типа II происходит, если в эксперименте участвует определенное количество субъектов или предметов, и эксперимент останавливается, когда обнаруживается, что заранее определенное количество субъектов не прошли испытание; оставшиеся субъекты затем подвергаются правой цензуре.
  • Случайное (или неинформативное ) цензурирование происходит, когда время цензурирования каждого испытуемого статистически не зависит от времени его отказа. Наблюдаемое значение представляет собой минимум из времени цензурирования и времени отказа; испытуемые, у которых время отказа больше времени цензурирования, подвергаются правому цензурированию.

Интервальное цензурирование может иметь место, когда наблюдение за значением требует дополнительных наблюдений или проверок. Левое и правое цензурирование являются частными случаями интервального цензурирования, когда начало интервала соответствует нулю, а конец — бесконечности соответственно.

Методы оценки для использования данных, подвергнутых левой цензуре, различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [ 1 ]

Распространенное заблуждение, связанное с данными о временных интервалах, заключается в том, что интервалы, начальное время которых неизвестно, классифицируются как цензурированные слева . В таких случаях у нас есть нижняя граница временного интервала ; таким образом, данные цензурируются справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).

Анализ

Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем сбоя кодируются как фактические сбои; цензурированные данные кодируются с учетом типа цензурирования и известного интервала или предела. Специальные программы (часто ориентированные на надежность ) могут выполнять оценку максимального правдоподобия для сводных статистик, доверительных интервалов и т. д.

Эпидемиология

Одной из самых ранних попыток анализа статистической проблемы, связанной с цензурированными данными, был анализ данных о заболеваемости и смертности от оспы , проведенный Даниилом Бернулли в 1766 году с целью продемонстрировать эффективность вакцинации . Ранняя работа по использованию оценщика Каплана-Майера для оценки цензурированных затрат была написана Квесенберри и др. (1989) , однако Лин и др. сочли этот подход недействительным , если только все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Линь.

Испытание срока эксплуатации

Цензурирование в статистике

Пример пяти повторных тестов, приведших к четырем неудачам и одной приостановке, повлекшей за собой цензурирование.

Тестирование надежности часто заключается в проведении испытания элемента (в заданных условиях) для определения времени, необходимого для возникновения отказа.

  • Иногда отказ запланирован и ожидается, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. д. Результат теста не соответствует желаемому времени до отказа, но может (и должен) быть использован в качестве времени до завершения. Использование цензурированных данных непреднамеренно, но необходимо.
  • Иногда инженеры планируют программу испытаний таким образом, чтобы по истечении определенного времени или количества неудач все остальные испытания прекращались. Эти приостановленные данные рассматриваются как данные, цензурированные справа. Использование цензурированных данных является намеренным.

Анализ данных повторных испытаний включает как время до отказа для неисправных элементов, так и время прекращения испытаний для тех, которые не вышли из строя.

Цензурированная регрессия

Более ранняя модель цензурированной регрессии , модель Тобита , была предложена Джеймсом Тобином в 1958 году. [

Вероятность

Правдоподобие — это вероятность или плотность вероятности наблюдаемого события, рассматриваемая как функция параметров предполагаемой модели. Чтобы включить цензурированные точки данных в правдоподобие, цензурированные точки данных представляются вероятностью цензурированных точек данных как функции параметров модели, то есть функцией CDF(s), а не плотностью или массой вероятности.

Наиболее общим случаем цензурирования является интервальное цензурирование: Цензурирование в статистике, где Цензурирование в статистике— это функция распределения вероятностей, и два особых случая:

  • левая цензура: Цензурирование в статистике
  • правая цензура Цензурирование в статистике

Для непрерывных распределений вероятностей: Цензурирование в статистике

Пример

Предположим, нас интересует время выживания,Т1,Т2,...,ТнЦензурирование в статистике, но мы не наблюдаемТяЦензурирование в статистикедля всехяЦензурирование в статистике. Вместо этого мы наблюдаем

Цензурирование в статистике, с Цензурирование в статистикеи Цензурирование в статистикеесли Цензурирование в статистикена самом деле наблюдается, и

Цензурирование в статистике, с Цензурирование в статистикеи 0Цензурирование в статистикеесли все, что мы знаем, это то, что Цензурирование в статистикедлиннее, чем Цензурирование в статистике.

Когда Цензурирование в статистикеназывается цензурным временем . Об этом говорит сайт https://intellect.icu .

Если времена цензурирования являются известными константами, то вероятность равна

Цензурирование в статистике

где Цензурирование в статистике= функция плотности вероятности, оцененная при Цензурирование в статистике,

и Цензурирование в статистике= вероятность того, что Цензурирование в статистикебольше чем Цензурирование в статистике, называемая функцией выживания .

Это можно упростить, определив функцию опасности , мгновенную силу смертности, как

Цензурирование в статистике

так

Цензурирование в статистике.

Затем

Цензурирование в статистике.

Для экспоненциального распределения это становится еще проще, поскольку коэффициент опасности,λЦензурирование в статистике, является постоянной величиной, и Цензурирование в статистике. Затем:

Цензурирование в статистике,

гдек Цензурирование в статистике.

Отсюда мы легко вычисляемλ^Цензурирование в статистике, оценка максимального правдоподобия (MLE )λЦензурирование в статистике, следующее:

Цензурирование в статистике.

Затем

Цензурирование в статистике.

Мы устанавливаем это на 0 и решаем дляλЦензурирование в статистикеполучить:

Цензурирование в статистике.

Эквивалентно, среднее время до отказа составляет:

Цензурирование в статистике.

Это отличается от стандартного MLE для экспоненциального распределения тем, что цензурированные наблюдения учитываются только в числителе.

Смотрите также

  • Анализ данных
  • Предел обнаружения
  • Вменение (статистика)
  • Обратное взвешивание вероятностей
  • Смещение выборки
  • Арифметика насыщения
  • Анализ выживаемости
  • Винсорайзинг

Исследование, описанное в статье про цензурирование, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое цензурирование и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ

Из статьи мы узнали кратко, но содержательно про цензурирование
создано: 2025-12-05
обновлено: 2026-03-08
46



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:
Пожаловаться

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей

Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Теория вероятностей. Математическая статистика и Стохастический анализ

Термины: Теория вероятностей. Математическая статистика и Стохастический анализ