Лекция
Привет, Вы узнаете о том , что такое цензурирование, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое цензурирование , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .
В статистике цензурирование — это состояние, при котором значение измерения или наблюдения известно лишь частично.
Например, предположим, что проводится исследование влияния препарата на уровень смертности . В таком исследовании может быть известно, что возраст умершего человека составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если он жив в настоящее время и ему 75 лет.
Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут измерять только до 140 кг, после чего перескакивают через 0 и продолжают отсчет. Если на этих весах взвесить человека весом 160 кг, наблюдатель будет знать только, что его вес равен 20 mod 140 кг (помимо 160 кг, он может весить 20 кг, 300 кг, 440 кг и так далее).
Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной известно частично, связана с проблемой пропущенных данных , когда наблюдаемое значение некоторой переменной неизвестно.
Цензурирование не следует путать с родственной ему идеей усечения . При цензурировании результаты наблюдений либо позволяют узнать точное значение, которое применяется, либо определить, что значение находится в интервале . При усечении результаты наблюдений никогда не выходят за пределы заданного диапазона: значения в генеральной совокупности, выходящие за пределы диапазона, никогда не наблюдаются, а если и наблюдаются, то никогда не регистрируются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .
Цензурирование — это форма проблемы пропущенных данных, при которой время до события не отслеживается по таким причинам, как завершение исследования до того, как все набранные участники продемонстрировали интересующее событие, или когда участник покинул исследование до того, как событие произошло. Цензурирование часто встречается в анализе выживаемости.
Если известна только нижняя граница l для истинного времени события T , при этом T > l , это называется правым цензурированием . Правое цензурирование будет иметь место, например, для тех испытуемых, чья дата рождения известна, но которые еще живы на момент потери данных для последующего наблюдения или окончания исследования. Мы обычно сталкиваемся с данными, цензурированными по правому цензурированию.
Если событие, представляющее интерес, уже произошло до того, как субъект был включен в исследование, но неизвестно, когда оно произошло, то говорят, что данные подвергнуты левой цензуре . [ 24 ] Когда можно только сказать, что событие произошло между двумя наблюдениями или исследованиями, это интервальная цензура .
Интервальное цензурирование может иметь место, когда наблюдение за значением требует дополнительных наблюдений или проверок. Левое и правое цензурирование являются частными случаями интервального цензурирования, когда начало интервала соответствует нулю, а конец — бесконечности соответственно.
Методы оценки для использования данных, подвергнутых левой цензуре, различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [ 1 ]
Распространенное заблуждение, связанное с данными о временных интервалах, заключается в том, что интервалы, начальное время которых неизвестно, классифицируются как цензурированные слева . В таких случаях у нас есть нижняя граница временного интервала ; таким образом, данные цензурируются справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).
Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем сбоя кодируются как фактические сбои; цензурированные данные кодируются с учетом типа цензурирования и известного интервала или предела. Специальные программы (часто ориентированные на надежность ) могут выполнять оценку максимального правдоподобия для сводных статистик, доверительных интервалов и т. д.
Одной из самых ранних попыток анализа статистической проблемы, связанной с цензурированными данными, был анализ данных о заболеваемости и смертности от оспы , проведенный Даниилом Бернулли в 1766 году с целью продемонстрировать эффективность вакцинации . Ранняя работа по использованию оценщика Каплана-Майера для оценки цензурированных затрат была написана Квесенберри и др. (1989) , однако Лин и др. сочли этот подход недействительным , если только все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Линь.
Пример пяти повторных тестов, приведших к четырем неудачам и одной приостановке, повлекшей за собой цензурирование.
Тестирование надежности часто заключается в проведении испытания элемента (в заданных условиях) для определения времени, необходимого для возникновения отказа.
Анализ данных повторных испытаний включает как время до отказа для неисправных элементов, так и время прекращения испытаний для тех, которые не вышли из строя.
Более ранняя модель цензурированной регрессии , модель Тобита , была предложена Джеймсом Тобином в 1958 году. [
Правдоподобие — это вероятность или плотность вероятности наблюдаемого события, рассматриваемая как функция параметров предполагаемой модели. Чтобы включить цензурированные точки данных в правдоподобие, цензурированные точки данных представляются вероятностью цензурированных точек данных как функции параметров модели, то есть функцией CDF(s), а не плотностью или массой вероятности.
Наиболее общим случаем цензурирования является интервальное цензурирование: , где
— это функция распределения вероятностей, и два особых случая:
Для непрерывных распределений вероятностей:
Предположим, нас интересует время выживания,Т1,Т2,...,Тн, но мы не наблюдаемТя
для всехя
. Вместо этого мы наблюдаем
, с
и
если
на самом деле наблюдается, и
, с
и 0
если все, что мы знаем, это то, что
длиннее, чем
.
Когда называется цензурным временем . Об этом говорит сайт https://intellect.icu .
Если времена цензурирования являются известными константами, то вероятность равна
где = функция плотности вероятности, оцененная при
,
и = вероятность того, что
больше чем
, называемая функцией выживания .
Это можно упростить, определив функцию опасности , мгновенную силу смертности, как
так
.
Затем
.
Для экспоненциального распределения это становится еще проще, поскольку коэффициент опасности,λ, является постоянной величиной, и
. Затем:
,
гдек .
Отсюда мы легко вычисляемλ^, оценка максимального правдоподобия (MLE )λ
, следующее:
.
Затем
.
Мы устанавливаем это на 0 и решаем дляλполучить:
.
Эквивалентно, среднее время до отказа составляет:
.
Это отличается от стандартного MLE для экспоненциального распределения тем, что цензурированные наблюдения учитываются только в числителе.
Исследование, описанное в статье про цензурирование, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое цензурирование и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ
Из статьи мы узнали кратко, но содержательно про цензурирование
Комментарии
Оставить комментарий
Теория вероятностей. Математическая статистика и Стохастический анализ
Термины: Теория вероятностей. Математическая статистика и Стохастический анализ