Лекция
Привет, Вы узнаете о том , что такое логистическая регрессия, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое логистическая регрессия , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .
логистическая регрессия , вероятно, является наиболее часто используемым алгоритмом для решения всех проблем классификации. Кроме того, это один из первых методов, которым люди начинают пачкать руки.
Мы увидели тот же дух в тесте, который мы разработали для оценки людей по логистической регрессии. Этот тест прошли более 800 человек. Этот тест навыков разработан специально для вас, чтобы проверить свои знания о логистической регрессии и ее нюансах.
Если вы один из тех, кто пропустил этот тест, вот вопросы и решения. Вы пропустили тест в реальном времени, но можете прочитать эту статью, чтобы узнать, сколько из них могли ответить правильно.
Вот таблица лидеров участников, прошедших тест.
Ниже представлено распределение баллов участников:
Вы можете просмотреть результаты здесь . В тесте навыков приняли участие более 800 человек, и наивысший балл был 27.
Вот несколько ресурсов, чтобы получить более глубокие знания по предмету.
1) Верно-Неверно: логистическая регрессия - это алгоритм машинного обучения с учителем?
А) ИСТИНА
Б) ЛОЖЬ
Решение: A
Действительно, логистическая регрессия - это алгоритм обучения с учителем, потому что он использует истинные метки для обучения. Алгоритм контролируемого обучения должен иметь входные переменные (x) и целевую переменную (Y) при обучении модели.
2) Верно-Неверно: используется ли логистическая регрессия в основном для регрессии?
А) ИСТИНА
Б) ЛОЖЬ
Решение: B
Логистическая регрессия - это алгоритм классификации, не путайте с регрессией имени.
3) Верно-Ложь: можно ли разработать алгоритм логистической регрессии с использованием алгоритма нейронной сети?
А) ИСТИНА
Б) ЛОЖЬ
Решение: A
Правда, нейронная сеть - это универсальный аппроксиматор, поэтому он может реализовать алгоритм линейной регрессии.
4) Верно-Ложь: можно ли применить алгоритм логистической регрессии к задаче классификации с тремя классами?
А) ИСТИНА
Б) ЛОЖЬ
Решение: A
Да, мы можем применить логистическую регрессию к 3 задачам классификации. Мы можем использовать метод «Один против всех» для классификации 3 классов в логистической регрессии.
5) Какие из следующих методов мы используем для наилучшего соответствия данным логистической регрессии?
A) Наименьшая квадратичная ошибка
B) Максимальное правдоподобие
C) Расстояние Жаккара
D) И A, и B
Решение: B
Логистическая регрессия использует максимально вероятную оценку капюшона для обучения логистической регрессии.
6) Какие из следующих метрик оценки нельзя применить в случае вывода логистической регрессии для сравнения с целевым?
A) AUC-ROC
B) Погрешность
C) Логотериал
D) Среднеквадратическая ошибка
Решение: D
Поскольку логистическая регрессия - это алгоритм классификации, поэтому его вывод не может быть значением в реальном времени, поэтому среднеквадратичную ошибку нельзя использовать для ее оценки.
7) Одним из очень хороших методов анализа эффективности логистической регрессии является AIC, который похож на R-Squared в линейной регрессии. Что из следующего относится к AIC?
A) Мы предпочитаем модель с минимальным значением AIC
B) Мы предпочитаем модель с максимальным значением AIC
C) Оба варианта, но зависят от ситуации
D) Ни один из них
Решение: A
Мы выбираем лучшую модель в логистической регрессии, которая может меньше всего AIC. Для получения дополнительной информации см. Этот источник: http://www4.ncsu.edu/~shu3/Presentation/AIC.pdf
8) [Верно-Неверно] Перед обучением логистической регрессии требуется стандартизация функций.
А) ИСТИНА
Б) ЛОЖЬ
Решение: B
Стандартизация не требуется для логистической регрессии. Основная цель стандартизации функций - помочь сближению методов, используемых для оптимизации.
9) Какой из следующих алгоритмов мы используем для выбора переменной?
A) LASSO
B) Ridge
C) Оба
D) Ни один из этих
Решение: A
В случае лассо мы применяем абсолютное наказание, после увеличения наказания в лассо некоторые коэффициенты переменных могут стать равными нулю.
Контекст: 10-11
Рассмотрим следующую модель логистической регрессии: P (y = 1 | x, w) = g (w0 + w1x),
где g (z) - логистическая функция.
В приведенном выше уравнении P (y = 1 | x; w), рассматриваемая как функция от x, которую мы можем получить, изменив параметры w.
10) Каким будет диапазон p в таком случае?
A) (0, inf)
B) (-inf, 0)
C) (0, 1)
D) (-inf, inf)
Решение: C
Для значений x в диапазоне действительных чисел от −∞ до + ∞ Логистическая функция даст результат между (0,1)
11) В вопросе выше, как вы думаете, какая функция сделает p между (0,1)?
A) логистическая функция
B) логарифмическая функция правдоподобия
C) Смесь того и другого
D) Ни одного из них
Решение: A
Объяснение такое же, как вопрос № 10.
Контекст: 12-13
Предположим, вы обучаете классификатор логистической регрессии и ваша функция гипотезы H имеет вид
12) Какой из следующих рисунков будет представлять границу принятия решения в соответствии с приведенным выше классификатором?
А)
Б)
C)
D)
Решение: B
Вариант Б был бы правильным ответом. Об этом говорит сайт https://intellect.icu . Поскольку наша линия будет представлена как y = g (-6 + x2), что показано в варианте A и варианте B. Но вариант B - правильный ответ, потому что, когда вы помещаете значение x2 = 6 в уравнение, тогда y = g (0) вы получите это означает, что y = 0,5 будет на линии, если вы увеличите значение x2 больше, чем 6, вы получите отрицательные значения, поэтому на выходе будет область y = 0.
13) Если вы замените коэффициент при x1 на x2, какой будет результат?
А)
Б)
C)
D)
Решение: D
То же объяснение, что и в предыдущем вопросе.
14) Предположим, вам дали хорошую монету, и вы хотите узнать шансы получить решку. Какой из следующих вариантов верен для такого случая?
A) коэффициент равен 0
B) коэффициент равен 0,5
C) коэффициент равен 1
D) Ни одно из этих значений
Решение: C
Шансы определяются как отношение вероятности успеха и вероятности неудачи. Таким образом, в случае честной монеты вероятность успеха составляет 1/2, а вероятность неудачи - 1/2, поэтому нечетность будет равна 1.
15) Логит-функция (заданная как l (x)) - это функция логарифма шансов. Каким может быть диапазон логит-функции в области x = [0,1]?
A) (- ∞, ∞)
B) (0,1)
C) (0, ∞)
D) (- ∞, 0)
Решение: A
Для наших целей функция шансов имеет то преимущество, что преобразует функцию вероятности, которая имеет значения от 0 до 1, в эквивалентную функцию со значениями от 0 до ∞. Когда мы берем натуральный логарифм функции шансов, мы получаем диапазон значений от -∞ до ∞ .
16) Какой из следующих вариантов верен?
A) Значения ошибок линейной регрессии должны быть нормально распределены, но в случае логистической регрессии это не так.
B) Значения ошибок логистической регрессии должны быть нормально распределены, но в случае линейной регрессии это не так.
C) Как линейная регрессия, так и Значения ошибок логистической регрессии должны иметь нормальное распределение.
D) Значения ошибок линейной регрессии и логистической регрессии не должны иметь нормального распределения.
Решение: A
Только А верно. Обратитесь к этому руководству https://czep.net/stat/mlelr.pdf
17) Что из следующего верно относительно логистической функции для любого значения «x»?
Примечание.
Логистика (x): логистическая функция любого числа «x».
Logit (x): логит-функция любого числа «x».
Logit_inv (x): обратная логит-функция любого числа «x»
A) Логистика (x) = Logit (x)
B) Логистика (x) = Logit_inv (x)
C) Logit_inv (x) = Logit (x)
D) Ни один из этих
Решение: B
Обратитесь к этой ссылке для решения: https://en.wikipedia.org/wiki/Logit
18) Как изменится предвзятость при использовании высокой (бесконечной) регуляризации?
Предположим, вы дали два графика разброса «a» и «b» для двух классов (синий для положительного и красный для отрицательного класса). На точечной диаграмме «а» вы правильно классифицировали все точки данных с помощью логистической регрессии (черная линия - это граница решения).
A) смещение будет высоким
B) смещение будет низким
C) не могу сказать
D) ничего из этого
Решение: A
Модель станет очень простой, поэтому предвзятость будет очень высокой.
19) Предположим, вы применили модель логистической регрессии к данным и получили точность обучения X и точность тестирования Y. Теперь вы хотите добавить несколько новых функций к тем же данным. Выберите вариант (ы), который является правильным в таком случае.
Примечание. Считайте, что остальные параметры такие же.
A) Точность обучения увеличивается
B) Точность обучения увеличивается или остается прежней
C) Точность тестирования снижается
D) Точность тестирования увеличивается или остается прежней
Решение: A и D
Добавление дополнительных функций в модель повысит точность обучения, поскольку модель должна учитывать больше данных, чтобы соответствовать логистической регрессии. Но точность тестирования повышается, если функция оказывается значительной.
20) Выберите, какой из следующих вариантов верен в отношении метода «один против всех» в логистической регрессии.
A) Нам нужно подогнать n моделей в задачу классификации n классов
B) Нам нужно подогнать n-1 моделей для классификации в n классов
C) Нам нужно подогнать только 1 модель для классификации в n классов
D) Ни одна из этих
Решение: A
Если существует n классов, то должно соответствовать n отдельной логистической регрессии, где вероятность каждой категории прогнозируется по остальным категориям вместе взятым.
21) Ниже представлены две разные логистические модели с разными значениями β0 и β1.
Какое из следующих утверждений относительно значений β0 и β1 двух логистических моделей (зеленый, черный) верно?
Примечание: рассмотрим Y = β0 + β1 * X. Здесь β0 - точка пересечения, а β1 - коэффициент.
A) β1 для зеленого больше, чем для черного
B) β1 для зеленого ниже, чем для черного
C) β1 для обеих моделей одинаковое
D) не могу сказать
Решение: B
β0 и β1: β0 = 0, β1 = 1 - цвет X1 (черный) и β0 = 0, β1 = −1 - цвет X4 (зеленый)
Контекст 22-24
Ниже представлены три диаграммы разброса (A, B, C слева направо) и нарисованные вручную границы решения для логистической регрессии.
22) Какой из следующих рисунков показывает, что граница принятия решения превышает обучающие данные?
A) A
B) B
C) C
D) Ни один из этих
Решение: C
Поскольку на рисунке 3 граница решения не является гладкой, это означает, что данные будут чрезмерно соответствовать.
23) К чему вы пришли, увидев эту визуализацию?
A) 1 и 3
B) 1 и 3
C) 1, 3 и 4
D) 5
Решение: C
Тенденция на графиках выглядит как квадратичная тенденция по независимой переменной X. Полином с более высокой степенью (правый график) может иметь очень высокую точность для популяции поездов, но, как ожидается, будет плохо работать на тестовом наборе данных. Но если вы видите на левом графике, у нас будет максимум ошибки обучения, потому что он не соответствует данным обучения.
24) Предположим, что указанные выше границы решения были сгенерированы для различного значения регуляризации. Какая из указанных выше границ решения показывает максимальную регуляризацию?
A) A
B) B
C) C
D) Все имеют одинаковую регуляризацию
Решение: A
Поскольку большая регуляризация означает большее наказание, означает менее сложную границу принятия решения, которая показана на первом рисунке А.
25) На рисунке ниже показаны кривые AUC-ROC для трех моделей логистической регрессии. Разными цветами показаны кривые для разных значений гиперпараметров. Какой из следующих AUC-ROC даст лучший результат?
A) желтый
B) розовый
C) черный
D) все одинаковые
Решение: A
Лучшая классификация - это наибольшая площадь под кривой, поэтому желтая линия имеет наибольшую площадь под кривой.
26) Что бы вы сделали, если бы вы хотели обучить логистическую регрессию на одних и тех же данных, что займет меньше времени, а также даст сравнительно аналогичную точность (может быть другой)?
Предположим, вы используете модель логистической регрессии для огромного набора данных. Одна из проблем, с которой вы можете столкнуться при работе с такими огромными данными, заключается в том, что на обучение логистической регрессии потребуется очень много времени.
A) Уменьшите скорость обучения и уменьшите количество итераций
B) Уменьшите скорость обучения и увеличьте количество итераций
C) Увеличьте скорость обучения и увеличьте количество итераций
D) Увеличьте скорость обучения и уменьшите количество итераций
Решение: D
Если вы уменьшите количество итераций во время обучения, это займет меньше времени для угрюмости, но не даст такой же точности для получения аналогичной точности, но не точной, вам нужно увеличить скорость обучения.
27) Какое из следующих изображений показывает функцию стоимости для y = 1.
Ниже приводится функция потерь в логистической регрессии (функция потерь по оси Y и логарифмическая вероятность по оси X) для задачи классификации двух классов.
Примечание: Y - целевой класс
A) A
B) B
C) Оба
D) Ни один из этих
Решение: A
A - правильный ответ, поскольку функция потерь уменьшается с увеличением логарифмической вероятности
28) Предположим, что следующий график - это функция затрат для логистической регрессии.
Теперь, сколько локальных минимумов присутствует на графике?
А) 1
Б) 2
В) 3
Г) 4
Решение: C
На графике присутствуют три локальных минимума
29) Представьте, что вы предоставили график логистической регрессии ниже, который показывает отношения между функцией стоимости и количеством итераций для 3 различных значений скорости обучения (разные цвета показывают разные кривые при разных скоростях обучения).
Предположим, вы сохранили график для использования в будущем, но забыли сохранить значение различных скоростей обучения для этого графика. Теперь вы хотите выяснить взаимосвязь между значениями скорости наклона этой кривой. Что из следующего будет истинным соотношением?
Примечание:
А) l1> l2> l3
B) l1 = l2 = l3
C) l1 <l2 <l3
D) Ни один из этих
Решение: C
Если у вас низкая скорость обучения, значит, ваша функция стоимости будет уменьшаться медленно, но в случае высокой скорости обучения функция стоимости будет уменьшаться очень быстро.
30) Может ли классификатор логистической регрессии провести идеальную классификацию по приведенным ниже данным?
Примечание: вы можете использовать только переменные X1 и X2, где X1 и X2 могут принимать только два двоичных значения (0,1).
A) ИСТИНА
B) ЛОЖЬ
C) Не могу сказать
D) Ни одно из этих
Решение: B
Нет, логистическая регрессия формирует только линейную поверхность принятия решений, но примеры на рисунке линейно не разделимы.
https://www.cs.cmu.edu/~tom/10701_sp11/midterm_sol.pdf
Я изо всех сил старался сделать решения как можно более всеобъемлющими, но если у вас есть какие-либо вопросы / сомнения, оставьте свои комментарии ниже. Я хотел бы услышать ваши отзывы о тесте навыков. Чтобы узнать больше о таких проверках навыков, посетите наши текущие хакатоны .
Исследование, описанное в статье про логистическая регрессия, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое логистическая регрессия и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ
Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.
Комментарии
Оставить комментарий
Теория вероятностей. Математическая статистика и Стохастический анализ
Термины: Теория вероятностей. Математическая статистика и Стохастический анализ