Вам бонус- начислено 1 монета за дневную активность. Сейчас у вас 1 монета

вопросы для тестирования специалиста по данным по линейной регрессии

Лекция



Привет, Вы узнаете о том , что такое линейная регрессия, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое линейная регрессия , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .

Введение

линейная регрессия по-прежнему является наиболее широко используемым статистическим методом в индустрии науки о данных и в академических кругах для объяснения взаимосвязей между функциями.

Всего на этот тест по навыкам зарегистрировались 1355 человек. Он был специально разработан для вас, чтобы вы могли проверить свои знания о методах линейной регрессии. Если вы один из тех, кто пропустил этот тест, вот вопросы и решения. Вы пропустили тест в реальном времени, но можете прочитать эту статью, чтобы узнать, сколько из них могли ответить правильно.

Вот таблица лидеров участников, прошедших тест.

Общее распределение

Ниже представлено распределение баллов участников:

вопросы для тестирования специалиста по данным по линейной регрессии

Вы можете просмотреть результаты здесь . В тесте навыков приняли участие более 800 человек, и наивысший балл был получен - 28.

Полезные ресурсы

Вот несколько ресурсов, чтобы получить более глубокие знания по предмету.

  • 5 вопросов, которые могут научить вас множественной регрессии (с R и Python)

  • Углубляемся в регрессионный анализ с помощью предположений, графиков и решений

  • 7 типов техник регрессии, которые вам следует знать!

Вопросы и ответы для проверки навыков

1) Верно-неверно: линейная регрессия - это контролируемый алгоритм машинного обучения.

А) ИСТИНА
Б) ЛОЖЬ

Решение: (A)

Да, линейная регрессия - это алгоритм обучения с учителем, потому что он использует истинные метки для обучения. Алгоритм контролируемого обучения должен иметь входную переменную (x) и выходную переменную (Y) для каждого примера.

2) Верно-неверно: линейная регрессия в основном используется для регрессии.

А) ИСТИНА
Б) ЛОЖЬ

Решение: (A)

Линейная регрессия имеет зависимые переменные, которые имеют непрерывные значения.

3) Верно-Ложь: можно ли разработать алгоритм линейной регрессии с использованием нейронной сети?

А) ИСТИНА
Б) ЛОЖЬ

Решение: (A)

Правда. Нейронная сеть может использоваться как универсальный аппроксиматор, поэтому она определенно может реализовать алгоритм линейной регрессии.

4) Какой из следующих методов мы используем, чтобы найти наиболее подходящую линию для данных в линейной регрессии?

A) Метод наименьших квадратов
B) Максимальное правдоподобие
C) Логарифмические потери
D) И A, и B

Решение: (A)

В линейной регрессии мы стараемся свести к минимуму наименьшие квадратичные ошибки модели, чтобы определить линию наилучшего соответствия.

5) Какие из следующих метрик оценки можно использовать для оценки модели при моделировании непрерывной выходной переменной?

A) AUC-ROC
B) Погрешность
C) Логотериал
D) Среднеквадратическая ошибка

Решение: (D)

Поскольку линейная регрессия дает результат в виде непрерывных значений, поэтому в таком случае мы используем метрику среднеквадратичной ошибки для оценки производительности модели. Остальные варианты используются в случае возникновения проблемы с классификацией.

6) Верно-Ложь: Регуляризация лассо может использоваться для выбора переменной в линейной регрессии.

А) ИСТИНА
Б) ЛОЖЬ

Решение: (A)

Правда, в случае регрессии лассо мы применяем абсолютный штраф, который делает некоторые коэффициенты нулевыми.

7) Что из следующего верно в отношении остатков?

A)
Чем ниже, тем лучше B) Чем выше, тем лучше
C) A или B зависят от ситуации
D) Ничего из этого

Решение: (A)

Остатки относятся к значениям ошибок модели. Поэтому желательны более низкие остатки.

8) Предположим, что у нас есть N независимых переменных (X1, X2… Xn), а зависимая переменная - Y. Теперь представьте, что вы применяете линейную регрессию, подбирая линию наилучшего соответствия с использованием наименьших квадратов ошибки для этих данных.

Вы обнаружили, что коэффициент корреляции для одной из его переменных (скажем, X1) с Y равен -0,95.

Что из следующего верно для X1?

A) Связь между X1 и Y слабая
B) Связь между X1 и Y сильная
C) Связь между X1 и Y нейтральна
D) Корреляция не позволяет судить о взаимосвязи

Решение: (B)

Абсолютное значение коэффициента корреляции обозначает силу взаимосвязи. Поскольку абсолютная корреляция очень высока, это означает, что между X1 и Y существует сильная связь.

9) Если посмотреть на две вышеупомянутые характеристики, какой из следующих вариантов является правильным для корреляции Пирсона между V1 и V2?

Если вам даны две переменные V1 и V2, и они соответствуют двум нижеприведенным характеристикам.

1. Если V1 увеличивается, то V2 также увеличивается.

2. Если V1 уменьшается, то поведение V2 неизвестно.

A) Корреляция Пирсона будет близка к 1
B) Корреляция Пирсона будет близка к -1
C) Корреляция Пирсона будет близка к 0
D) Ни одно из этих значений

Решение: (D)

Мы не можем комментировать коэффициент корреляции, используя только утверждение 1. Нам необходимо рассмотреть оба этих утверждения. Рассмотрим V1 как x и V2 как | x |. В таком случае коэффициент корреляции не будет близок к 1.

10) Предположим, что корреляция Пирсона между V1 и V2 равна нулю. В таком случае можно ли сделать вывод, что V1 и V2 не имеют между собой никакой связи?

А) ИСТИНА
Б) ЛОЖЬ

Решение: (B)

Коэффициент корреляции Пирсона между двумя переменными может быть равен нулю, даже если они связаны между собой. Об этом говорит сайт https://intellect.icu . Если коэффициент корреляции равен нулю, это просто означает, что они не движутся вместе. Мы можем взять такие примеры, как y = | x | или y = x ^ 2.

11) Какое из следующих смещений мы используем при аппроксимации линии наименьших квадратов линейной регрессии? Предположим, что горизонтальная ось является независимой переменной, а вертикальная ось - зависимой переменной.

вопросы для тестирования специалиста по данным по линейной регрессии

A) Вертикальное смещение
B) Перпендикулярное смещение
C) Оба варианта, в зависимости от ситуации
D) Ничего из вышеперечисленного

Решение: (A)

Мы всегда рассматриваем остатки как вертикальные смещения. Мы вычисляем прямую разницу между фактическим значением и меткой Y. Перпендикулярное смещение полезно в случае PCA.

12) Верно-Неверно: переобучение более вероятно, когда у вас есть огромный объем данных для обучения?

А) ИСТИНА
Б) ЛОЖЬ

Решение: (B)

При небольшом наборе обучающих данных легче найти гипотезу, которая точно соответствует обучающим данным, т.е.

13) Мы также можем вычислить коэффициент линейной регрессии с помощью аналитического метода под названием «Нормальное уравнение». Что из следующего верно / верно относительно нормального уравнения?

  1. Нам не нужно выбирать скорость обучения
  2. Он становится медленным, когда количество функций очень велико
  3. Нет необходимости повторять

A) 1 и 2
B) 1 и 3
C) 2 и 3
D) 1,2 и 3

Решение: (D)

Вместо градиентного спуска для поиска коэффициентов также можно использовать нормальное уравнение. Обратитесь к этой статье, чтобы узнать больше о нормальном уравнении.

14) Какое из следующих утверждений относительно суммы невязок A и B верно?

На графиках ниже показаны две подогнанные линии регрессии (A и B) для случайно сгенерированных данных. Теперь я хочу найти сумму остатков в обоих случаях A и B.

Примечание:

  1. Масштаб одинаков на обоих графиках для обеих осей.
  2. Ось X является независимой переменной, а ось Y - зависимой переменной.

вопросы для тестирования специалиста по данным по линейной регрессии

A) A имеет более высокую сумму остатков, чем B
B) A имеет меньшую сумму остатков, чем B
C) Оба имеют одинаковую сумму остатков
D) Ни один из этих

Решение: (C)

Сумма остатков всегда будет равна нулю, поэтому оба имеют одинаковую сумму остатков.

Контекст вопроса 15-17:

Предположим, вы применили сложную регрессионную модель к набору данных. Теперь вы используете регрессию Риджа с наказанием x.

15) Выберите вариант, который наилучшим образом описывает предвзятость.
А) В случае очень большого x; смещение низкое
B) В случае очень большого x; смещение высокое
C
) Ничегоне могу сказать о смещенииD) Ни одно из этих

Решение: (B)

Если штраф очень велик, это означает, что модель менее сложна, поэтому смещение будет высоким.

16) Что произойдет, если вы наложите очень большой штраф?

A) Некоторые из коэффициентов станут абсолютным нулем
B) Некоторые коэффициенты будут приближаться к нулю, но не к абсолютному нулю
C) Оба A и B в зависимости от ситуации
D) Ни один из этих

Решение: (B)

В лассо некоторые значения коэффициентов становятся равными нулю, но в случае Риджа коэффициенты становятся близкими к нулю, но не равны нулю.

17) Что произойдет, если вы примените очень большой штраф в случае Лассо?
A) Некоторые коэффициенты станут равными нулю
B) Некоторые коэффициенты будут приближаться к нулю, но не абсолютному нулю
C) И A, и B в зависимости от ситуации
D) Ни один из этих

Решение: (A)

Как уже говорилось, лассо применяет абсолютный штраф, поэтому некоторые коэффициенты станут нулевыми.

18) Какое из следующих утверждений относительно выбросов в линейной регрессии верно?

A) Линейная регрессия чувствительна к выбросам
B) Линейная регрессия не чувствительна к выбросам
C) Не могу сказать
D) Ничего из этого

Решение: (A)

Наклон линии регрессии в большинстве случаев будет изменяться из-за выбросов. Итак, линейная регрессия чувствительна к выбросам.

19) Предположим, вы построили диаграмму рассеяния между остатками и предсказанными значениями в линейной регрессии и обнаружили, что между ними существует связь. Какой из следующих выводов вы сделаете по поводу этой ситуации?

A) Поскольку существует связь, означает, что наша модель не хороша
B) Поскольку существует связь, означает, что наша модель хороша
C) Не могу сказать
D) Ничего из этого

Решение: (A)

Не должно быть никакой связи между предсказанными значениями и остатками. Если между ними существует какая-либо связь, это означает, что модель не полностью уловила информацию в данных.

Контекст вопроса 20-22:

Предположим, у вас есть набор данных D1 и вы разрабатываете модель линейной регрессии с полиномом 3-й степени и обнаружили, что ошибка обучения и тестирования равна «0» или, другими словами, она идеально соответствует данным.

20) Что произойдет, если вы поместите полином 4-й степени в линейную регрессию?
A) Высокие шансы, что полином 4-й степени будет больше соответствовать данным
B) Высокие шансы, что полином 4-й степени не будет соответствовать данным
C) Не могу сказать
D) Ни один из этих

Решение: (A)

Поскольку более степень 4 будет более сложной (перекрыть данные), чем модель степени 3, она снова будет идеально соответствовать данным. В этом случае ошибка обучения будет равна нулю, но ошибка теста не может быть нулевой.

21) Что произойдет, если вы поместите полином 2-й степени в линейную регрессию?
A) Высокие шансы, что многочлен степени 2 будет больше соответствовать данным
B) Высокий шанс, что многочлен степени 2 не будет соответствовать данным
C) Не могу сказать
D) Ни один из этих

Решение: (B)

Если полином степени 3 идеально соответствует данным, весьма вероятно, что более простая модель (полином степени 2) может не соответствовать данным.

22) С точки зрения предвзятости и дисперсии. Что из следующего верно, когда вы подбираете полином степени 2?


A) смещение будет высоким, дисперсия будет высокой
B) смещение будет низким, дисперсия будет высокой
C) смещение будет высоким, дисперсия будет низкой
D) смещение будет низким, дисперсия будет низкой

Решение: (C)

Поскольку полином степени 2 будет менее сложным по сравнению с полиномом степени 3, смещение будет высоким, а дисперсия будет низкой.

Контекст вопроса 23:

Что из следующего верно в отношении приведенных ниже графиков (A, B, C слева направо) между функцией стоимости и количеством итераций?

вопросы для тестирования специалиста по данным по линейной регрессии

23) Предположим, что l1, l2 и l3 - три скорости обучения для A, B, C соответственно. Что из следующего верно относительно l1, l2 и l3?

А) l2 <l1 <l3

Б) l1> l2> l3
C) l1 = l2 = l3
D) Ни один из этих

Решение: (A)

В случае высокой скорости обучения шаг будет большим, целевая функция сначала будет быстро уменьшаться, но она не найдет глобальных минимумов, и целевая функция начнет увеличиваться после нескольких итераций.

В случае низкой скорости обучения шаг будет небольшим. Таким образом, целевая функция будет медленно уменьшаться

Контекст вопроса 24-25:

Нам был предоставлен набор данных с n записями, в которых входной атрибут - x, а выходной атрибут - y. Предположим, мы используем метод линейной регрессии для моделирования этих данных. Чтобы проверить наш линейный регрессор, мы случайным образом разбиваем данные на обучающий набор и тестовый набор.

24) Теперь постепенно увеличиваем размер обучающей выборки. Как вы ожидаете, что по мере увеличения размера обучающей выборки произойдет средняя ошибка обучения?

A) Увеличение
B) Уменьшение
C) Оставаться постоянным
D) Не могу сказать

Решение: (D)

Ошибка обучения может увеличиваться или уменьшаться в зависимости от значений, которые используются для соответствия модели. Если значения, используемые для обучения, постепенно будут содержать больше выбросов, ошибка может просто увеличиться.

25) Как вы ожидаете, что произойдет со смещением и дисперсией при увеличении размера обучающих данных?

A) Смещение увеличивается, а дисперсия увеличивается
B) Смещение уменьшается, а дисперсия увеличивается
C) Смещение уменьшается, а дисперсия уменьшается
D) смещение увеличивается, а дисперсия уменьшается
E) Не могу сказать ложь

Решение: (D)

По мере увеличения размера обучающих данных смещение будет увеличиваться, а дисперсия - уменьшаться.

Контекст вопроса 26:

Рассмотрим следующие данные, в которых даны один вход (X) и один выход (Y).

вопросы для тестирования специалиста по данным по линейной регрессии

26) Какой будет среднеквадратичная ошибка обучения для этих данных, если вы запустите модель линейной регрессии в форме (Y = A0 + A1X)?

A) Менее 0
B) Больше нуля
C) Равно 0
D) Ни одно из этих значений

Решение: (C)

Мы можем идеально подогнать линию к следующим данным, поэтому средняя ошибка будет равна нулю.

Контекст вопроса 27-28:

Предположим, вам дан следующий сценарий ошибки обучения и проверки линейной регрессии.

Сценарий Скорость обучения Количество итераций Ошибка обучения Ошибка проверки
1 0,1 1000 100 110
2 0,2 600 90 105
3 0,3 400 110 110
4 0,4 300 120 130
5 0,4 250 130 150

27) Какой из следующих сценариев даст вам правильный гиперпараметр?

А) 1
Б) 2
В) 3
Г) 4

Решение: (B)

Вариант B был бы лучшим вариантом, потому что он ведет к меньшему количеству обучения, а также к ошибке проверки.

28) Предположим, вы получили настроенные гиперпараметры из предыдущего вопроса. Теперь представьте, что вы хотите добавить переменную в пространство переменных, так что эта добавленная функция важна. Что из следующего вы бы заметили в таком случае?

A) Ошибка обучения уменьшится, а ошибка проверки увеличится

B) Ошибка обучения увеличится, а ошибка проверки увеличится
C) Ошибка обучения увеличится, а ошибка проверки будет уменьшаться
D) Ошибка обучения будет уменьшаться, а ошибка проверки будет уменьшаться
E) Ничего из вышеперечисленного

Решение: (D)

Если добавленная функция важна, ошибка обучения и проверки уменьшится.

Контекст вопроса 29-30:

Предположим, у вас возникла ситуация, когда вы обнаружите, что ваша модель линейной регрессии не соответствует данным.

29) В такой ситуации, какой из следующих вариантов вы бы рассмотрели?

  1. Я добавлю больше переменных
  2. Я начну вводить переменные полиномиальной степени
  3. Я удалю некоторые переменные

A) 1 и 2
B) 2 и 3
C) 1 и 3
D) 1, 2 и 3

Решение: (A)

В случае недостаточной подгонки вам необходимо создать больше переменных в пространстве переменных или вы можете добавить несколько переменных полиномиальной степени, чтобы сделать модель более сложной, чтобы можно было лучше согласовать данные.

30) Теперь ситуация такая же, как и в предыдущем вопросе (при подгонке). Какой из следующих алгоритмов регуляризации вы бы предпочли?

A) L1
B) L2
C) Любое
D) Ни одно из этих

Решение: (D)

Я не буду использовать какие-либо методы регуляризации, потому что регуляризация используется в случае переобучения.

Конечные заметки

Я изо всех сил старался сделать решения как можно более всеобъемлющими, но если у вас есть какие-либо вопросы / сомнения, оставьте свои комментарии ниже. Я хотел бы услышать ваши отзывы о тестировании навыков

Исследование, описанное в статье про линейная регрессия, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое линейная регрессия и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ

Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.

создано: 2020-09-15
обновлено: 2021-03-13
132265



Рейтиг 9 of 10. count vote: 2
Вы довольны ?:


Поделиться:

Найди готовое или заработай

С нашими удобными сервисами без комиссии*

Как это работает? | Узнать цену?

Найти исполнителя
$0 / весь год.
  • У вас есть задание, но нет времени его делать
  • Вы хотите найти профессионала для выплнения задания
  • Возможно примерение функции гаранта на сделку
  • Приорететная поддержка
  • идеально подходит для студентов, у которых нет времени для решения заданий
Готовое решение
$0 / весь год.
  • Вы можите продать(исполнителем) или купить(заказчиком) готовое решение
  • Вам предоставят готовое решение
  • Будет предоставлено в минимальные сроки т.к. задание уже готовое
  • Вы получите базовую гарантию 8 дней
  • Вы можете заработать на материалах
  • подходит как для студентов так и для преподавателей
Я исполнитель
$0 / весь год.
  • Вы профессионал своего дела
  • У вас есть опыт и желание зарабатывать
  • Вы хотите помочь в решении задач или написании работ
  • Возможно примерение функции гаранта на сделку
  • подходит для опытных студентов так и для преподавателей



Комментарии


Оставить комментарий
Если у вас есть какое-либо предложение, идея, благодарность или комментарий, не стесняйтесь писать. Мы очень ценим отзывы и рады услышать ваше мнение.
To reply

Теория вероятностей. Математическая статистика и Стохастический анализ

Термины: Теория вероятностей. Математическая статистика и Стохастический анализ