Вопросы для собеседования по Machine Learning / Data Science

Лекция

Привет, Вы узнаете о том , что такое вопросы для собеседования по machine learning / data science, Разберем основные их виды и особенности использования. Еще будет много подробных примеров и описаний. Для того чтобы лучше понимать что такое вопросы для собеседования по machine learning / data science , настоятельно рекомендую прочитать все из категории Теория вероятностей. Математическая статистика и Стохастический анализ .

Обзор

Содержит список часто задаваемых вопросов для собеседований на основе машинного обучения и анализа данных.
Основное внимание уделяется изучению тем машинного обучения с помощью этих вопросов.
Взломайте профили специалистов по данным с помощью этих вопросов

Введение

Осторожный! Эти вопросы могут заставить вас задуматься ТРИЧАЙ!

Машинное обучение и наука о данных рассматриваются как движущие силы следующей промышленной революции, происходящей сегодня в мире. Это также означает, что существует множество интересных стартапов, которые ищут специалистов по данным. Что может быть лучшим началом вашей стремительной карьеры!

Однако попасть на эти роли все же непросто. Очевидно, вам нужно восхищаться идеей, командой и видением компании. По пути вы также можете встретить несколько действительно сложных технических вопросов. Набор задаваемых вопросов зависит от того, чем занимается стартап. Предоставляют ли они консультации? Они создают продукты машинного обучения? Вы всегда должны выяснить это до начала подготовки к собеседованию.

Чтобы помочь вам подготовиться к следующему собеседованию, я подготовил список из 40 правдоподобных и сложных вопросов, которые могут возникнуть у вас на собеседовании. Если вы ответите на этот вопрос и поймете его, будьте уверены, что на собеседовании вам придется нелегко.

Примечание. Чтобы ответить на эти вопросы, необходимо иметь конкретное практическое понимание машинного обучения и связанных с ним статистических концепций. Вы можете получить это ноу-хау в нашем курсе « Введение в науку о данных »!

Или как насчет того, чтобы научиться взламывать собеседования по науке о данных у человека, который провел их сотни? Ознакомьтесь с курсом « Интервью Ace Data Science », который проводят Кунал Джайн и Пранав Дар.

Вопросы для собеседования по машинному обучению

Q1. Вам предоставляется набор данных поезда, состоящий из 1000 столбцов и 1 миллиона строк. Набор данных основан на задаче классификации. Ваш менеджер попросил вас уменьшить размер этих данных, чтобы можно было сократить время вычисления модели. У вашей машины нехватка памяти. Что бы вы сделали? (Вы можете делать практические предположения.)

Ответ: Обработка данных большого размера на машине с ограниченным объемом памяти - трудоемкая задача, ваш интервьюер будет в полной мере осознавать это. Ниже приведены методы, которые вы можете использовать для решения такой ситуации:

Поскольку у нас меньше оперативной памяти, мы должны закрыть все другие приложения на нашем компьютере, включая веб-браузер, чтобы можно было использовать большую часть памяти.
Мы можем случайным образом выбрать набор данных. Это означает, что мы можем создать меньший набор данных, скажем, имеющий 1000 переменных и 300000 строк, и провести вычисления.
Чтобы уменьшить размерность, мы можем разделить числовые и категориальные переменные и удалить коррелированные переменные. Для числовых переменных мы будем использовать корреляцию. Для категориальных переменных мы будем использовать критерий хи-квадрат.
Кроме того, мы можем использовать PCA и выбрать компоненты, которые могут объяснить максимальную дисперсию в наборе данных.
Возможным вариантом является использование алгоритмов онлайн-обучения, таких как Vowpal Wabbit (доступный на Python).
Также полезно построение линейной модели с использованием стохастического градиентного спуска.
Мы также можем применить наше понимание бизнеса, чтобы оценить, какие все предикторы могут повлиять на переменную отклика. Но это интуитивно понятный подход, неспособность определить полезные предикторы может привести к значительной потере информации.

Примечание. Что касается пунктов 4 и 5, обязательно прочтите об алгоритмах онлайн-обучения и стохастическом градиентном спуске . Это продвинутые методы.

Q2. Необходима ли ротация в PCA? Если да, то почему? Что будет, если не повернуть компоненты?

Ответ: Да, вращение (ортогональное) необходимо, потому что оно максимизирует разницу между дисперсией, зафиксированной компонентом. Это упрощает интерпретацию компонентов. Не забывайте, что это мотив проведения PCA, где мы стремимся выбрать меньше компонентов (чем функций), которые могут объяснить максимальную дисперсию в наборе данных. При вращении относительное расположение компонентов не меняется, а изменяются только фактические координаты точек.

Если мы не будем вращать компоненты, эффект PCA уменьшится, и нам придется выбрать большее количество компонентов, чтобы объяснить различия в наборе данных.

Узнать больше: PCA

Q3. Вам дается набор данных. В наборе данных отсутствуют значения, которые разбросаны на 1 стандартное отклонение от медианы. Какой процент данных останется без изменений? Зачем?

Ответ: В этом вопросе достаточно подсказок, чтобы вы начали думать! Поскольку данные распределены по медиане, предположим, что это нормальное распределение. Мы знаем, что при нормальном распределении ~ 68% данных находится в пределах 1 стандартного отклонения от среднего (или модового, медианного), что оставляет неизменными ~ 32% данных. Следовательно, пропущенные значения не повлияют на ~ 32% данных.

Q4. Вам предоставляется набор данных по выявлению рака. Вы построили модель классификации и достигли точности 96%. Почему бы вам не радоваться производительности вашей модели? Что вы можете сделать по этому поводу?

Ответ: Если вы работали с достаточным количеством наборов данных, вы должны сделать вывод, что обнаружение рака приводит к несбалансированности данных. В несбалансированном наборе данных точность не должна использоваться в качестве меры производительности, потому что 96% (как указано) могут правильно предсказывать только класс большинства, но наш интересующий класс - это класс меньшинства (4%), то есть люди, которые действительно получили диагностирован рак. Следовательно, чтобы оценить производительность модели, мы должны использовать Чувствительность (Истинная положительная скорость), Специфичность (Истинная отрицательная скорость), мера F для определения производительности классификатора на уровне класса. Если производительность класса меньшинства окажется низкой, мы можем предпринять следующие шаги:

Мы можем использовать недостаточную выборку, передискретизацию или SMOTE, чтобы сбалансировать данные.
Мы можем изменить пороговое значение прогноза, выполнив калибровку вероятности и найдя оптимальный порог с помощью кривой AUC-ROC.
Мы можем назначить вес классам, чтобы классы меньшинства получали больший вес.
Мы также можем использовать обнаружение аномалий.

Узнать больше: несбалансированная классификация

Q5 . Почему наивный Байес такой «наивный»?

Ответ: наивный метод Байеса настолько «наивен», потому что предполагает, что все функции в наборе данных одинаково важны и независимы. Как мы знаем, эти предположения редко бывают верными в реальных сценариях.

Q6. Объясните априорную вероятность, вероятность и предельную вероятность в контексте наивного алгоритма Байеса?

Ответ: Априорная вероятность - это не что иное, как доля зависимой (двоичной) переменной в наборе данных. Это самое близкое предположение о классе, которое вы можете сделать без какой-либо дополнительной информации. Например: в наборе данных зависимая переменная является двоичной (1 и 0). Доля 1 (спам) составляет 70%, а 0 (не спам) - 30%. Следовательно, мы можем оценить вероятность того, что любое новое электронное письмо будет классифицировано как спам, составляет 70%.

Вероятность - это вероятность классификации данного наблюдения как 1 при наличии какой-либо другой переменной. Например: вероятность того, что слово «БЕСПЛАТНО» используется в предыдущем спам-сообщении, является вероятностью. Предельная вероятность - это вероятность того, что слово «БЕСПЛАТНО» используется в любом сообщении.

Q7. Вы работаете с набором данных временного ряда. Ваш менеджер попросил вас построить модель высокой точности. Вы начинаете с алгоритма дерева решений, поскольку знаете, что он достаточно хорошо работает со всеми типами данных. Позже вы попробовали модель регрессии временных рядов и получили более высокую точность, чем модель дерева решений. Это может случиться? Зачем?

Ответ: Известно, что данные временных рядов обладают линейностью. С другой стороны, известно, что алгоритм дерева решений лучше всего работает для обнаружения нелинейных взаимодействий. Причина, по которой дерево решений не может обеспечить надежные прогнозы, потому что оно не может отображать линейную зависимость так же хорошо, как регрессионная модель. Таким образом, мы узнали, что модель линейной регрессии может обеспечить надежный прогноз, если набор данных удовлетворяет его предположениям о линейности .

Q8. Вам поручают новый проект, который предполагает помощь компании, занимающейся доставкой еды, в экономии денег. Проблема в том, что служба доставки компании не может доставить еду вовремя. В результате их клиенты недовольны. И, чтобы сделать их счастливыми, они в конечном итоге доставляют еду бесплатно. Какой алгоритм машинного обучения может их спасти?

Ответ: Возможно, вы уже начали в уме пролистывать список алгоритмов машинного обучения. Но ждать! Такие вопросы задают для проверки ваших основ машинного обучения.

Это не проблема машинного обучения. Это проблема оптимизации маршрута. Задача машинного обучения состоит из трех вещей:

Есть шаблон.
Вы не можете решить это математически (даже написав экспоненциальные уравнения).
У вас есть данные об этом.

Всегда обращайте внимание на эти три фактора, чтобы решить, является ли машинное обучение инструментом для решения конкретной проблемы.

Q9. Вы узнали, что ваша модель страдает низким уровнем смещения и высокой дисперсией. Какой алгоритм вы должны использовать для решения этой проблемы? Зачем?

Ответ: Низкая систематическая ошибка возникает, когда прогнозируемые значения модели близки к фактическим. Другими словами, модель становится достаточно гибкой, чтобы имитировать распределение обучающих данных. Хотя это звучит как большое достижение, но не стоит забывать, что гибкая модель не имеет возможностей обобщения. Значит, когда эта модель тестируется на невидимых данных, она дает неутешительные результаты.

В таких ситуациях мы можем использовать алгоритм мешков (например, случайный лес) для решения проблемы с высокой дисперсией. Алгоритмы пакетирования делят набор данных на подмножества, созданные с помощью повторной рандомизированной выборки. Затем эти образцы используются для создания набора моделей с использованием единого алгоритма обучения. Позже прогнозы модели объединяются с использованием голосования (классификации) или усреднения (регрессии).

Кроме того, для борьбы с высокой дисперсией мы можем:

Используйте метод регуляризации, при котором более высокие коэффициенты модели штрафуются, что снижает сложность модели.
Используйте первые n функций из таблицы важности переменных. Об этом говорит сайт https://intellect.icu . Возможно, со всеми переменными в наборе данных алгоритм испытывает трудности с поиском значимого сигнала.

Q10. Вам дается набор данных. Набор данных содержит множество переменных, некоторые из которых сильно коррелированы, и вы об этом знаете. Ваш менеджер попросил вас запустить PCA. Не могли бы вы сначала удалить коррелированные переменные? Зачем?

Ответ: Скорее всего, у вас может возникнуть соблазн сказать «нет», но это будет неправильно. Отказ от коррелированных переменных оказывает существенное влияние на PCA, поскольку при наличии коррелированных переменных дисперсия, объясняемая конкретным компонентом, увеличивается.

Например: у вас есть 3 переменных в наборе данных, 2 из которых коррелированы. Если вы запустите PCA для этого набора данных, первый главный компонент будет показывать вдвое большую дисперсию, чем при некоррелированных переменных. Кроме того, добавление коррелированных переменных позволяет PCA уделять больше внимания этой переменной, что вводит в заблуждение.

Q11. Потратив несколько часов, вы захотите построить модель высокой точности. В результате вы строите 5 моделей GBM, думая, что алгоритм повышения сделает чудо. К сожалению, ни одна из моделей не смогла работать лучше, чем тестовый результат. Наконец, вы решили объединить эти модели. Хотя известно, что ансамблевые модели обладают высокой точностью, но вам не повезло. Где ты пропустил?

Ответ: Как известно, ансамблевые учащиеся основаны на идее объединения слабых учащихся для создания сильных учащихся. Но эти ученики обеспечивают превосходный результат, когда комбинированные модели не коррелируют. Поскольку мы использовали 5 моделей GBM и не получили улучшения точности, это говорит о том, что модели коррелированы. Проблема коррелированных моделей в том, что все модели предоставляют одинаковую информацию.

Например: если модель 1 классифицировала User1122 как 1, высока вероятность того, что модель 2 и модель 3 сделали бы то же самое, даже если ее фактическое значение равно 0. Таким образом, ансамбль учащихся строится на предпосылке объединения слабых некоррелированных моделей для получить лучшие прогнозы.

Q12. Чем kNN отличается от кластеризации kmeans?

Ответ: Не вводите в заблуждение букву «k» в их именах. Вы должны знать, что фундаментальное различие между обоими этими алгоритмами заключается в том, что kmeans по своей природе не контролируется, а kNN - по своей природе. kmeans - это алгоритм кластеризации. kNN - это алгоритм классификации (или регрессии).

Алгоритм kmeans разбивает набор данных на кластеры таким образом, чтобы сформированный кластер был однородным, а точки в каждом кластере были близки друг к другу. Алгоритм пытается поддерживать достаточную разделимость между этими кластерами. Из-за неконтролируемого характера у кластеров нет меток.

Алгоритм kNN пытается классифицировать неотмеченное наблюдение на основе его k (может быть любым числом) окружающих его соседей. Его также называют ленивым учеником, потому что он требует минимального обучения модели. Следовательно, он не использует обучающие данные для обобщения невидимого набора данных.

Q13. Как связаны истинно положительный рейтинг и отзыв? Напишите уравнение.

Ответ: Истинно положительный рейтинг = отзыв. Да, они равны по формуле (TP / TP + FN).

Узнать больше: показатели оценки

В14. Вы построили модель множественной регрессии. Ваша модель R² не так хороша, как вы хотели. Для улучшения удалите член перехвата, ваша модель R² станет 0,8 с 0,3. Является ли это возможным? Как?

Ответ: Да, это возможно. Нам необходимо понять значение перехватывающего члена в регрессионной модели. Член перехвата показывает прогноз модели без какой-либо независимой переменной, т.е. прогноз среднего. Формула R² = 1 - (y - y´) ² / ∑ (y - ymean) ², где y´ - это прогнозируемое значение.

Когда присутствует член перехвата, значение R² оценивает вашу модель относительно. к средней модели. В отсутствие члена перехвата ( ymean) модель не может произвести такую оценку, при большом знаменателе ∑(y - y´)²/∑(y)² значение уравнения становится меньше фактического, что приводит к увеличению R².

Q15. Проанализировав модель, ваш менеджер сообщил, что ваша регрессионная модель страдает мультиколлинеарностью. Как бы вы проверить, правда ли он? Можете ли вы построить лучшую модель, не теряя никакой информации?

Ответ: Чтобы проверить мультиколлинеарность, мы можем создать матрицу корреляции для выявления и удаления переменных, имеющих корреляцию выше 75% (определение порога является субъективным). Кроме того, мы можем использовать вычисление VIF (коэффициент увеличения дисперсии) для проверки наличия мультиколлинеарности. Значение VIF <= 4 предполагает отсутствие мультиколлинеарности, тогда как значение> = 10 предполагает серьезную мультиколлинеарность. Также мы можем использовать толерантность как индикатор мультиколлинеарности.

Но удаление коррелированных переменных может привести к потере информации. Чтобы сохранить эти переменные, мы можем использовать модели регрессии со штрафными санкциями, такие как регрессия гребня или лассо. Кроме того, мы можем добавить некоторый случайный шум в коррелированную переменную, чтобы переменные стали отличаться друг от друга. Но добавление шума может повлиять на точность прогноза, поэтому этот подход следует использовать осторожно.

Узнать больше: регрессия

Q16. Когда регрессия хребта предпочтительнее регрессии Лассо?

Ответ: Вы можете процитировать авторов ISLR Хасти, Тибширани, которые утверждали, что при наличии нескольких переменных со средним / большим эффектом использовать регрессию лассо. При наличии множества переменных с небольшим / средним эффектом используйте гребневую регрессию.

Концептуально можно сказать, что регрессия лассо (L1) выполняет как выбор переменных, так и сжатие параметров, тогда как регрессия Риджа выполняет только сжатие параметров и в конечном итоге включает все коэффициенты в модели. При наличии коррелированных переменных предпочтительным выбором может быть гребневая регрессия. Кроме того, гребенчатая регрессия лучше всего работает в ситуациях, когда оценки наименьших квадратов имеют более высокую дисперсию. Следовательно, это зависит от цели нашей модели.

Узнать больше: регрессия гребня и лассо

В17. Повышение средней глобальной температуры привело к уменьшению количества пиратов по всему миру. Означает ли это, что уменьшение количества пиратов вызвало изменение климата?

Ответ: Прочитав этот вопрос, вы должны были понять, что это классический случай «причинности и корреляции». Нет, мы не можем сделать вывод, что уменьшение количества пиратов вызвало изменение климата, потому что на это явление могут влиять другие факторы (скрытые или мешающие переменные).

Следовательно, может существовать корреляция между глобальной средней температурой и количеством пиратов, но, основываясь на этой информации, мы не можем сказать, что пираты погибли из-за повышения средней глобальной температуры.

Узнать больше: причинно-следственная связь и корреляция

В18. Как вы выбираете важные переменные при работе с набором данных? Объясните свои методы.

Ответ: Ниже приведены методы выбора переменных, которые вы можете использовать:

Удалите коррелированные переменные перед выбором важных переменных
Используйте линейную регрессию и выбирайте переменные на основе значений p
Использовать прямое выделение, обратное выделение, пошаговое выделение
Используйте Random Forest, Xgboost и график важности переменных
Использовать регрессию лассо
Измерьте объем информации для доступного набора функций и выберите соответственно n первых функций.

В19. В чем разница между ковариацией и корреляцией?

Ответ: Корреляция - это стандартизированная форма ковариации.

Ковариации сложно сравнивать. Например: если мы вычислим ковариации заработной платы ($) и возраста (лет), мы получим разные ковариации, которые нельзя сравнивать из-за неравных шкал. Чтобы справиться с такой ситуацией, мы вычисляем корреляцию, чтобы получить значение от -1 до 1, независимо от их соответствующей шкалы.

Q20. Можно ли зафиксировать корреляцию между непрерывной и категориальной переменной? Если да, то как?

Ответ: Да, мы можем использовать метод ANCOVA (ковариационный анализ) для выявления связи между непрерывными и категориальными переменными.

В21. Оба алгоритма основаны на дереве, чем случайный лес отличается от алгоритма повышения градиента (GBM)?

Ответ: Принципиальная разница в том, что случайный лес использует технику мешков для прогнозов. GBM использует методы повышения, чтобы делать прогнозы.

В методе упаковки набор данных делится на n выборок с использованием рандомизированной выборки. Затем с использованием единого алгоритма обучения модель строится на всех образцах. Позже полученные прогнозы объединяются с помощью голосования или усреднения. Расфасовка производится параллельно. При повышении после первого раунда прогнозов алгоритм оценивает неверно классифицированные прогнозы выше, чтобы их можно было исправить в следующем раунде. Этот последовательный процесс присвоения более высоких весов ошибочно классифицированным прогнозам продолжается до тех пор, пока не будет достигнут критерий остановки.

Случайный лес повышает точность модели за счет уменьшения дисперсии (в основном). Выращенные деревья не коррелированы для максимального уменьшения дисперсии. С другой стороны, GBM повышает точность, уменьшая как смещение, так и дисперсию модели.

Узнать больше: моделирование на основе дерева

В22. Запуск алгоритма дерева двоичной классификации - самая простая часть. Знаете ли вы, как происходит расщепление дерева, т.е. как дерево решает, какую переменную разделить на корневой узел и последующие узлы?

Ответ: Дерево классификации принимает решение на основе индекса Джини и энтропии узла. Проще говоря, древовидный алгоритм находит наилучшую возможную функцию, которая может разделить набор данных на максимально чистые дочерние узлы.

Индекс Джини говорит, что если мы выбираем два элемента из генеральной совокупности случайным образом, тогда они должны быть одного класса, и вероятность этого равна 1, если совокупность чистая. Мы можем рассчитать Джини следующим образом:

Вычислите Джини для подузлов, используя формулу суммы квадрата вероятности успеха и неудачи (p ^ 2 + q ^ 2).
Рассчитайте Джини для разделения, используя взвешенный показатель Джини для каждого узла этого разделения.

Энтропия - это мера примеси, заданная (для двоичного класса):

Вопросы для собеседования по Machine Learning Data Science

Здесь p и q - вероятность успеха и неудачи соответственно в этом узле. Энтропия равна нулю, когда узел однороден. Максимально, когда оба класса присутствуют в узле 50% - 50%. Желательна меньшая энтропия.

В23. Вы построили случайную модель леса из 10000 деревьев. Вы обрадовались, получив ошибку обучения как 0.00. Но ошибка валидации - 34,23. Что происходит? Разве вы не обучили свою модель идеально?

Ответ: Модель переобучена. Ошибка обучения 0.00 означает, что классификатор имитировал шаблоны обучающих данных до такой степени, что они недоступны в невидимых данных. Следовательно, когда этот классификатор был запущен на невидимой выборке, он не смог найти эти шаблоны и вернул прогноз с более высокой ошибкой. В случайном лесу это происходит, когда мы используем большее количество деревьев, чем необходимо. Следовательно, чтобы избежать этой ситуации, мы должны настроить количество деревьев с помощью перекрестной проверки.

В24. У вас есть набор данных для работы с p (количество переменных)> n (количество наблюдений). Почему OLS - плохой вариант для работы? Какие методы лучше всего использовать? Зачем?

Ответ: В таких многомерных наборах данных мы не можем использовать классические методы регрессии, поскольку их предположения имеют тенденцию ошибаться. Когда p> n, мы больше не можем вычислять уникальную оценку коэффициента наименьших квадратов, дисперсии становятся бесконечными, поэтому OLS вообще нельзя использовать.

Чтобы бороться с этой ситуацией, мы можем использовать методы регрессии со штрафными санкциями, такие как лассо, LARS, гребень, которые могут уменьшить коэффициенты для уменьшения дисперсии. Точнее, гребневая регрессия лучше всего работает в ситуациях, когда оценки наименьших квадратов имеют более высокую дисперсию.

Среди других методов - регрессия подмножества, пошаговая регрессия.

В25. Что такое выпуклая оболочка? (Подсказка: подумайте о SVM)

Ответ: В случае линейно разделяемых данных выпуклая оболочка представляет собой внешние границы двух групп точек данных. После создания выпуклой оболочки мы получаем гиперплоскость с максимальным запасом (MMH) как серединный перпендикуляр между двумя выпуклыми оболочками. MMH - это линия, которая пытается максимально разделить две группы. Вопросы для собеседования по Machine Learning Data Science

В26. Мы знаем, что одно горячее кодирование увеличивает размерность набора данных. Но кодировка меток - нет. Как ?

Ответ: Не расстраивайтесь по этому поводу. Это простой вопрос, в котором нужно выяснить разницу между ними.

Используя одно горячее кодирование, размерность (также известная как функции) в наборе данных увеличивается, поскольку он создает новую переменную для каждого уровня, присутствующего в категориальных переменных. Например: допустим, у нас есть переменная «цвет». Переменная имеет 3 уровня: красный, синий и зеленый. Одна переменная «цвет» горячего кодирования будет генерировать три новые переменные как Color.Red, Color.Blueи Color.Greenсодержащие значения 0 и 1.

При кодировании меток уровни категориальных переменных кодируются как 0 и 1, поэтому новая переменная не создается. Кодирование меток в основном используется для двоичных переменных.

В27. Какой метод перекрестной проверки вы бы использовали для набора данных временных рядов? Это k-кратный или LOOCV?

Ответ: Ни то, ни другое.

В проблеме временных рядов k-кратное увеличение может быть проблематичным, потому что в 4 или 5 году может быть какая-то закономерность, которой нет в году 3. Повторная выборка набора данных разделит эти тенденции, и мы можем закончить проверку на прошлых годах, что неверно . Вместо этого мы можем использовать стратегию прямой цепочки с 5-кратным увеличением, как показано ниже:

кратность 1: обучение [1], тест [2]
раз 2: обучение [1 2], тест [3]
кратная 3: обучение [1 2 3], тест [4]
раз 4: обучение [1 2 3 4], тест [5]
раз 5: обучение [1 2 3 4 5], тест [6]

где 1,2,3,4,5,6 представляет собой «год».

В28. Вам дан набор данных, состоящий из переменных, у которых более 30% пропущенных значений? Скажем, из 50 переменных 8 переменных имеют пропущенные значения более 30%. Как вы с ними справитесь?

Ответ: Мы можем справиться с ними следующими способами:

Назначьте уникальную категорию отсутствующим значениям, кто знает, что отсутствующие значения могут расшифровать некоторую тенденцию
Мы можем их явно удалить.
Или мы можем разумно проверить их распределение с помощью целевой переменной, и, если найдем какой-либо шаблон, мы сохраним эти отсутствующие значения и назначим им новую категорию, удалив другие.

29. Рекомендации «Люди, которые купили это, также купили…» на Amazon являются результатом какого алгоритма?

Ответ: Основная идея такого механизма рекомендаций исходит из совместной фильтрации.

Алгоритм совместной фильтрации учитывает «Поведение пользователя» для рекомендации элементов. Они используют поведение других пользователей и товаров с точки зрения истории транзакций, рейтингов, информации о выборе и покупках. Поведение и предпочтения других пользователей в отношении элементов используются для того, чтобы рекомендовать элементы новым пользователям. При этом характеристики предметов неизвестны.

Узнать больше: система рекомендаций

Q30. Что вы понимаете под ошибкой типа I или типа II?

Ответ: Ошибка типа I совершается, когда нулевая гипотеза верна, и мы ее отвергаем, также известная как «ложноположительная». Ошибка типа II совершается, когда нулевая гипотеза ложна и мы принимаем ее, также известную как «ложноотрицательная».

В контексте матрицы путаницы мы можем сказать, что ошибка типа I возникает, когда мы классифицируем значение как положительное (1), когда на самом деле оно отрицательное (0). Ошибка типа II возникает, когда мы классифицируем значение как отрицательное (0), хотя на самом деле оно положительное (1).

В31 . Вы работаете над проблемой классификации. В целях проверки вы произвольно выбрали обучающий набор данных для обучения и проверки. Вы уверены, что ваша модель будет невероятно хорошо работать с невидимыми данными, поскольку точность вашей проверки высока. Однако вы будете шокированы низкой точностью теста. Что пошло не так?

Ответ: В случае возникновения проблем с классификацией мы всегда должны использовать стратифицированную выборку вместо случайной выборки. Случайная выборка не учитывает долю целевых классов. Напротив, стратифицированная выборка также помогает поддерживать распределение целевой переменной в итоговых распределенных выборках.

В32. Вас попросили оценить регрессионную модель, основанную на R², скорректированном R² и допуске. Каковы будут ваши критерии?

Ответ: Допуск (1 / VIF) используется как индикатор мультиколлинеарности. Это индикатор процента дисперсии в предсказателе, который не может быть учтен другими предсказателями. Желательны большие значения толерантности.

Мы рассмотрим скорректированное R², а не R², чтобы оценить соответствие модели, поскольку R² увеличивается независимо от повышения точности прогноза по мере добавления дополнительных переменных. Но скорректированное R² будет увеличиваться только в том случае, если дополнительная переменная повышает точность модели, в противном случае остается неизменной. Трудно зафиксировать общее пороговое значение для скорректированного R², потому что оно варьируется в зависимости от набора данных. Например: набор данных о мутации гена может привести к более низкому скорректированному R² и по-прежнему обеспечивать довольно хорошие прогнозы по сравнению с данными фондового рынка, где более низкое скорректированное R² означает, что модель не является хорошей.

В33. В k-средних или kNN мы используем евклидово расстояние для вычисления расстояния между ближайшими соседями. Почему не манхэттенское расстояние?

Ответ: Мы не используем манхэттенское расстояние, потому что оно рассчитывает расстояние только по горизонтали или вертикали. Имеет ограничения по размерам. С другой стороны, евклидова метрика может использоваться в любом пространстве для вычисления расстояния. Поскольку точки данных могут присутствовать в любом измерении, евклидово расстояние является более жизнеспособным вариантом.

Пример: представьте себе шахматную доску, движение слона или ладьи рассчитывается по манхэттенскому расстоянию из-за их соответствующих вертикальных и горизонтальных перемещений.

В34. Объясните мне машинное обучение, как пятилетнему ребенку.

Ответ: Все просто. Это похоже на то, как младенцы учатся ходить. Каждый раз, когда они падают, они учатся (неосознанно) и понимают, что их ноги должны быть прямыми, а не согнутыми. В следующий раз, когда они упадут, они почувствуют боль. Они плачут. Но они учатся «не стоять так снова». Чтобы избежать этой боли, они стараются изо всех сил. Чтобы добиться успеха, они даже ищут поддержки у двери, стены или чего-либо поблизости, что помогает им стоять твердо.

Так работает машина и развивает интуицию из окружающей среды.

Примечание: собеседование только пытается проверить, способны ли вы объяснить сложные концепции простыми словами.

В35. Я знаю, что модель линейной регрессии обычно оценивается с использованием скорректированного значения R² или F. Как бы вы оценили модель логистической регрессии?

Ответ: Мы можем использовать следующие методы:

Поскольку для прогнозирования вероятностей используется логистическая регрессия, мы можем использовать кривую AUC-ROC вместе с матрицей ошибок для определения ее производительности.
Кроме того, аналогичным показателем скорректированного R² в логистической регрессии является AIC. AIC - это мера соответствия, которая штрафует модель за количество коэффициентов модели. Поэтому мы всегда отдаем предпочтение модели с минимальным значением AIC.
Нулевое отклонение указывает на отклик, предсказанный моделью только с перехватом. Чем меньше значение, тем лучше модель. Остаточное отклонение указывает на реакцию, предсказанную моделью при добавлении независимых переменных. Чем меньше значение, тем лучше модель.

Узнать больше: логистическая регрессия

В36. Учитывая длинный список алгоритмов машинного обучения с учетом набора данных, как вы решите, какой из них использовать?

Ответ: Вы должны сказать, что выбор алгоритма машинного обучения зависит исключительно от типа данных. Если вам дан набор данных, который демонстрирует линейность, тогда линейная регрессия будет лучшим алгоритмом для использования. Если вам поручено работать с изображениями, аудио, то нейронная сеть поможет вам построить надежную модель.

Если данные состоят из нелинейных взаимодействий, тогда следует выбрать алгоритм повышения или упаковки. Если бизнес-требование заключается в создании модели, которую можно развернуть, мы будем использовать регрессию или модель дерева решений (простую для интерпретации и объяснения) вместо алгоритмов черного ящика, таких как SVM, GBM и т. Д.

Короче говоря, не существует единого основного алгоритма для всех ситуаций. Мы должны быть достаточно щепетильными, чтобы понимать, какой алгоритм использовать.

В37. Считаете ли вы, что рассмотрение категориальной переменной как непрерывной переменной приведет к созданию более совершенной модели прогнозирования?

Ответ: Для более точных прогнозов категориальную переменную можно рассматривать как непрерывную переменную только в том случае, если переменная является порядковой по своей природе.

В38. Когда в машинном обучении возникает необходимость в регуляризации?

Ответ: Регуляризация становится необходимой, когда модель начинает переобучаться / переобучаться. Этот метод вводит термин стоимости для добавления большего количества функций с целевой функцией. Следовательно, он пытается довести коэффициенты для многих переменных до нуля и, следовательно, сократить срок затрат. Это помогает снизить сложность модели, чтобы она могла лучше предсказывать (обобщать).

В39. Что вы понимаете под компромиссом смещения смещения?

Ответ: Ошибка, возникающая в любой модели, математически может быть разбита на три компонента. Вот эти компоненты:

Вопросы для собеседования по Machine Learning Data Science

Ошибка смещения полезна для количественной оценки того, насколько в среднем прогнозируемые значения отличаются от фактического значения. Высокая ошибка смещения означает, что у нас недостаточно эффективная модель, в которой по-прежнему отсутствуют важные тенденции. Дисперсия с другой стороны количественно определяет, насколько прогнозы, сделанные на основе одного и того же наблюдения, отличаются друг от друга. Модель с высокой дисперсией будет чрезмерно подходить для вашей обучающейся популяции и плохо работать при любых наблюдениях, помимо обучения.

В40. МНК относится к линейной регрессии. Максимальная вероятность - логистическая регрессия. Объясните утверждение.

Ответ: OLS и максимальное правдоподобие - это методы, используемые соответствующими методами регрессии для аппроксимации неизвестного значения параметра (коэффициента). Простыми словами,

Обычный метод наименьших квадратов (OLS) - это метод, используемый в линейной регрессии, который аппроксимирует параметры, приводящие к минимальному расстоянию между фактическими и прогнозируемыми значениями. Максимальное правдоподобие помогает выбрать значения параметров, которые максимизируют вероятность того, что параметры с наибольшей вероятностью дадут наблюдаемые данные.

Конечные заметки

Возможно, вы смогли ответить на все вопросы, но настоящая ценность состоит в том, чтобы понять их и обобщить свои знания по аналогичным вопросам. Если вы боролись с этими вопросами, не беспокойтесь, сейчас самое время учиться, а не действовать. Прямо сейчас вам следует сосредоточиться на скрупулезном изучении этих тем.

Эти вопросы призваны дать вам широкое представление о типах вопросов, которые задают стартапам в области машинного обучения. Я уверен, что эти вопросы оставят у вас достаточно любопытства, чтобы в конце концов провести более глубокое исследование темы. Если вы планируете это сделать, это хороший знак.

Вам понравилось читать эту статью? Вы в последнее время участвовали в каком-либо интервью для стартапа по профилю специалиста по данным? Поделитесь своим опытом в комментариях ниже. Я хотел бы узнать ваш опыт.

Исследование, описанное в статье про вопросы для собеседования по machine learning / data science, подчеркивает ее значимость в современном мире. Надеюсь, что теперь ты понял что такое вопросы для собеседования по machine learning / data science и для чего все это нужно, а если не понял, или есть замечания, то не стесняйся, пиши или спрашивай в комментариях, с удовольствием отвечу. Для того чтобы глубже понять настоятельно рекомендую изучить всю информацию из категории Теория вероятностей. Математическая статистика и Стохастический анализ

Ответы на вопросы для самопроверки пишите в комментариях, мы проверим, или же задавайте свой вопрос по данной теме.

Вопросы для собеседования по Machine Learning / Data Science

Обзор

Введение

Вопросы для собеседования по машинному обучению

Конечные заметки

Комментарии

Оставить комментарий

Теория вероятностей. Математическая статистика и Стохастический анализ

Термины: Теория вероятностей. Математическая статистика и Стохастический анализ