Перейти к основному содержанию
Дистанционное образование Казанского федерального университета: Вход

Логин
Пароль
Запомнить логин
Забыли логин или пароль?
В Вашем браузере должен быть разрешен прием cookies
Некоторые курсы, возможно, открыты для гостей
Вопросы ВвИТ. Вопросы к зачёту экзамену Машинное обучение (МО) и основы статистики
Единственный в мире Музей Смайликов |
|
Подборка по базе: Контрольная работа _Разделительные вопросы_ (1).doc, Самые популярные вопросы о Чичикове из поэмы.docx, Примерные вопросы к дифференцированному зачету_Психология общени, Тестовые вопросы к разделу 5_ просмотр попытки.pdf, Тестовые вопросы к разделу 8_ просмотр попытки.pdf, Экзамен вопросы СП ОМ_англ_ok.docx, Ответы к экзамену.docx, 2.2 Вопросы к экзамену Смета+Финансы.docx, ВОПР К экзамену АСВТ.docx, РК-1 вопросы каз, русс 1 курс.docx
Вопросы к зачёту/экзамену
- Машинное обучение (МО) и основы статистики.
- Применение МО
- Методы МО
- Задачи МО
- Эффективность МО
- Представление данных для МО
- Признаки. Типы признаков. Примеры
- Характеристики признаков. Примеры
- Минимальное и максимальное значения. Примеры
- Среднее значение. Примеры
- Медиана. Примеры
- Мода. Примеры
- Сравнение среднего значения и медианы. Примеры
- Симметричные выборки. Примеры
- Отклонение. Виды. Примеры
- Корреляция
- Коэффициент корреляции
- Восстановление данных
- Восстановление разных типов признаков
- Метрики. Примеры
- Свойства метрик
- Восстановление данных с помощью метрики
- Нормирование
- Рекомендательные системы
- Применение метрик и КК в рекомендательных системах
- Поиск выбросов
- Поиск новизны
- Отличие выбросов от новизны и пропусков
- Методы обнаружения выбросов
- Методы, анализирующие признаки по отдельности
- Поиск выбросов без использования среднего и отклонения
- Методы, анализирующие несколько признаков
- Достоинства и недостатки разных методов
- Метрические методы
- Геометрические методы
- Поиск выбросов с помощью кластеризации
- Поиск выбросов с помощью моделей предсказания
- Поиск новизны без поиска выбросов
- Кластеризация
- Цели кластеризации
- Алгоритмы кластеризации
- Недостатки кластеризации каждого типа
- Кластеризация с помощью графов
- Алгоритм FOREL
- Алгоритм k-means
- Выбор оптимального числа кластеров
- Кластеризация по столбцам
- Задача предсказания
- Регрессия
- Показатели качества регрессии
- Модель предсказания
- Регуляризация
- Линейная регрессия
- Классификация
- Постановка задачи предсказания
- Бинарная классификация
- Критерии качества классификации
- Деревья в машинном обучении
- Оптимальный признак для ветвления
- Неопределенность Джини
- Поиск выбросов с помощью деревьев (изолирующий лес)
- Случайный лес
- Линейные классификаторы. Геометрическая интерпретация
- Градиентный спуск
- Нейронные сети (как композиция линейных классификаторов)
- Нейросети дл
- я классификации
Юрий Савченко | Репутация: 0 (Без голоса)
23 сентября 2021 в 11:55
Evgeny GEB | Репутация: 0 (Без голоса)
29 января 2019 в 15:25
Лекция №27 имеет заголовок «Метод опорных векторов (SVM) и это соответствует логике изложения, а видео про регрессионный анализ.
Петр Сотников | Репутация: 0 (Без статуса)
15 сентября 2016 в 17:11
Названия лекций в оглавлении примерно с половины курса не соответствуют их содержанию. Фактически лекции «сдвинуты» вверх на 3-4 позиции относительно их номера в оглавлении. В тестах присутствует много вопросов по материалам, не изложенным в лекциях. Вопросы составлялись по лекциям в их более ранней редакции. В текущих материалах порядок изложения поменялся. В начале курса в видео нет слайдов презентаций.
Уточните, что и как должно быть — исправим
В текущей редакции не видно слайдов на видео к которым обращается лектор. Будет ли производится коррекция материалов? (Машинное обучение)
Так же в тексте вопросов первого тестирования присутствуют ошибки.
Всем кто со мной согласен предлагаю сходить сюда
http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_(%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2)
Хорошо бы слайды приложить на страничке курса. С соседнего сайта не очень удобно смотреть…
Хотя машинное обучение и искусственный интеллект уже включены в учебные программы по компьютерной инженерии в большинстве инженерных колледжей, возможности машинного обучения и искусственного интеллекта далеко переросли область компьютерного мира.
- Аналитика бизнеса
- Статьи
- 45 самых популярных вопросов и ответов на собеседовании по машинному обучению
Оглавление
Хотя машинное обучение и искусственный интеллект уже включены в учебные программы по компьютерной инженерии в большинстве инженерных колледжей, возможности машинного обучения и искусственного интеллекта далеко переросли область компьютерного мира. Недавние разработки в обеих областях, особенно в ML, привели к резкому росту спроса на экспертов по ML в большинстве секторов. С этой целью мы составили следующий список вопросов и ответов на собеседование по машинному обучению. Мы включили основные концепции машинного обучения , расширенные вопросы на основе сценариев, а также базовые вопросы собеседования по машинному обучению для новичков.
Q1: Что вы подразумеваете под перекрестной проверкой?
Как следует из названия, перекрестная проверка – это метод проверки того, может ли данная система машинного обучения точно работать с наборами данных, отличными от того, который использовался для ее обучения. Обычно программисты разбивают свой набор данных на два разных набора для перекрестной проверки:
- Данные для обучения – используются для обучения системы.
- Данные тестирования – используются для тестирования и проверки системы.
Q2: Как выбрать метрики?
Метрики – это параметры, которые помогают оценить модель / систему машинного обучения. Выбор показателей зависит от множества факторов, таких как:
- Это модель классификации или регрессии?
- Насколько разнообразны целевые переменные?
MAE, MAPE, RMSE, MSE для регрессии и Accuracy, Recall, Precision и f1 для классификации являются одними из наиболее часто используемых показателей.
Q3: Что такое ложные срабатывания и ложноотрицания?
Ложные срабатывания , как ложная тревога, когда модель предполагает наличие состояния , даже если она не существует. Ложный отрицательный результат представляет собой полную противоположность описанной выше ситуации , когда модель предполагает отсутствие состояния , когда он на самом деле присутствует.
Q4: Объясните термины «Отзыв» и «Точность»:
И отзыв, и точность являются точными индикаторами модели, но имеют особое значение. Если отзыв фокусируется на всех релевантных результатах, точно классифицированных по модели, точность помогает вам определить процент полученных результатов, которые имеют прямое отношение к вам.
Q5: Различайте обучение с учителем и обучение без учителя.
В обучении с учителем вы предоставляете модели ключ для ответа на вопросы, которые она должна решить, чтобы модель могла проверить свои результаты и соответствующим образом улучшить свой процесс – например, корреляцию между возрастом и ростом группы детей.
В случае обучения без учителя правильные результаты неизвестны, поэтому модели необходимо сделать выводы и найти закономерности из заданного набора данных. Например, объединение клиентов с похожей историей покупок.
Q6: Как проверить модель прогнозирования на основе множественной регрессии?
Чаще всего для этого используется перекрестная проверка, как описано в предыдущем вопросе. Но вы также можете использовать метод скорректированного R-квадрата . В этом методе генерируется значение r-квадрата, которое определяет соотношение между дисперсией, присутствующей в зависимых и независимых переменных набора данных.
Таким образом, чем выше значение r-квадрат, тем точнее модель.
Q7: Что такое полная форма НЛП?
NLP – это сокращение от Natural Language Processing. Это дисциплина искусственного интеллекта, которая помогает машинам понимать людей и взаимодействовать с ними в более разговорной манере.
Q8: Что такое случайный лес?
Случайные леса – это методика обучения, основанная на концепции деревьев решений. Множественные деревья решений создаются путем случайного выбора подмножества переменных на каждом шаге дерева решений, которое объединяется в случайный лес. Затем выбирается режим всех прогнозов в результате с наименьшей вероятностью ошибок.
Q9: Какая модель лучше: случайные леса или машина опорных векторов? Обосновать ответ.
Когда дело доходит до алгоритмов машинного обучения, на первый план выходит теория отсутствия бесплатного обеда. Ни один алгоритм не превосходит другой в абсолютном выражении и имеет ряд компромиссов. В зависимости от варианта использования мы предпочитаем одно другому.
Но в целом случайные леса считаются более совершенной моделью по сравнению с SVM по следующим причинам:
- Вы можете определить важность функции с помощью случайных лесов, но не с помощью SVM.
- Случайные леса использовать проще, чем SVM, и первый также работает быстрее.
- Случайные леса оказались более масштабируемыми и менее требовательными к памяти, чем SVM для мультиклассовых классификаций.
- Меньшая вероятность переобучения в целом.
- Легко настроить гиперпараметры.
Q10: Объясните PCA и его использование:
PCA расшифровывается как «Анализ главных компонентов». Он включает в себя упрощение данных за счет уменьшения размерности набора данных – например, преобразование трехмерного изображения в двухмерное – без изменения исходных переменных модели. PCA – это широко используемый метод сжатия, используемый для лучшей визуализации и обобщения данных, уменьшения требуемой памяти и ускорения процесса.
Q11: Каковы недостатки наивного Байеса? Как его можно улучшить?
Самый большой недостаток Наивного Байеса заключается в его предположении, что характеристики набора данных полностью не коррелируют друг с другом, что бывает редко. Единственный способ улучшить производительность Наивного Байеса – это фактически удалить корреляции между функциями и сделать процесс оптимальным для Наивного Байеса.
Q12: Объясните недостатки линейной модели?
Ниже приведены основные недостатки линейной модели:
- Линейная модель основана на слишком большом количестве теоретических предположений, которые в большинстве случаев не соответствуют действительности.
- Дискретные или бинарные результаты нельзя получить с помощью линейной модели.
- Высокая негибкость.
В13: Несколько маленьких деревьев решений лучше, чем одно большое? Обоснуйте.
Наличие нескольких небольших деревьев решений – это то же самое, что использование модели случайного леса, которая, как известно, является более точной (низкий уровень смещения) и менее подвержена проблеме переобучения (высокая дисперсия). Итак, да, иметь несколько маленьких деревьев решений было бы предпочтительнее, чем иметь одно большое.
В14: Что делает среднеквадратическую ошибку плохим показателем производительности модели?
MSE или среднеквадратическая ошибка основана на связывании значительно более высокого веса с большими ошибками, что делает больший акцент на более широких отклонениях. Однако это хорошо работает в большинстве алгоритмов, чтобы минимизировать ошибку модели и стоимость.
Иногда лучшим вариантом для MSE является MAE (средняя абсолютная ошибка) или MAPE (средняя абсолютная ошибка в процентах), что устраняет вышеуказанный недостаток и легко интерпретируется.
Q15. На каких предположениях основана линейная регрессия?
Линейная регрессия обычно основана на следующем ключевом предположении:
- Данные выборки должны представлять всю генеральную совокупность .
- Входная и выходная переменные должны иметь линейную зависимость.
- Входная переменная должна демонстрировать гомоскедастичность.
- Нет мультиколлинеарности среди независимых / входных переменных.
- Нормальное распределение выходной переменной для любого значения входной переменной.
- В выходной / зависимой переменной нет серийной или автокорреляции.
Q16: Что такое мультиколлинеарность?
Когда две независимые переменные показывают высокую корреляцию друг с другом, говорят, что произошла мультиколлинеарность. Факторы инфляции дисперсии (VIF) могут использоваться для обнаружения мультиколлинеарности между независимыми переменными. Обычно значение VIF более 4 является признаком мультиколлинеарности.
В17: Почему следует или не следует выполнять уменьшение размерности перед установкой SVM?
Для оптимального результата модели настоятельно рекомендуется уменьшение размерности перед подгонкой SVM, когда количество функций больше, чем количество наблюдений.
В18: Различить классификацию и регрессию?
Классификация , как следует из названия, классифицирует или разделяет данные на заранее определенные категории. Полученные результаты носят дискретный характер. Например, классификация игроков в крикет на категории боулеров и игроков с битой. Некоторые бизнес-примеры:
- Будут ли клиенты открывать электронную почту или нет?
- Будет ли клиент возвращать платежи по кредитной карте или по умолчанию?
- Является ли страховое требование мошенничеством или подлинным заявлением?
Регрессия , с другой стороны, имеет дело с непрерывными данными, такими как определение температуры объекта в определенный момент дня. В этом случае мы прогнозируем числовое значение / непрерывное число. Некоторые бизнес-примеры:
- Прогнозирование доходов компании
- Шаги в торговом центре
- Общие розничные расходы разных клиентов
В19: Объясните разницу между KNN и кластеризацией k-средних.
KNN расшифровывается как K-Nearest Neighbours, который представляет собой контролируемый метод обучения, требующий помеченных данных, которые затем используются для классификации точек на основе их расстояния от ближайшей точки.
Кластеризация K-средних – это алгоритм машинного обучения без учителя, в котором предоставляется модель с немаркированными данными, а затем алгоритм группирует точки наблюдения / данных на основе сходства, измеренного с использованием среднего значения расстояний между разными точками.
В20: Как убедиться, что ваша модель не переоснащается?
Основные причины, которые вызывают переоснащение модели, – сложность самой модели и количество шума в используемых переменных. Методы перекрестной проверки, такие как K-складки, могут использоваться для ограничения переобучения в модели. Методы регуляризации могут использоваться для наказания параметров, которые могут вызывать переобучение.
Q21: Объясните ансамблевое обучение.
По сути, ансамблевое обучение – это сбор и агрегирование нескольких моделей с использованием самонастраиваемых выборок, обычно деревьев решений (классификаторов или регрессоров), для получения более точных результатов с меньшим смещением и дисперсией. Модели ансамблевого обучения можно создавать последовательно или параллельно.
В Bagging несколько моделей создаются параллельно, а окончательные результаты представляют собой агрегированные результаты всех этих моделей, основанные на средних значениях или голосовании большинства. Самый популярный среди таких методов – Random Forest.
В Boosting параллельно создается большое количество последовательных моделей, и каждая последующая модель учится на слабых сторонах предыдущей модели для повышения конечной точности. GBM (Gradient Boosting Method) и Xgboost – два самых популярных метода повышения.
Q22: Чем машинное обучение отличается от глубокого обучения?
Машинное обучение фокусируется на анализе и изучении этих данных на основе функций, вводимых в модель, и использовании этих данных для принятия более эффективных решений.
Глубокое обучение – это, по сути, подмножество машинного обучения, вдохновленное человеческим мозгом. Он фокусируется на извлечении признаков путем вывода информации из нескольких слоев, где каждый слой передает информацию каждому слою для окончательного результата.
Q23: Что такое смещение выборки?
Когда конкретная группа или тип данных выбирается в наборе данных чаще, это приводит к статистической ошибке, называемой смещением выбора. Если систематическая ошибка выбора не обнаружена и не устранена, она может привести к неточным конечным результатам.
В24: Объясните индуктивное и дедуктивное рассуждение:
Индуктивное рассуждение включает анализ имеющихся наблюдений, чтобы сделать вывод. Дедуктивное рассуждение, напротив, использует известные выводы или предпосылки для формирования наблюдений. Вот хороший пример.
В25: Определите разницу между примесью Джини и энтропией в дереве решений.
Примесь Джини и Энтропия – это метрики, которые могут помочь разделить дерево решений. Первый измеряет вероятность правильной классификации случайной выборки, если вы случайным образом выбираете метку в ветке.
Энтропия – это мера неопределенности вашей модели. Энтропия самая низкая по направлению к листовому узлу. Прирост информации – это разница энтропий, наблюдаемая между набором данных до и после разделения атрибута. Он имеет максимальное значение около листового узла. Разница между энтропиями может помочь понять уровень неопределенности в дереве решений.
В26. Что такое выбросы и как их обнаружить?
Выбросы – это те точки данных, значение которых значительно отличается от среднего значения набора данных. Коробчатая диаграмма, линейные модели и модели на основе близости часто используются для отбора выбросов в наборе данных. Для большинства моделей настоятельно рекомендуется обрабатывать выбросы путем их ограничения или исключения из набора данных.
В27. Что такое A / B-тестирование?
A / B-тестирование – это тестирование с двумя переменными, выполняемое в рандомизированных экспериментах для определения того, какая из двух выбранных моделей лучше подходит для данного набора данных.
Представьте, что у вас есть две модели рекомендаций по фильмам, A и B. Выполнение A / B-тестирования может помочь нам определить, какая из этих двух моделей даст лучшую рекомендацию пользователю.
В28. Объясните кластерную выборку:
Кластерная выборка – это метод группировки, используемый для совокупности, в которой есть отдельные подмножества однородных элементов. Кластерная выборка, обычно используемая для маркетинговых исследований, делит данный набор данных на более мелкие группы и случайным образом выбирает выборку из групп.
В29. Какие библиотеки Python обычно используются в машинном обучении?
Pandas, NumPy, SciPy, Seaborn, Sklearn и т. Д. Входят в пятерку наиболее часто используемых библиотек для анализа данных и научных вычислений, необходимых для моделей машинного обучения.
Q30. Какой у вас опыт работы с инструментами для работы с большими данными, такими как Spark, которые используются в машинном обучении?
На уровне предприятия Apache Spark играет важную роль в масштабировании моделей машин и обеспечивает аналитику больших данных в реальном времени.
Spark – один из наиболее часто используемых инструментов машинного обучения для работы с большими данными, и он, вероятно, поднимется по крайней мере в некоторых из вопросов собеседования по машинному обучению для должностей, связанных с обработкой больших данных. Это обычная часть вопросов на собеседовании по машинному обучению для профессионалов с некоторым опытом.
Всегда честно задавайте вопросы на собеседовании по машинному обучению. Поэтому убедитесь, что у вас есть некоторый практический опыт использования подобных инструментов, прежде чем пытаться задавать вопросы на собеседовании по ML.
В31. Как бы вы поступили с отсутствующими данными в наборе данных?
Еще один гипотетический вопрос, который является регулярным в сеансе вопросов и ответов на собеседование по машинному обучению. Большинство работодателей включают эту ситуацию в вопросы собеседования по машинному обучению для новичков, потому что им необходимо понять, достаточно ли у человека практических знаний для решения таких повсеместных проблем повседневной работы.
Ваш ответ на такой вопрос собеседования с ML должен заключаться в том, что вы можете заменить отсутствующее значение другим значением, используя меру центральной тенденции, такую как среднее значение, медиана или мода. Чаще всего используется следующий подход:
Непрерывные переменные: заменить отсутствующие на среднее значение
Порядковые переменные: замените отсутствующие на медиану
Категориальные переменные: заменить отсутствующие на режим
В случае, если у нас очень небольшая доля отсутствующих значений в большом наборе данных, мы также можем удалить их. dropna () из библиотеки Pandas.
В32. Напишите псевдокод для любого алгоритма.
Самым важным качеством, которое интервьюеры пытаются выяснить в своих вопросах по машинному обучению, является понимание человеком логики машинного обучения. Написание псевдокода алгоритма требует интуитивного понимания фундаментальных концепций и сильных навыков логического мышления. Поэтому всегда выбирайте алгоритм, в котором вы хорошо разбираетесь.
Один из самых простых алгоритмов – это Decision Tree, где мы можем разделить данные в каждом узле, чтобы минимизировать индекс MSE или GINI.
В33. Какую последнюю книгу или исследовательскую работу вы прочитали по машинному обучению?
Интервьюер попытается оценить, действительно ли у вас есть интерес к этой области, задав такие вопросы на собеседовании по машинному обучению. Вы всегда должны быть начитанными и в курсе последних разработок в области машинного обучения, читая опубликованные исследовательские работы и научные журналы.
В34. Какая модель ML вам нравится больше всего?
Хотя интервьюер может сначала попросить вас только назвать вашу любимую модель машинного обучения, есть большая вероятность, что у него появятся дополнительные вопросы по выбранной вами модели. Поэтому не забудьте назвать достаточно простую модель машинного обучения, которую вы хорошо знаете и понимаете.
И, пожалуйста, помните о принципе отказа от бесплатного обеда, описанном в Q9! Ни одна модель не может быть лучше в каждом сценарии. У каждой модели есть свои плюсы и минусы, и мы выбираем подходящую модель, исходя из бизнес-кейса и применимых компромиссов.
В35. Чем интеллектуальный анализ данных отличается от машинного обучения?
Интеллектуальный анализ данных – это дисциплина, которая занимается извлечением данных из не уточненных источников, чтобы их можно было проанализировать и изучить для получения значимых закономерностей.
Машинное обучение фокусируется на разработке алгоритмов и методологий, которые могут помочь машинам учиться и развиваться самостоятельно.
В36. Назовите жизненные этапы разработки модели в проекте машинного обучения.
Разработка модели машинного обучения проходит в следующие этапы:
- Определить бизнес-задачу: понять бизнес-цели и преобразовать задачу ИТ-аналитики
Конструирование данных: определение необходимых источников данных, извлечение и агрегирование данных на необходимом уровне. - Исследовательский анализ: понимание данных, проверка переменных на наличие ошибок, выбросов и пропущенных значений. Определите взаимосвязь между различными типами переменных. Проверьте предположения.
- Подготовка данных: исключения, преобразование типов, обработка выбросов, обработка пропущенных значений. Создайте новые гипотетически релевантные переменные, например max, min, sum, change, ratio. Группирование переменных, создание фиктивных переменных и т. Д.
- Разработка функций: Избегайте мультиколлинеарности и оптимизируйте сложность модели за счет сокращения количества входных переменных – кластера переменных, корреляции, факторного анализа, RFE и т. Д.
- Разделение данных: разделите данные на обучающую и тестовую выборки.
- Построение модели: подгонка, проверка точности, перекрестная проверка и настройка модели с помощью параметров и гиперпараметров.
- Тестирование модели: проверьте модель на тестовом образце, запустите диагностику и при необходимости повторите модель.
- Реализация модели: Подготовьте окончательные результаты модели – представьте модель. Определите ограничения модели. Реализуйте модель (преобразование решения машинного обучения в рабочую среду).
- Отслеживание производительности: периодически отслеживайте производительность модели и обновляйте ее по мере необходимости. В условиях развивающейся бизнес-среды производительность любой модели машинного обучения может со временем ухудшиться.
В37. Назовите несколько реальных приложений алгоритмов машинного обучения:
Алгоритмы машинного обучения находят широкое применение в следующих секторах:
- Биоинформатика
- Робототехника, автоматизация процессов
- Обработка естественного языка
- Анализ настроений
- Обнаружение мошенничества
- Системы распознавания лица и голоса
- Борьба с обмыванием денег
В38. Объясните нейронные сети.
Вы можете ожидать вопроса о нейронных сетях, когда интервьюер перейдет от вопросов и ответов к базовому и промежуточному машинному обучению. Нейронная сеть – это продвинутая дисциплина машинного обучения, которая показала замечательные результаты благодаря повышенной адаптивности и гибкости.
Нейронная сеть представляет собой тип ML алгоритма, который идентифицирует, лежащие в основе скрытых моделей & отношений в наборе данных с помощью процесса, который вдохновлен действием работает человеческий мозг.
Это недетерминированный алгоритм без прочной математической основы, который можно грубо сравнить с крупномасштабными вычислениями методом проб и ошибок. Эти модели очень хорошо адаптируются к изменениям входных данных; следовательно, получение высокоточных результатов без явного программирования. (Вы также можете снова обратиться к Qn 22.)
В39. Машинное обучение — это еще одно название искусственного интеллекта?
Поначалу это может показаться подвохом, но ответ прост: нет, машинное обучение и искусственный интеллект – не одно и то же. ?? Хотя оба они сосредоточены на том, чтобы сделать машины более интеллектуальными и способными делать то, что могут делать люди, машинное обучение на самом деле является подмножеством ИИ, которое уделяет особое внимание разработке методологий обучения для машин.
Принимая во внимание, что ИИ шире и может включать в себя другое оборудование и инженерные элементы для создания окончательного решения. Например, механизм рекомендаций Netflix с поддержкой AI – это преимущественно решение для машинного обучения, чего нельзя сказать об автономном беспилотном автомобиле.
В40. Что такое хеш-таблица?
Хэш – таблица представляет собой организован листинг элементов данных, где каждый элемент в структуре имеет уникальное значение индекса своих собственных. Это позволяет хэш-таблицам выполнять операции поиска и вставки данных намного быстрее, поскольку элементы данных хранятся в однородной ассоциации друг с другом.
Чтобы узнать больше, посмотрите это.
В41. Какими способами можно уменьшить размерность набора данных?
Снижения размерности можно добиться следующими способами:
- Факторный анализ
- Анализ главных компонентов
- Isomap
- Автокодирование
- Полуопределенное вложение
В42. Определите счет F1.
Оценка F1 – это статистическая оценка, основанная на показателях производительности. Это средневзвешенное значение значений отзыва и точности модели. Он в основном используется для сравнения производительности двух алгоритмов машинного обучения в общем наборе данных.
В43. Как обрезать дерево решений?
Сокращение включает замену узлов дерева решений сверху вниз или снизу вверх. Это очень полезно для повышения точности дерева решений, а также для уменьшения его сложности и переобучения.
Как правило, дерево растет до тех пор, пока конечные узлы не получат небольшую выборку, а затем обрезаются, чтобы удалить узлы, которые не добавляют дополнительной точности или информации. Цель состоит в том, чтобы уменьшить размер дерева, не влияя на точность, измеряемую перекрестной проверкой. Для обрезки деревьев решений используются два основных подхода:
- На основе ошибок
- Стоимость зависит от сложности
Q44: Как бы вы объяснили машинное обучение неспециалисту?
Такие вопросы важны для демонстрации вашей способности эффективно общаться с заинтересованными сторонами бизнеса и клиентами, которые не обязательно имеют технический опыт. Вы должны ответить на этот вопрос своими словами, исходя из общего понимания предмета.
«Проще говоря, машинное обучение состоит из набора методологий, которые позволяют компьютерам / машинам автоматически учиться на прошлых данных и повышать точность без явного программирования.
Это включает в себя процесс анализа данных, выявления скрытых закономерностей, извлечения уроков из них и последующего определения или прогноза результата без каких-либо вводных программ на основе правил».
В45. Что вас больше всего интересует в ML?
На этот вопрос вы должны ответить, внимательно изучив свое понимание машинного обучения. Но если ваше собеседование запланировано на несколько минут и требует быстрого ответа, попробуйте: «Машинное обучение – это наделение людей способностью, которую природа только наделила людьми: обучением. Машинное обучение может помочь нам сделать машины более человечными. Что еще более важно, я действительно хочу быть частью революции AI ML, которая оказывает очень глубокое влияние на все сферы нашей жизни. Я верю, что с моим большим интересом и навыками я действительно могу внести значительный вклад в то же самое».
Помимо вышеперечисленных вопросов на собеседовании по машинному обучению, обязательно прочтите последние новости и обновления, происходящие в мире машинного обучения. Всего наилучшего!
Почитать еще
Информационный шум
Чтобы тщательно, точно и четко информировать, мы должны определить предполагаемый сигнал, а затем усилить его,
Аналитическая зрелость
В течение последних двадцати лет ментальная модель зрелости аналитики соответствовала схеме, представленной ниже, начиная с
Машинное обучение
Глубокое обучение – это продвинутая форма машинного обучения. Глубокое обучение относится к способности компьютерных систем, известных
ETL или подготовки данных
Технологии извлечения, преобразования и загрузки (ETL), которыми управляют исключительно ИТ, до недавнего времени были основным
Несколько видео о наших продуктах
Проиграть видео
Презентация аналитической платформы Tibco Spotfire
Проиграть видео
Отличительные особенности Tibco Spotfire 10X
Проиграть видео
Как аналитика данных помогает менеджерам компании
Что здесь происходит?
материал будет дополняться. поправки и критика приветствуются
В рамках образовательного проекта Мамкин Data Scientist был проведен опрос, на основании которого образовался ресурс, содержащий распространенные вопросы из собеседований мира Data Science.
Список постоянно обновляется, пользователи голосуют за популярные вопросы, дают свои трактовки и ответы в комментариях.
Этот репозиторий представляет собой лонгрид, содержащий выборку из этих вопросов и мои аннотации, не претендующие на полное раскрытие темы, но призванные передать суть ответа простыми словами или натолкнуть на его более глубокое рассмотрение.
Вопросы для интервью по специальности Data Science
В чем отличие градиентного бустинга над деревьями от случайного леса? Какие базовые параметры настраиваются?
Оба алгоритма являются ансамблями, но реализуют разные подходы: бустинг и беггинг соотвествтенно.
Ансамбль — набор из моделей, решающих одну задачу, результаты работы которых компонуются так, чтобы повысить эффективность и точность, в сравнении с прогнозом одной модели.
Бустинг — подход, при котором модели обучаются последовательно.
Эта техника использует идею о том, что следующая модель будет учится на ошибках предыдущей. Они имеют неравную вероятность появления в последующих моделях, и чаще появятся те, что дают наибольшую ошибку. Обучающая выборка на каждой итерации определяется, исходя из ошибок классификации на предыдущих итерациях. Из-за того, что предсказатели обучаются на ошибках, совершенных предыдущими, требуется меньше времени для того, чтобы добраться до реального ответа.
Плюсы: быстрый и точный
Минусы: переобучается и не параллелится
Беггинг — подход, при котором несколько базовых моделей обучаются параллельно на различных подвыборках, при чем выборка может быть не только срезом строк, но и содержать в себе лишь некотурую часть столбцов (признаков) выбранных случайно. Результаты обучения всех моделей усредняются.
Эффективность бэггинга достигается благодаря тому, что базовые алгоритмы, обученные по различным подвыборкам, получаются достаточно различными, и их ошибки взаимно компенсируются при голосовании, а также за счёт того, что объекты-выбросы могут не попадать в некоторые обучающие подвыборки. Случайный лес — беггинг, в основе которого лежат модели деревьев решений.
Плюсы: довольно точен, устойчив к выбросам
Минусы: очень большой размер моделей, которые получаются в результате
Безовые параметры зависят от типа решаемой задачи (классификация, регрессия) и выбранной базовой модели, в общем случае это количество таких моделей, их ключевые ппраметры (вроде глубины дерева для деревьев решений) и праметры, отвечающие за раелизацию самого подхода (например как разбивать выборки при беггинге).
Картинки взяты отсюда, крутая статья, рекомендую к прочтению
Как вычислить минимальный размер выборки для проведения A/B теста?
Для того чтобы понять, какой объем выборки нам нужен, нам нужно зафиксировать некоторые вещи. Во-первых, минимальный размер эффекта, который мы хотим померить. То есть для нашей метрики, насколько большие отклонения от показателя, который мы предполагаем, сохранится по умолчанию, если наши изменения вообще никак не влияют на пользователей, какой размер вот этого отклонения мы хотим замечать в эксперименте. Эта штука называется «размер эффекта». Далее, следующий показатель, который надо зафиксировать, — это допустимые вероятности ошибок первого и второго рода.
В A/B-тестах, как правило, мы проверяем гипотезы о том, что никакие наши примененные изменения не повлияли на пользователей вообще никак, и проверяем ее против альтернативы, что как-то повлияли.
Ошибкой первого рода в этой ситуации будет отвержение неверной нулевой гипотезы, то есть принятие не влияющих на самом деле на пользователей изменений. Ошибка второго рода — это, наоборот, отклонение действительно хороших и влияющих на пользователей изменений. Вот мы должны, для того чтобы рассчитать необходимый объем выборки, зафиксировать допустимые вероятности ошибок первого и второго рода. В статистике, как правило, используется вероятность ошибки первого рода — 0,05, а вероятность ошибка второго рода — 0,2. В вашем конкретном эксперименте стоимости ошибок первого и второго рода могут быть какими-то существенно разными, поэтому часто может оказаться выгодно вручную выбрать эти пороги на вероятности ошибок первого и второго рода.
Наконец, когда вы зафиксировали размер эффекта и допустимой вероятности ошибок, вы можете поступить следующим образом: вы берете название метода, который вы планируете использовать для сравнения ваших контрольных групп и экспериментальных групп, например Z-критерий или T-критерий, и вы используете калькулятор мощности этого критерия. Вообще, для всех статистических критериев между собой связаны сложными взаимосвязями несколько величин: тип альтернативы, размер эффекта, размер выборки и допустимые вероятности ошибок первого и второго рода. Если вы какие-то из этих величин фиксируете, вы можете рассчитать оставшиеся. То есть если вы фиксируете конкретный критерий и фиксируете конкретный тип альтернативы, вероятности ошибок первого и второго рода и минимальный интересующий вас размер эффекта, вы можете вычислить объем выборки, который для этого нужен. Для того чтобы это сделать, нужно использовать калькулятор мощности. Вы просто гуглите его, и для каждого конкретного критерия вы легко найдете десятки различных реализаций, в том числе не требующих никакого знания программирования.
Как объяснить бизнесу, что значат ошибки I и II рода?
Ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к желательности или нежелательности самого события.
Ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).
Какой функционал оптимизируется в задаче линейной регрессии? Как записать это в векторной записи?
Осторожно! Баян!
Напомню, что линейная регрессия — это метод восстановления зависимости между двумя переменными. Её оптимизация сводится к максимизации прадоподобия, что эквивалентно минимизации среднеквадратичной ошибки (MSE), которая широко используется в реальных задачах.
Виды метрик машинного обучения?
(я так понимаю речь идет о метриках качества)
За шпорами сюда и сюда
Классификация:
- accuracy
- precision
- recall
- F-measure
- AUC-ROC и AUC-PR
- Logistic Loss (Данная метрика нечасто выступает в бизнес-требованиях, но часто — в задачах на kaggle. Крутая статья )
Регрессия
- MSE
- R2 (Коэффициент детерминации)
- MAE
- Квантильная ошибка (нормальных мануалов не нашел, в двух словах — сильнее штрафует за недопрогноз, чем за перепрогноз)
Кластеризация (почитать можно тут)
- Adjusted Rand Index (ARI)
- Adjusted Mutual Information (AMI)
- Homogenity
- Completeness
- V-measure
- Silhouette
Как объяснить бизнесу метрику машинного обучения?
Больше графиков, красивая диграмма, три раза сказать «business value», можно подключать мимику.
На этот вопрос нет истинно верного ответа, я хотел написать о использовании интерпретируемых моделей, где на язык бизнеса можно перенести веса признаков в сетях/линейных алгоритмах или feature importance моделей на базе деревьев решений. Или упомянуть о силе аллегорий.. но не уверен, что таким вещам тут место. Но раз уж есть мемасик, то вопрос определенно стоит включить.
Mean/median/mode — что это?
(Рекомендую к прочтению книгу В. Савельева «Статистика и котики»)
Mean — среднее значение, полученное путем деления суммы элементов на их количество.
Median — медиана это число в середине выборки чисел: половина данных находится ниже этого значения, а половина выше.
Mode — мода, соответствующая значению, которое встречается чаще всего.
Что такое интерквантили?
Интерквартиль (IQR — одна из мер разброса или рассеяния данных. Он равен разности между верхним и нижним (первым и третьим) квартилями. Другими словами IQR — это ширина интервала, содержащего средние 50% выборки. Таким образом, чем меньше IQR, тем меньше рассеяние. Положительной чертой этого показателя является его устойчивость (робастность), т.е. на него слабо влияют выбросы.
Что такое boxplot?
boxplot, ящик с усами, диаграмма размаха — график, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей. (прим. часто помогает визуально определить выбросы)
Выглядит следующим образом:
Что такое скользящее среднее?
Скользящее среднее — общее название для семейства функций, значения которых в каждой точке определения равны среднему значению исходной функции за предыдущий период. Скользящие средние обычно используются с данными временных рядов для сглаживания краткосрочных колебаний и выделения основных тенденций или циклов.
Простое скользящее среднее — арифметическое среднее за заданный период.
Рассмотрим на примере количества коммитов в гитхаб. 5-ти дневное среднее скользящее на сегодня высчитывается путем прибавления пяти количеств коммитов за предыдущие дни (т.е. сегодняшнее плюс четыре прошлых) и разделением их на 5. Т.е. если статистика была такой: 9, 8, 8, 9, 10, то простое среднее скользящее будет равно (9+8+8+9+10)/5=8,8. Следовательно, если я сегодня сделал 10 коммитов, среднее скользящее числа коммитов в день будет равно 8,8.
Экспоненциальное среднее скользящее — считает более поздние данные более важными, за счет чего более быстро реагирует на изменения. Просчет значения экспоненциального среднего скользящего более сложный: вычисление значения 5-ти дневного экспоненциального среднего скользящего на сегодня производится по следующей формуле: EMA[k, n] = EMA[k-1, n]+(2/(n+1))·(P-EMA[k-1, n]), где
- EMA[k, n] — экспоненциальное скользящее среднее периода n на момент k
- P — текущая цена
(*прости, друг, тут вроде нельзя использовать Latex для формул. Когда-нибудь я перепишу их красиво, но это не точно)
На самом деле не обязательно помнить формулу наизусть, главное понимать смысл, который заключается в том, что, при просчете экспоненциального среднего скользящего, более ранние значения имеют меньшее значение, а более поздние — большее значение.
Взвешенное скользящее среднее, как и экспоненциальное, тоже придает более поздним данным больше «веса», но оно делает это более выражено и проще. При просчете 5-ти дневного взвешенного скользящего среднего, мы придаем сегодняшнему количеству коммитов пятикратный вес, вчерашнему — четырехкратный, позавчерашнему — трехкратный и т.д., а потом делим сумму всех произведений на сумму добавленного веса. Т.е. (1·8+2·8+3·9+4·10+5·11)/(1+2+3+4+5) = 146/15 = 9,73.
Формула расчета проста: каждое значение, входящее в просчет взвешенного скользящего среднего, необходимо умножить на его порядковый номер, а потом разделить всю эту сумму на сумму порядковых номеров.
Объяснить, что такое ROC/AUC
ROC/AUC — это метрика, позволяющая оценить качество бинарной классификации,более информативная, нежели accuracy и показывающая, как часто мы ошибаемся и как мы ошибаемся. Задача бинарной классификации подразумевает два возможных класса, 0 и 1.
Например, мы хотим понять, будет ли в какой-то день дождь (класс 1) или нет (класс 0). И ошибиться мы можем двумя способами:
* сказать что дождя не будет, а он пойдет (False Negative/ложнонегативное предсказание)
* сказать что дождь пойдет, а его не будет (False Positive/ложнопозитивное предсказание)
Если мы сказали что дождь пошел и угадали — это True Positive/ верноположительное предсказание.
Roc-кривая — это график зависимости True Positive от False Positive, а roc_auc — площадь под этой кривой. (между синеньким и зелененьким)
Что такое F-score и зачем его используют?
Посмотри предыдущий вопрос, про roc_auc, где описано что такое False Negative и False Positive.
F-score, F-мера — еще одна метрика оценки качества бинарной классификации, так же позволяющая определить как часто мы ошибаемся.
Почему это важно? Мы уже определили, что ошибки бывают двух видов: ложноположительные и ложноотрицательные. И в случае если один из этих типов ошибок нам более страшен — мы постараемся его не допускать, даже в ущерб ошибкам другого типа.
Например тебе нужно определить порок сердца у человека. Тут лучше лишний раз допустить False Positive, и предположить болезнь у здорового человека, нежели упустить больного и не заметить ее. Метрика, которую мы бы максимизировали в этом случае называется recall.
Если мы пытаемся как можно реже делать ложноположительные предсказания — (например это слишком дорого, как если мы ищем где копать нефть) — то мы максимизируем метрику precision.
F-мера же представляет собой гармоническое среднее между precision и recall. Она стремится к нулю, если любой из этих параметров стремится к нулю. Эту метрику мы хотим видеть высокой если нам важен баланс.
Что значит AUC <0.5? Что с ним делать?
В случае бинарной классификации (когда у нас есть только два класса), AUC — эквивалентна вероятности, что классификатор присвоит большее значение классу 1, чем классу 0, а если AUC < 0.5, то можно просто перевернуть выдаваемые значения классификатором потому, что у тебя противоположная ситуация.
Задача 9. Устный экзамен
≡
Условие
Вопрос на устном экзамене
Укажите вопрос, который будете отвечать на экзамене.
1. Введение
• Основные термины и задачи машинного обучения.
• Признаки, их виды и свойства. Переход между категориальными и численными признаками.
• Функция потерь. Оптимизация.
• Ошибки первого и второго рода. Метрики качества: accuracy, precision, recall, F1-score.
• Случайный поиск. Перебор по сетке.
• Проблемы работы с данными высокой размерности.
2. Градиентный спуск (gradient descent)
• Производная, частные производные, градиент. Методы оценки градиента.
• Градиентный спуск, проблема выбора шага.
• Стохастический градиентный спуск.
• Использование момента. Метод Нестерова.
• Метод отжига.
• Adagrad, Adadelta, RMSProp, Adam.
• AMSGrad, AdamW, YellowFin, AggMo, Quasi-Hyperbolic Momentum, Demon.
3. Линейная регрессия (linear regression)
• Постановка задачи линейной регрессии. Вероятностная интерпретация.
• Метод наименьших квадратов. Алгебраическое и оптимизационное решения.
• Ковариация, корреляция.
• Коэффициент деретминации (критерий R2).
• Анализ остатков. Гомоскедастичность. Квартет Анскомба.
• Решение для неквадратных и плохо обусловненных матриц.
• Регуляризация LASSO, Ridge, Elastic.
• Обобщённые аддитивные модели (generalized additive models).
• Partial Least Squares
4. Логистическая регрессия (logistic regression)
• Сигмоид.
• Метод наибольшего правдоподобия.
• Логистическая регрессия для меток − 1, 1.
• Обобщённые линейные модели (generalized linear models)
• Пробит-регрессия (probit regression)
5. Глобальная оптимизация. Генетический алгоритм (genetic algorithm)
• Многопараметрическая оптимизация.
• Доминация и оптимальность по Парето.
• Функция качества (fitness). Аппроксимация качества.
• Общая идея генетического алгоритма.
• Представление генома.
• Методы селекции: пропорционально качеству, универсальная выборка (stochastic universal sampling), с наследием (reward-based), турнир. Стратегия элитизма.
• Методы кроссовера. Двух и много-точечный, равномерный (по подмножествам), для перестановок.
• Мутация. Влияние на скорость обучения.
• Управление популяцией. Сегрегация, старение, распараллеливание.
• Генетическое программирование.
6. Деревья решений (decision trees)
• Понятие энтропии, определение информации по Шеннону.
• Понятие дерева решений.
• Метрики: примеси Джини (Gini impurity), добавленная информация (information gain).
• Алгоритмы ID3, CART.
• Борьба с оверфиттингом: bagging, выборки признаков (random subspace method).
• Ансамбли, случайный лес (Random Forest).
• Деревья регрессии. Метрика вариации.
• Непрерывные признаки. Использование главных компонент вместо признаков.
• Сокращение дерева (pruning).
• Другие алгоритмы вывода правил: 1-rule, RIPPER, bayesian rule lists
• Комбинация с линейной регрессией (RuleFit).
7. Метрики и метрическая кластеризация (metrics)
• Понятие и свойства метрики. Ослабление требования к неравенству треугольника.
• Метрики L1, L2, Хемминга, Левенштейна, косинусное расстояние.
• Потеря точности нормы в высоких размерностях.
• Нормализация координат. Предварительная трансформация пространства признаков.
• Метрика Махаланобиса.
• Понятие центроида и представителя класса.
• Центроидные алгоритмы: k-means, k-medoid. Алгоритм Ллойда.
8. Метод ближайших соседей (k-NN)
• Базовый алгоритм классификации методом 1-NN и k-NN. Преимущества и недостатки.
• Кросс-валидация методом «без одного» (leave one out).
• Определение границ, показатель пограничности (border ratio).
• Сжатие по данным. Понятия выброса, прототипа, усвоенной точки. Алгоритм Харта (Hart).
• Регрессия методом k-NN.
• Взвешенные соседи.
• Связь с градиентным спуском. Стохастическая формулировка, softmax.
• Метод соседних компонент (neighbour component analysis)
• Связь с выпуклой оптимизацией. Метод большого запаса (Large margin NN)
• Оптимизация классификатора, k-d деревья, Hierarchical Navigable Small World
• Хеши чувствительные к локальности, хеши сохраняющие локальность