Ich sage euch: man muß noch Chaos in sich haben, um einen tanzenden Stern gebären zu können (“Also sprach Zarathustra”, Friedrich Nietzsche)
Не теряйте время даром: курсы Школы анализа данных
Каникулы – хорошее время не только для отдыха, но и для самообразования. Можно отвлечься от повседневных задач и посвятить несколько дней тому, чтобы научиться чему-нибудь новому, что будет помогать вам весь год (а может и не один). Поэтому мы решили в эти выходные опубликовать серию постов с лекциями курсов первого семестра Школы анализа данных.
Сегодня — о самом важном. Современный анализ данных без него представить невозможно. В рамках курса рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.
Читает курс лекций Константин Вячеславович Воронцов, старший научный сотрудник Вычислительного центра РАН. Заместитель директора по науке ЗАО «Форексис». Заместитель заведующего кафедрой «Интеллектуальные системы» ФУПМ МФТИ. Доцент кафедры «Математические методы прогнозирования» ВМиК МГУ. Эксперт компании «Яндекс». Доктор физико-математических наук.
Основные понятия: модель алгоритмов, метод обучения, функция потерь и функционал качества, принцип минимизации эмпирического риска, обобщающая способность, скользящий контроль.
Вероятностная постановка задачи классификации. Основные понятия: априорная вероятность, апостериорная вероятность, функция правдоподобия класса.
Функционал среднего риска. Ошибки I и II рода.
Оптимальный байесовский классификатор.
Оценивание плотности распределения: три основных подхода.
Наивный байесовский классификатор.
Непараметрическое оценивание плотности распределения по Парзену-Розенблатту. Выбор функции ядра. Выбор ширины окна, переменная ширина окна. Метод парзеновского окна.
Квадратичная функция потерь, метод наименьших квадратов, связь с линейным дискриминантом Фишера.
Метод стохастического градиента и частные случаи: адаптивный линейный элемент ADALINE, перcептрон Розенблатта, правило Хэбба.
Недостатки метода стохастического градиента и способы их устранения. Ускорение сходимости, «выбивание» из локальных минимумов. Проблема переобучения, редукция весов (weight decay).
Гипотеза экспоненциальности функций правдоподобия классов.
Теорема о линейности байесовского оптимального классификатора.
Оценивание апостериорных вероятностей классов с помощью сигмоидной функции активации.
Логистическая регрессия. Принцип максимума правдоподобия и логарифмическая функция потерь.
Метод стохастического градиента, аналогия с правилом Хэбба.
Теоретические обоснования различных непрерывных функций потерь и различных регуляризаторов.
Байесовский подход. Принцип максимума совместного правдоподобия данных и модели.
Некоторые разновидности регуляризаторов, применяемые на практике. Квадратичный (L2) регуляризатор. L1- и L0- регуляризаторы и их связь с отбором признаков.
Метод релевантных векторов.
Сложностный подход. Радемахеровская сложность и некоторые её свойства. Верхняя оценка вероятности ошибки для линейных классификаторов.
Структура многослойной нейронной сети. Функции активации.
Проблема полноты. Задача исключающего или. Полнота двухслойных сетей в пространстве булевских функций.
Алгоритм обратного распространения ошибок. Формирование начального приближения. Проблема паралича сети.
Методы оптимизации структуры сети. Выбор числа слоёв и числа нейронов в скрытом слое. Постепенное усложнение сети. Оптимальное прореживание сети (optimal brain damage).
Постановка задачи кластеризации. Типы кластерных структур.
Графовые методы кластеризации: алгоритм выделения связных компонент, алгоритм ФОРЭЛ, функционалы качества кластеризации.
Иерархическая кластеризация (таксономия): агломеративная иерархическая кластеризация, дендрограмма и свойство монотонности, свойства сжатия, растяжения и редуктивности.
Статистические методы кластеризации: EM-алгоритм, метод k-средних.
Задачи и критерии выбора метода обучения: задачи выбора модели или метода обучения, эмпирические оценки скользящего контроля, аналитические оценки и критерии регуляризации.
Теория обобщающей способности: вероятность переобучения и VC-теория, бритва Оккама, комбинаторная теория переобучения.
Методы отбора признаков: полный перебор и жадные алгоритмы, поиск в глубину и в ширину, стохастический поиск.
Задача тематического моделирования: вероятностная тематическая модель, униграммная модель.
Тематические модели PLSA и LDA: вероятностная латентная семантическая модель, латентное размещения Дирихле, эмпирические оценки качества тематических моделей.
Робастная вероятностная тематическая модель: модель с фоновой и шумовой компонентами, EM-алгоритм для робастной модели, разреженность робастной модели.