Предисловие ко второму изданию 18
Предисловие к первому изданию 21
Глава 1. Введение 23
Пример 1. Спам по электронной почте 24
Пример 2. Рак простаты 24
Пример 3. Распознавание рукописных цифр 26
Пример 4. Микрочипы экспрессии ДНК 26
Для кого предназначена книга 27
Как организована эта книга 29
Веб-сайт книги 30
Примечание для преподавателей 30
Глава 2. Обзор методов обучения с учителем 31
2.1. Введение 31
2.2. Виды переменных и терминология 31
2.3. Два простых подхода к предсказанию: методы наименьших
квадратов и ближайших соседей 33
2.3.1. Линейные модели и метод наименьших квадратов 33
2.3.2. Метод ближайших соседей 36
2.3.3. От метода наименьших квадратов к методу ближайших соседей 39
2.4. Теория статистических решений 40
2.5. Локальные методы в больших измерениях 45
2.6. Статистические модели, обучение с учителем и приближение функций 50
2.6.1. Статистическая модель для совместного распределения Pr (X, Y) 51
2.6.2. Обучение с учителем 52
2.6.3. Аппроксимация функций 52
2.7. Структурированные модели регрессии 55
2.7.1. Сложность задачи 55
2.8. Классы ограниченных оценок 57
2.8.1. Штрафование негладкости и байесовские методы 57
2.8.2. Ядерные методы и локальная регрессия 58
2.8.3. Базисные функции и методы словарей 59
2.9. Выбор модели и компромисс между смещением и дисперсией 60
Библиографические заметки 62
Упражнения 62
Глава 3. Линейные методы регрессии 65
3.1. Введение 65
3.2. Модели линейной регрессии и наименьших квадратов 65
3.2.1. Пример: рак предстательной железы 71
3.2.2. Теорема Гаусса–Маркова 73
3.2.3. Множественная регрессия из простой одномерной регрессии 75
3.2.4. Множественные отклики 78
3.3. Выбор подмножества 79
3.3.1. Выбор наилучшего подмножества 80
3.3.2. Прямой и обратный выбор подмножества 81
3.3.3. Прямая ступенчатая регрессия 83
3.3.4. Пример данных о раке предстательной железы (продолжение) 83
3.4. Методы сжатия 86
3.4.1. Гребневая регрессия 86
3.4.2. Метод LASSO 91
3.4.3. Обсуждение: выбор наилучшего подмножества, гребневая
регрессия и LASSO 92
3.4.4. Регрессия наименьших углов 96
3.5. Методы, использующие направления, определяемые
по входным данным 102
3.5.1. Регрессия на главные компоненты 103
3.5.2. Метод частичных наименьших квадратов 104
3.6. Обсуждение: сравнение методов выбора и сжатия 106
3.7. Выбор и сжатие множественных откликов 108
3.8. Подробнее об алгоритме LASSO и его модификациях 110
3.8.1. Последовательная прямая ступенчатая регрессия 110
3.8.2. Кусочно-линейные алгоритмы 113
3.8.3. Селектор Данцига 113
3.8.4. Групповой метод LASSO 114
3.8.5. Другие свойства метода LASSO 115
3.8.6. Покоординатная оптимизация траекторий 117
3.9. Вычислительные вопросы 118
Библиографические заметки 118
Упражнения 118
Глава 4. Линейные методы классификации 125
4.1. Введение 125
4.2. Линейная регрессия индикаторной матрицы 126
4.3. Линейный дискриминантный анализ 130
4.3.1. Регуляризованный дискриминантный анализ 136
4.3.2. Вычисления в методе LDA 137
4.3.3. Линейный дискриминантный анализ пониженного ранга 138
4.4. Логистическая регрессия 142
4.4.1. Обучение моделей логистической регрессии 144
4.4.2. Пример: ишемическая болезнь сердца в Южной Африке 146
4.4.3. Квадратичные аппроксимации и вывод 149
4.4.4. Регуляризованная логистическая регрессия L1 150
4.4.5. Логистическая регрессия или LDA? 151
4.5. Разделяющие гиперплоскости 153
4.5.1. Алгоритм обучения персептрона Розенблатта 155
4.5.2. Оптимальное разделение гиперплоскостей 156
Библиографические заметки 159
Упражнения 159
Глава 5. Разложение по базису и регуляризация 163
5.1. Введение 163
5.2. Кусочно-полиномальные функции и сплайны 165
5.2.1. Естественные кубические сплайны 168
5.2.2. Пример: сердечно-сосудистые заболевания в Южной Африке
(продолжение) 169
5.2.3. Пример: распознавание фонем 172
5.3. Фильтрация и выбор признаков 174
5.4. Сглаживание сплайнов 174
5.4.1. Степени свободы и матрицы сглаживания 176
5.5. Автоматический выбор параметров сглаживания 181
5.5.1. Фиксация числа степеней свободы 181
5.5.2. Компромисс между смещением и дисперсией 181
5.6. Непараметрическая логистическая регрессия 184
5.7. Многомерные сплайны 185
5.8. Регуляризация и гильбертовы пространства
с воспроизводящим ядром 191
5.8.1. Пространства функций, генерируемых ядрами 191
5.8.2. Примеры пространств RKHS 193
Полиномиальная регрессия со штрафом 194
Гауссовы радиальные базисные функции 195
Классификаторы опорных векторов 197
5.9. Вейвлет-сглаживание 197
5.9.1. Вейвлет-базисы и вейвлет-преобразование 199
5.9.2. Адаптивная вейвлет-фильтрация 202
Библиографические заметки 204
Упражнения 205
Приложение: расчеты для сплайнов 209
B-сплайны 209
Расчеты для сглаживания сплайнов 211
Глава 6. Ядерные методы сглаживания 213
6.1. Сглаживатели с одномерным ядром 213
6.1.1. Локальная линейная регрессия 216
6.1.2. Локальная полиномиальная регрессия 219
6.2. Выбор ширины ядра 220
6.3. Локальная регрессия в пространстве p 222
6.4. Модели структурированной локальной регрессии в пространстве p 224
6.4.1. Структурированные ядра 225
6.4.2. Функции структурированной регрессии 225
6.5. Локальное правдоподобие и другие модели 226
6.6. Ядерная оценка плотности и классификация 230
6.6.1. Оценка плотности ядра 230
6.6.2. Классификация с помощью ядерной плотности 231
6.6.3. Наивный байесовский классификатор 233
6.7. Радиальные базисные функции и ядра 234
6.8. Модели смесей для оценки плотности и классификации 236
6.9. Вычислительные вопросы 238
Библиографические заметки 239
Упражнения 239
Глава 7. Оценивание и выбор моделей 243
7.1. Введение 243
7.2. Смещение, дисперсия и сложность модели 243
7.3. Разложение на смещение и дисперсию 247
7.3.1. Пример: компромисс смещения 249
7.4. Оптимизм, связанный с уровнем ошибок обучения 251
7.5. Оценки внутривыборочной ошибки предсказания 254
7.6. Эффективное число параметров 255
7.7. Байесовский подход и критерий BIC 257
7.8. Минимальная длина описания 259
7.9. Размерность Вапника–Червоненкиса 261
7.9.1. Пример (продолжение) 264
7.10. Перекрестная проверка 265
7.10.1. К-блочная перекрестная проверка 266
7.10.2. Неправильный и правильный способ перекрестной проверки 269
7.10.3. Перекрестная проверка действительно работает? 271
7.11. Методы бутстрэпа 274
7.11.1. Пример (продолжение) 277
7.12. Условная или ожидаемая ошибка тестирования? 279
Библиографические заметки 280
Упражнения 282
Глава 8. Вывод моделей и усреднение 285
8.1. Введение 285
8.2. Методы бутстрэп и максимального правдоподобия 285
8.2.1. Пример сглаживания 285
8.2.2. Вывод методом максимального правдоподобия 288
8.2.3. Сравнение методов бутстрэп и максимального правдоподобия 291
8.3. Байесовские методы 291
8.4. Связь между бутстрэп-методом и байесовским выводом 294
8.5. EM-алгоритм 296
8.5.1. Модель двухкомпонентной смеси 296
8.5.2. EM-алгоритм в целом 300
8.5.3. EM-алгоритм как процедура совместной максимизации 301
8.6. Метод Монте-Карло по схеме марковских цепей для выбора из
апостериорного распределения 302
8.7. Баггинг 306
8.7.1. Пример: деревья с искусственными данными 308
8.8. Усреднение и стекинг моделей 312
8.9. Стохастический поиск: бампинг 315
Библиографические заметки 317
Упражнения 317
Глава 9. Аддитивные модели, деревья и связанные
с ними методы 319
9.1. Обобщенные аддитивные модели 319
9.1.1. Аппроксимация аддитивных моделей 321
9.1.2. Пример: аддитивная логистическая регрессия 323
9.1.3. Резюме 328
9.2. Древовидные методы 329
9.2.1. История вопроса 329
9.2.2. Деревья регрессии 331
9.2.3. Деревья классификации 333
9.2.4. Другие проблемы 334
Недостающие значения предиктора 335
9.2.5. Пример спама (продолжение) 337
9.3. PRIM: поиск пиков 342
9.3.1. Пример спама (продолжение) 345
9.4. MARS: многомерные адаптивные регрессионные сплайны 346
9.4.1. Пример о спаме (продолжение) 350
9.4.2. Пример (смоделированные данные) 351
9.4.3. Другие задачи 352
Смешанные входные переменные 353
9.5. Иерархическое смешение мнений экспертов 354
9.6. Отсутствующие данные 357
9.7. Вычислительные вопросы 358
Библиографические заметки 359
Упражнения 359
Глава 10. Бустинг и аддитивные деревья 363
10.1. Методы бустинга 363
10.1.1. Краткое содержание этой главы 366
10.2. Аппроксимация аддитивной модели с помощью бустинга 367
10.3. Прямое ступенчатое аддитивное моделирование 368
10.4. Экспоненциальные потери и AdaBoost 369
10.5. Почему используются экспоненциальные функции потерь 371
10.6. Функции потери и робастность 372
Надежные функции потерь для классификации 372
10.7. Стандартные процедуры для интеллектуального анализа данных 376
10.8. Пример: данные о спаме 379
10.9. Бустинг деревьев 382
10.10. Численная оптимизация с помощью градиентного бустинга 384
10.10.2. Градиентный бустинг 385
10.10.3. Реализация градиентного бустинга 387
10.11. Правильный размер деревьев для бустинга 388
10.12. Регуляризация 391
10.12.1. Сжатие 391
10.12.2. Подвыборка 393
10.13. Интерпретация 393
10.13.1. Относительная важность предикторов 393
10.13.2. Графики частичной зависимости 395
10.14. Примеры 397
10.14.1. Рынок жилья в Калифорнии 397
10.14.2. Новозеландская рыба 401
10.14.3. Демографические данные 406
Библиографические заметки 408
Упражнения 410
Глава 11. Нейронные сети 415
11.1. Введение 415
11.2. Метод регрессионного поиска проекции 415
11.3. Нейронные сети 418
11.4. Обучение нейронных сетей 421
11.5. Некоторые проблемы обучения нейронных сетей 423
11.5.1. Начальные значения 423
11.5.2. Переобучение 424
11.5.3. Масштабирование входных данных 426
11.5.4. Количество скрытых элементов и слоев 426
11.5.5. Несколько минимумов 427
11.6. Пример: искусственные данные 427
11.7. Пример: данные о почтовом индексе 430
11.8. Обсуждение 434
11.9. Байесовские нейронные сети и конкурс NIPS 2003 435
11.9.1. Байесовский подход, бустинг и баггинг 436
11.9.2. Сравнение эффективности 438
11.10. Вычислительные вопросы 441
Библиографические заметки 441
Упражнения 442
Глава 12. Метод опорных векторов и гибкие дискриминанты 445
12.1. Введение 445
12.2. Классификатор опорных векторов 445
12.2.1. Вычисление классификатора опорных векторов 447
12.2.2. Пример о смеси (продолжение) 449
12.3. Машины и ядра опорных векторов 449
12.3.1. Вычисление SVM для классификации 451
12.3.2. SVM как метод штрафа 452
12.3.3. Оценка функций и воспроизводящие ядра 456
12.3.4. SVM и проклятие размерности 457
12.3.5. Алгоритм поиска пути для классификатора SVM 460
12.3.6. Метод опорных векторов для регрессии 462
12.3.7. Регрессия и ядра 464
12.3.8. Обсуждение 465
12.4. Обобщающий линейный дискриминантный анализ 466
12.5. Гибкий дискриминантный анализ 468
12.5.1. Вычисление оценок FDA 472
12.6. Дискриминантный анализ со штрафами 474
12.7. Смешанный дискриминантный анализ 475
12.7.1. Пример: данные о форме волны 479
Вычислительные вопросы 483
Библиографические заметки 483
Eпражнения 483
Глава 13. Методы прототипов и ближайших соседей 487
13.1. Введение 487
13.2. Методы прототипов 487
13.2.1. Кластеризация с помощью метода k-средних 488
13.1.2. Квантование обучающих векторов 490
13.2.3. Смеси нормальных распределений 490
13.3. Классификаторы по методу ближайших соседей 491
13.3.1. Пример: сравнительное исследование 496
13.3.2. Пример: метод k ближайших соседей и классификация
сцен на изображениях 497
13.3.3. Инвариантные метрики и касательное расстояние 499
13.4. Адаптивные методы ближайшего соседа 503
13.4.1. Пример 505
13.4.2. Сокращение глобальной размерности
для ближайших соседей 506
13.5. Вычислительные вопросы 508
Библиографические заметки 509
Упражнения 509
Глава 14. Обучение без учителя 513
14.1. Введение 513
14.2. Ассоциативные правила 515
14.2.1. Анализ рыночной корзины 516
14.2.2. Алгоритм Apriori 517
14.2.3. Пример: анализ рыночной корзины 520
14.2.4. Сведение задачи обучения без учителя к задаче обучения
с учителем 523
14.2.5. Обобщенные ассоциативные правила 525
14.2.6. Выбор метода обучения с учителем 527
14.2.7. Пример: анализ рыночной корзины (продолжение) 528
14.3. Кластерный анализ 530
14.3.1. Матрицы близости 531
14.3.2 Различия, основанные на атрибутах 532
14.3.3. Различие между объектами 533
14.3.4. Алгоритмы кластеризации 535
14.3.5. Комбинаторные алгоритмы 536
14.3.6. Алгоритм k-средних 538
14.3.7. Смеси нормальных распределений как мягкий вариант
алгоритма кластеризации k-средних 539
14.3.8. Пример: данные микрочипа опухоли человека 540
14.3.9. Квантование вектора 542
14.3.10. Метод K медоидов 544
14.3.11. Практические вопросы 547
14.3.12. Иерархическая кластеризация 548
14.4. Самоорганизующиеся карты 557
14.5. Главные компоненты, кривые и поверхности 563
14.5.1. Главные компоненты 563
14.5.2. Главные кривые и поверхности 570
14.5.3. Спектральная кластеризация 573
14.5.4. Ядерные главные компоненты 575
14.5.5. Разреженные главные компоненты 579
14.6. Неотрицательная матричная факторизация 581
14.6.1. Анализ архетипов 584
14.7. Метод независимых компонентов и разведочный поиск наилучшей
проекции 586
14.7.1. Скрытые переменные и факторный анализ 587
14.7.2. Анализ независимых компонентов 589
14.7.3. Разведочный поиск наилучшей проекции 594
14.7.4. Прямой подход к методу ICA 596
14.8. Многомерное шкалирование 600
14.9. Нелинейное уменьшение размерности и локальное многомерное
шкалирование 602
14.10. Алгоритм Google PageRank 606
Библиографические заметки 608
Упражнения 609
Глава 15. Случайные леса 617
15.1. Введение 617
15.2. Определение случайных лесов 617
15.3. Детали случайных лесов 621
15.3.1. Выборки, не вошедшие в набор 622
15.3.2. Значимость переменной 623
15.3.3. Диаграмма близости 623
15.3.4. Случайные леса и переобучение 625
15.4. Анализ случайных лесов 627
15.4.1. Дисперсия и эффект декорреляции 627
15.4.2. Смещение 629
15.4.3. Адаптивный метод ближайших соседей 631
Библиографические заметки 632
Упражнения 632
Глава 16. Ансамблевые методы обучения 635
16.1. Введение 635
16.2. Бустинг и пути регуляризации 636
16.2.1. Регрессия со штрафом 637
16.2.2. Ставка на разреженность 640
16.2.3. Пути регуляризации, переоснащение и поля 643
16.3. Обучение ансамблей 647
16.3.1. Обучение хорошего ансамбля 648
16.3.2. Ансамбли правил 651
Библиографические заметки 654
Упражнения 654
Глава 17. Неориентированные графовые модели 655
17.1. Введение 655
17.2. Марковские графы и их свойства 656
17.3. Неориентированные графовые модели
для непрерывных переменных 660
17.3.1. Оценка параметров при известной структуре графа 661
17.3.2. Оценка структуры графа 664
17.4. Неориентированные графовые модели для дискретных переменных 668
17.4.1. Оценка параметров при известной структуре графа 669
17.4.2. Скрытые узлы 671
17.4.3. Оценка структуры графа 672
17.4.4. Ограниченные машины Больцмана 673
Библиографические заметки 676
Упражнения 676
Глава 18. Задачи высокой размерности: p N 681
18.1. Когда р намного больше, чем N 681
18.2. Диагональный линейный дискриминантный анализ
и классификация по ближайшему сжатому центроиду 683
18.3. Линейные классификаторы с квадратичной регуляризацией 686
18.3.1. Регуляризованный дискриминантный анализ 688
18.3.2. Логистическая регрессия с квадратичной регуляризацией 689
18.3.3. Классификатор опорных векторов 690
18.3.4. Выбор признаков 691
18.3.5. Вычислительные приемы при p  N 691
18.4. Линейные классификаторы с L1-регуляризацией 693
18.4.1. Применение метода для масс-спектрометрия белков 697
18.4.2. Метод склеенного LASSO для функциональных данных 699
18.5. Классификация, когда признаки недоступны 701
18.5.1. Пример: строковые ядра и классификация белков 701
18.5.2. Классификация и другие модели с использованием ядер
скалярных произведений и попарных расстояний 703
18.5.3. Пример: классификация аннотаций 705
18.6. Регрессия в пространствах большой размерности: метод главных
компонентов с учителем 707
18.6.1. Связь с моделированием латентных переменных 712
18.6.2. Связь с методом частичных наименьших квадратов 713
18.6.3. Предобуславливание для выбора признаков 715
18.7. Оценка признаков и проблема множественного тестирования 717
18.7.1. Доля ошибочных отклонений 720
18.7.2. Асимметричные точки отсечения и процедура SAM 723
18.7.3. Байесовская интерпретация FDR 725
18.8. Библиографические заметки 726
Упражнения 727
Библиография 733
Предметный указатель 755