Algorithms of the Intelligent Web

✍ Scribed by Marmanis, Haralambos;Babenko, Dmitry

Publisher: Manning Publications
Year: 2009
Tongue: English
Leaves: 468
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

Web 2.0 applications provide a rich user experience, but the parts you can't see are just as important-and impressive. They use powerful techniques to process information intelligently and offer features based on patterns and relationships in data. Algorithms of the Intelligent Web shows readers how to use the same techniques employed by household names like Google Ad Sense, Netflix, and Amazon to transform raw data into actionable information.

Algorithms of the Intelligent Web is an example-driven blueprint for creating applications that collect, analyze, and act on the massive quantities of data users leave in their wake as they use the web. Readers learn to build Netflix-style recommendation engines, and how to apply the same techniques to social-networking sites. See how click-trace analysis can result in smarter ad rotations. All the examples are designed both to be reused and to illustrate a general technique- an algorithm-that applies to a broad range of scenarios.

As they work through the book's many examples, readers learn about recommendation systems, search and ranking, automatic grouping of similar objects, classification of objects, forecasting models, and autonomous agents. They also become familiar with a large number of open-source libraries and SDKs, and freely available APIs from the hottest sites on the internet, such as Facebook, Google, eBay, and Yahoo.

Purchase of the print book comes with an offer of a free PDF, ePub, and Kindle eBook from Manning. Also available is all code from the book.

✦ Table of Contents

Оглавление......Page 6
Предисловие......Page 12
Благодарности......Page 15
Об этой книге......Page 17
Глава 1. Что такое интеллектуальный Интернет?......Page 24
1.1. Примеры интеллектуальных веб-приложений......Page 26
1.2. Базовые элементы интеллектуальных приложений......Page 27
1.3.1. Сайты социальных сетей......Page 30
1.3.2. Гибридные веб-приложения (мэшапы)......Page 32
1.3.3. Порталы......Page 33
1.3.4. Вики-сайты......Page 34
1.3.5. Сайты общего доступа к медиафайлам......Page 35
1.3.6. Онлайн-игры......Page 36
1.4.1. Анализ функциональности и данных......Page 37
1.4.2. Получение дополнительных данных из Интернета......Page 38
1.5. Машинное обучение, интеллектуальный анализ данных и так далее......Page 43
1.6. Восемь заблуждений насчет интеллектуальных приложений......Page 45
1.6.1. Заблуждение № 1: данные достоверны......Page 46
1.6.4. Заблуждение № 4: масштабируемость решения – не проблема......Page 47
1.6.7. Заблуждение № 7: чем сложнее модель, тем лучше......Page 48
1.7. Заключение......Page 49
1.8. Ссылки......Page 50
Глава 2. Поиск......Page 52
2.1. Поиск с применением библиотеки Lucene......Page 53
2.1.1. Программный код библиотеки Lucene......Page 55
2.1.2. Анализ основных этапов поиска......Page 62
2.2. Зачем нужен поиск вне индексов?......Page 66
2.3.1. Алгоритм PageRank......Page 68
2.3.2. Вычисление вектора PageRank......Page 70
2.3.3. alpha: эффект телепортации между веб-страницами......Page 72
2.3.4. Основные сведения о степенном методе......Page 74
2.3.5. Объединение оценок индексирования и оценок PageRank......Page 79
2.4.1. Первое знакомство с анализом экранных данных......Page 83
2.4.2. Применение наивного байесовского классификатора......Page 86
2.4.3. Объединение оценок индексирования Lucene, вектора PageRank и данных о переходах пользователя по ссылкам......Page 91
2.5. Ранжирование документов Word, PDF и других документов без ссылок......Page 95
2.5.1. Введение в алгоритм DocRank......Page 96
2.5.2. Внутренние механизмы алгоритма DocRank......Page 97
2.6. Проблемы масштабной реализации......Page 103
2.7. Получили ли вы то, что искали? Точность и выборка......Page 106
2.8. Заключение......Page 109
2.9. Сделать......Page 110
2.10. Ссылки......Page 113
Глава 3. Выработка предложений и рекомендаций......Page 114
3.1. Музыкальный интернет-магазин: основные понятия......Page 115
3.1.1. Понятия расстояния и сходства......Page 116
3.1.2. Подробнее о вычислении сходства......Page 121
3.1.3. Какую из формул вычисления сходства предпочесть?......Page 126
3.2. Как работают системы выработки рекомендаций?......Page 127
3.2.1. Рекомендации на основе сходства пользователей......Page 128
3.2.2. Рекомендации на основе сходства предметов......Page 139
3.2.3. Рекомендации на основе контента......Page 143
3.3. Выработка рекомендаций по друзьям, статьям и новостным сообщениям......Page 151
3.3.1. Знакомство с сайтом MyDiggSpace.com......Page 152
3.3.2. Нахождение друзей......Page 153
3.3.3. Внутренние механизмы класса DiggDelphi......Page 156
3.4.1. Введение в наборы данных о кинофильмах и рекомендателях......Page 162
3.4.2. Нормализация данных и коэффициенты корреляции......Page 166
3.5. Масштабная реализация и вопросы оценки......Page 172
3.6. Заключение......Page 174
3.7. Сделать......Page 175
3.8. Ссылки......Page 178
Глава 4. Кластеризация: объединение в группы......Page 180
4.1. Необходимость кластеризации......Page 181
4.1.1. Группы пользователей на веб-сайте (конкретный случай)......Page 182
4.1.2. Нахождение групп с помощью SQL-предложения order by......Page 184
4.1.3. Нахождение групп путем сортировки массива......Page 186
4.2. Обзор алгоритмов кластеризации......Page 189
4.2.1. Классификация алгоритмов кластеризации по структуре кластеров......Page 190
4.2.2. Классификация алгоритмов кластеризации по типу и структуре данных......Page 191
4.2.3. Классификация алгоритмов кластеризации по размеру обрабатываемых данных......Page 193
4.3.1. Дендрограмма: базовая структура данных кластера......Page 194
4.3.2. Знакомство с алгоритмами связей......Page 197
4.3.3. Алгоритм одной связи......Page 199
4.3.4. Алгоритм средней связи......Page 201
4.3.5. Алгоритм минимального остовного дерева......Page 204
4.4. Алгоритм k-средних......Page 207
4.4.1. Первое знакомство с алгоритмом k-средних......Page 208
4.4.2. Внутренние механизмы работы алгоритма k-средних......Page 209
4.5. Устойчивая кластеризация, использующая связи (Robust Clustering Using Links, ROCK)......Page 212
4.5.1. Введение в алгоритм ROCK......Page 213
4.5.2. Почему ROCK – это надежно?......Page 214
4.6.1. Первое знакомство с алгоритмами на основе плотности......Page 219
4.6.2. Внутренние механизмы алгоритма DBSCAN......Page 222
4.7.1. Вычислительная сложность......Page 227
4.7.2. Большая размерность......Page 229
4.8. Заключение......Page 230
4.9. Сделать......Page 232
4.10. Ссылки......Page 234
Глава 5. Классификация: размещение по принадлежности......Page 236
5.1. Необходимость классификации......Page 238
5.2. Обзор классификаторов......Page 242
5.2.1. Алгоритмы структурной классификации......Page 244
5.2.2. Статистические алгоритмы классификации......Page 246
5.2.3. Жизненный цикл классификатора......Page 247
5.3. Автоматическая категоризация почтовых сообщений и фильтрация спама......Page 249
5.3.1. Наивная байесовская классификация......Page 251
5.3.2. Классификация по правилам......Page 267
5.4. Обнаружение мошенничества с помощью нейронных сетей......Page 281
5.4.1. Сценарий выявления мошенничества в транзакционных данных......Page 282
5.4.2. Обзор нейронных сетей......Page 284
5.4.3. Детектор мошенничества на основе нейронной сети в действии......Page 286
5.4.4. Анатомия нейронной сети детектора мошенничества......Page 292
5.4.5. Базовый класс для создания универсальных нейронных сетей......Page 300
5.5. Можно ли доверять полученным результатам?......Page 306
5.6. Классификация очень больших наборов данных......Page 311
5.7. Заключение......Page 314
5.8. Сделать......Page 316
5.9. Ссылки......Page 321
Глава 6. Объединение классификаторов......Page 324
6.1. Кредитоспособность: анализ примера объединения классификаторов......Page 326
6.1.1. Краткое описание данных......Page 328
6.1.2. Создание искусственных данных для реальных задач......Page 333
6.2.1. Основы применения наивного байесовского классификатора......Page 338
6.2.2. Основы применения дерева решений......Page 341
6.2.3. Основы применения нейронных сетей......Page 344
6.3. Сравнение классификаторов в применении к одним и тем же данным......Page 347
6.3.1. Тест Макнемара......Page 348
6.3.2. Тест на разность пропорций......Page 351
6.3.3. Q-тест Кохрана и F-тест......Page 353
6.4. Bagging – самонастраиваемое объединение......Page 356
6.4.1. Bagging-классификатор в действии......Page 358
6.4.2. Заглянем внутрь bagging-классификатора......Page 360
6.4.3. Ансамбли классификаторов......Page 363
6.5. Boosting – итеративный подход к улучшению......Page 366
6.5.1. Boosting-классификатор в действии......Page 367
6.5.2. Заглянем внутрь boosting-классификатора......Page 369
6.6. Заключение......Page 374
6.7. Сделать......Page 376
6.8. Ссылки......Page 381
Глава 7. Все вместе: интеллектуальный новостной портал......Page 382
7.1. Обзор функциональности......Page 384
7.2.1. На старт, внимание, краулинг!......Page 386
7.2.2. Обзор предварительных условий поиска......Page 387
7.2.3. Используемый по умолчанию набор извлеченных и обработанных новостных сообщений......Page 390
7.3. Поиск новостных сообщений......Page 392
7.4. Распределение по новостным категориям......Page 395
7.4.1. Порядок имеет значение!......Page 396
7.4.2. Классификация с помощью класса NewsProcessor......Page 401
7.4.3. Знакомьтесь: классификатор......Page 403
7.4.4. Стратегия классификации: выход за пределы низкоуровневой категоризации......Page 406
7.5. Формирование групп новостей с помощью класса NewsProcessor......Page 409
7.5.1. Кластеризация обычных новостных сообщений......Page 410
7.5.2. Кластеризация новостных сообщений в категории новостей......Page 415
7.6. Динамический контент на базе пользовательских оценок......Page 419
7.7. Заключение......Page 422
7.8. Сделать......Page 423
7.9. Ссылки......Page 429
A.1. Что такое BeanShell?......Page 430
A.3. Выполнение BeanShell......Page 431
A.4. Ссылки......Page 432
B.1. Обзор компонентов поискового робота......Page 433
B.1.1. Этапы краулинга......Page 434
B.1. 2. Наш простой поисковый робот......Page 435
B.1.3 Поисковые роботы с открытым исходным кодом......Page 436
B.2. Ссылки......Page 437
C.1. Векторы и матрицы......Page 438
C.2. Измерение расстояний......Page 439
C.3. Развитые матричные методы......Page 441
C.4. Ссылки......Page 442
Приложение D. Обработка естественных языков......Page 443
Приложение E. Нейронные сети......Page 446
Алфавитный указатель......Page 449

✦ Subjects

Computer Science;Programming;Science;Computers;Technology;Artificial Intelligence;Algorithms;Software;Internet;Web;Coding

📜 SIMILAR VOLUMES

Algorithms of the Intelligent Web

📁 Algorithms of the Intelligent Web

✍ Haralambos Marmanis, Dmitry Babenko 📂 Library 📅 2009 🏛 Manning 🌐 English

This books is not a "heavy" Artificial Intelligence tome. Instead it is a thought-provoking, instructive and very enjoyable read. It covers many of the everyday problems that web applications face: searching, clustering, relevance, etc.. In general, problems involving large quantities of typicall

Algorithms of the Intelligent Web

📁 Algorithms of the Intelligent Web

✍ Haralambos Marmanis, Dmitry Babenko 📂 Library 📅 2009 🏛 Manning Publications 🌐 English

Algorithms of the intelligent Web

📁 Algorithms of the intelligent Web

✍ Haralambos Marmanis; Dmitry Babenko 📂 Library 📅 2009 🏛 Manning 🌐 English

Algorithms of the intelligent Web

📁 Algorithms of the intelligent Web

✍ Haralambos Marmanis; Dmitry Babenko 📂 Library 📅 2009 🏛 Manning 🌐 English

Algorithms of the Intelligent Web

📁 Algorithms of the Intelligent Web

✍ Doug McIlwraith; 📂 Library 📅 2023 🏛 Simon & Schuster 🌐 English

Algorithms of the Intelligent Web, Second Edition teaches the most important approaches to algorithmic web data analysis, enabling you to create your own machine learning applications that crunch, munge, and wrangle data collected from users, web applications, sensors and website logs. About the

Algorithms of the intelligent Web

📁 Algorithms of the intelligent Web

✍ Haralambos Marmanis, Dmitry Babenko 📂 Library 📅 2009 🏛 Manning 🌐 English