Data Mining: Foundations and Intelligent Paradigms: Volume 1: Clustering, Association and Classification

✍ Scribed by Dawn E. Holmes (editor), Lakhmi C. Jain (editor)

Publisher: Springer
Year: 2011
Tongue: English
Leaves: 341
Series: Intelligent Systems Reference Library; 23
Category: Library

No coin nor oath required. For personal study only.

✦ Synopsis

There are many invaluable books available on data mining theory and applications. However, in compiling a volume titled “DATA MINING: Foundations and Intelligent Paradigms: Volume 1: Clustering, Association and Classification” we wish to introduce some of the latest developments to a broad audience of both specialists and non-specialists in this field.

✦ Table of Contents

Title
Preface
Contents
Data Mining Techniques in Clustering, Association and
Classification
Introduction
Data
Knowledge
Clustering
Association
Classification
Data Mining
Methods and Algorithms
Applications
Chapters Included in the Book
Conclusion
References
Clustering Analysis in Large Graphs with Rich
Attributes
Introduction
General Issues in Graph Clustering
Graph Partition Techniques
Basic Preparation for Graph Clustering
Graph Clustering with SA-Cluster
Graph Clustering Based on Structural/Attribute Similarities
The Incremental Algorithm
Optimization Techniques
The Storage Cost and Optimization
Matrix Computation Optimization
Parallelism
Conclusion
References
Temporal Data Mining: Similarity-Profiled
Association Pattern
Introduction
Similarity-Profiled Temporal Association Pattern
Problem Statement
Interest Measure
Mining Algorithm
Envelope of Support Time Sequence
Lower Bounding Distance
Monotonicity Property of Upper Lower-Bounding Distance
SPAMINE Algorithm
Experimental Evaluation
Related Work
Conclusion
References
Bayesian Networks with Imprecise Probabilities:
Theory and Application to Classification
Introduction
Bayesian Networks
Credal Sets
Definition
Basic Operations with Credal Sets
Credal Sets from Probability Intervals
Learning Credal Sets from Data
Credal Networks
Credal Network Definition and Strong Extension
Non-separately Specified Credal Networks
Computing with Credal Networks
Credal Networks Updating
Algorithms for Credal Networks Updating
Modelling and Updating with Missing Data
An Application: Assessing Environmental Risk by Credal Networks
Debris Flows
The Credal Network
Credal Classifiers
Naive Bayes
Mathematical Derivation
Naive Credal Classifier (NCC)
Comparing NBC and NCC in Texture Recognition
Treatment of Missing Data
Metrics for Credal Classifiers
Tree-Augmented Naive Bayes (TAN)
Variants of the Imprecise Dirichlet Model: Local and Global IDM
Credal TAN
Further Credal Classifiers
Lazy NCC (LNCC)
Credal Model Averaging (CMA)
Open Source Software
Conclusions
References
Hierarchical Clustering for Finding Symmetries
and Other Patterns in Massive, High Dimensional Datasets
Introduction: Hierarchy and Other Symmetries in Data Analysis
About This Article
A Brief Introduction to Hierarchical Clustering
A Brief Introduction to p-Adic Numbers
Brief Discussion of p-Adic and m-Adic Numbers
Ultrametric Topology
Ultrametric Space for Representing Hierarchy
Some Geometrical Properties of Ultrametric Spaces
Ultrametric Matrices and Their Properties
Clustering through Matrix Row and Column Permutation
Other Miscellaneous Symmetries
Generalized Ultrametric
Link with Formal Concept Analysis
Applications of Generalized Ultrametrics
Example of Application: Chemical Database Matching
Hierarchy in a p-Adic Number System
p-Adic Encoding of a Dendrogram
p-Adic Distance on a Dendrogram
Scale-Related Symmetry
Tree Symmetries through the Wreath Product Group
Wreath Product Group Corresponding to a Hierarchical Clustering
Wreath Product Invariance
Example of Wreath Product Invariance: Haar Wavelet Transform of a Dendrogram
Remarkable Symmetries in Very High Dimensional Spaces
Application to Very High Frequency Data Analysis: Segmenting a Financial Signal
Conclusions
References
Randomized Algorithm of Finding the True
Number of Clusters Based on Chebychev Polynomial Approximation
Introduction
Clustering
Clustering Methods
Stability Based Methods
Geometrical Cluster Validation Criteria
Randomized Algorithm
Examples
Conclusion
References
Bregman Bubble Clustering: A Robust
Framework for Mining Dense Clusters
Introduction
Background
Partitional Clustering Using Bregman Divergences
Density-Based and Mode Seeking Approaches to Clustering
Iterative Relocation Algorithms for Finding a Single Dense Region
Clustering a Subset of Data into Multiple Overlapping Clusters
Bregman Bubble Clustering
Cost Function
Problem Definition
Bregmanian Balls and Bregman Bubbles
BBC-S: Bregman Bubble Clustering with Fixed Clustering Size
BBC-Q: Dual Formulation of Bregman Bubble Clustering with Fixed Cost
Soft Bregman Bubble Clustering (Soft BBC)
Bregman Soft Clustering
Motivations for Developing Soft BBC
Generative Model
Soft BBC EM Algorithm
Choosing an Appropriate p0
Improving Local Search: Pressurization
Bregman Bubble Pressure
Motivation
BBC-Press
Soft BBC-Press
Pressurization vs. Deterministic Annealing
A Unified Framework
Unifying Soft Bregman Bubble and Bregman Bubble Clustering
Other Unifications
Example: Bregman Bubble Clustering with Gaussians
2 Is Fixed
2 Is Optimized
``Flavors" of BBC for Gaussians
Mixture-6: An Alternative to BBC Using a Gaussian Background
Extending BBOCC & BBC to Pearson Distance and Cosine Similarity
Pearson Correlation and Pearson Distance
Extension to Cosine Similarity
Pearson Distance vs. (1-Cosine Similarity) vs. Other Bregman Divergences – Which One to Use Where?
Seeding BBC and Determining k Using Density Gradient Enumeration (DGRADE)
Background
DGRADE Algorithm
Selecting sone: The Smoothing Parameter for DGRADE
Experiments
Overview
Datasets
Evaluation Methodology
Results for BBC with Pressurization
Results on BBC with DGRADE
Concluding Remarks
References
DepMiner: A Method and a System for the Extraction of
Significant Dependencies
Introduction
Related Work
Estimation of the Referential Probability
Setting a Threshold for
Embedding n in Algorithms
Determination of the Itemsets Minimum Support Threshold
System Description
Experimental Evaluation
Conclusions
References
Integration of Dataset Scans in Processing Sets of
Frequent Itemset Queries
Introduction
Frequent Itemset Mining and Apriori Algorithm
Basic Definitions and Problem Statement
Algorithm Apriori
Frequent Itemset Queries – State of the Art
Frequent Itemset Queries
Constraint-Based Frequent Itemset Mining
Reusing Results of Previous Frequent Itemset Queries
Optimizing Sets of Frequent Itemset Queries
Basic Definitions
Problem Formulation
Related Work on Multi-query Optimization
Common Counting
Basic Algorithm
Motivation for Query Set Partitioning
Key Issues Regarding Query Set Partitioning
Frequent Itemset Query Set Partitioning by Hypergraph
Partitioning
Data Sharing Hypergraph
Hypergraph Partitioning Problem Formulation
Computation Complexity of the Problem
Related Work on Hypergraph Partitioning
Query Set Partitioning Algorithms
CCRecursive
CCFull
CCCoarsening
CCAgglomerative
CCAgglomerativeNoise
CCGreedy
CCSemiGreedy
Experimental Results
Comparison of Basic Dedicated Algorithms
Comparison of Greedy Approaches with the Best Dedicated Algorithms
Review of Other Methods of Processing Sets of Frequent Itemset
Queries
Conclusions
References
Text Clustering with Named Entities: A Model,
Experimentation and Realization
Introduction
An Entity-Keyword Multi-Vector Space Model
Measures of Clustering Quality
Hard Clustering Experiments
Fuzzy Clustering Experiments
Text Clustering in VN-KIM Search
Conclusion
References
Regional Association Rule Mining and Scoping
from Spatial Data
Introduction
Related Work
Hot-Spot Discovery
Spatial Association Rule Mining
The Framework for Regional Association Rule Mining and Scoping
Region Discovery
Problem Formulation
Measure of Interestingness
Algorithms
Region Discovery
Generation of Regional Association Rules
Arsenic Regional Association Rule Mining and Scoping in the Texas Water Supply
Data Collection and Data Preprocessing
Region Discovery for Arsenic Hot/Cold Spots
Regional Association Rule Mining
Region Discovery for Regional Association Rule Scoping
Summary
References
Learning from Imbalanced Data: Evaluation
Matters
Motivation and Significance
Prior Work and Limitations
Experiments
Datasets
Empirical Analysis
Discussion and Recommendations
Comparisons of Classifiers
Towards Parts-Per-Million
Recommendations
Summary
References
Author Index

📜 SIMILAR VOLUMES

Data Mining: Foundations and Intelligent

📁 Data Mining: Foundations and Intelligent Paradigms: Volume 1: Clustering, Association and Classification

✍ Dawn E. Holmes, Jeffrey Tweedale (auth.), Dawn E. Holmes, Lakhmi C. Jain (eds.) 📂 Library 📅 2012 🏛 Springer-Verlag Berlin Heidelberg 🌐 English

There are many invaluable books available on data mining theory and applications. However, in compiling a volume titled “DATA MINING: Foundations and Intelligent Paradigms: Volume 1: Clustering, Association and Classification” we wish to introduce some of the latest developments to a broad aud

Data Mining: Foundations and Intelligent

📁 Data Mining: Foundations and Intelligent Paradigms: Volume 3: Medical, Health, Social, Biological and other Applications

✍ Dawn E. Holmes, Jeffrey W. Tweedale (auth.), Dawn E. Holmes, Lakhmi C Jain (eds. 📂 Library 📅 2012 🏛 Springer-Verlag Berlin Heidelberg 🌐 English

There are many invaluable books available on data mining theory and applications. However, in compiling a volume titled “DATA MINING: Foundations and Intelligent Paradigms: Volume 3: Medical, Health, Social, Biological and other Applications” we wish to introduce some of the latest development

Data Mining: Foundations and Intelligent

📁 Data Mining: Foundations and Intelligent Paradigms: Volume 2: Statistical, Bayesian, Time Series and other Theoretical Aspects

✍ Dawn E. Holmes, Lakhmi C. Jain (editors) 📂 Library 📅 2011 🏛 Springer 🌐 English

There are many invaluable books available on data mining theory and applications. However, in compiling a volume titled “DATA MINING: Foundations and Intelligent Paradigms: Volume 2: Core Topics including Statistical, Time-Series and Bayesian Analysis” we wish to introduce some of the latest develop

Classification, Clustering, and Data Min

📁 Classification, Clustering, and Data Mining Applications

✍ David Banks, Leanna House, Frederick R. McMorris, Phipps Arabie, Wolfgang Gaul 📂 Library 📅 2004 🏛 Springer 🌐 English

This volume describes new methods with special emphasis on classification and cluster analysis. These methods are applied to problems in information retrieval, phylogeny, medical diagnosis, microarrays, and other active research areas.

Data Mining: Foundations and Intelligent

📁 Data Mining: Foundations and Intelligent Paradigms: Volume 3: Medical, Health, Social, Biological and other Applications (Intelligent Systems Reference Library, 25)

✍ Dawn E. Holmes (editor), Lakhmi C Jain (editor) 📂 Library 📅 2012 🏛 Springer 🌐 English

There are many invaluable books available on data mining theory and applications. However, in compiling a volume titled “DATA MINING: Foundations and Intelligent Paradigms: Volume 3: Medical, Health, Social, Biological and other Applications” we wish to introduce some of the latest developm

Data Mining: Foundations and Intelligent

📁 Data Mining: Foundations and Intelligent Paradigms: VOLUME 2: Statistical, Bayesian, Time Series and other Theoretical Aspects (Intelligent Systems Reference Library, 24)

✍ Dawn E. Holmes (editor), Lakhmi C Jain (editor) 📂 Library 📅 2011 🏛 Springer 🌐 English

There are many invaluable books available on data mining theory and applications. However, in compiling a volume titled “DATA MINING: Foundations and Intelligent Paradigms: Volume 2: Core Topics including Statistical, Time-Series and Bayesian Analysis” we wish to introduce some of the lates