Statistics and Machine Learning Toolbox™ offre funzioni e applicazioni per descrivere, analizzare e modellare i dati. È possibile utilizzare la statistica descrittiva, le visualizzazioni e il clustering per l’analisi esplorativa dei dati, eseguire il fitting delle distribuzioni di probabilità ai dati, generare numeri casuali per le simulazioni Monte Carlo ed eseguire test di ipotesi. Gli algoritmi di classificazione e regressione consentono di effettuare deduzioni a partire dai dati e di costruire modelli predittivi sia in modo interattivo, utilizzando le applicazioni Regression Learner e Classification Learner, sia in modo programmatico, utilizzando AutoML.
Per l’estrazione delle feature e l’analisi dei dati multidimensionali, il toolbox offre tecniche quali l’analisi dei componenti principali (PCA), la regolarizzazione, la riduzione della dimensionalità e altri metodi di selezione delle feature che consentono di identificare le variabili con il miglior potere predittivo.
Il toolbox fornisce algoritmi di machine learning con supervisione, semi-supervisione e senza supervisione, tra cui support vector machine (SVM), alberi decisionali con boosting, k-means e altri metodi di clustering. È possibile applicare tecniche di interpretabilità come i grafici di dipendenza parziale e le spiegazioni LIME e generare automaticamente codice C/C++ per la distribuzione embedded. Molti algoritmi del toolbox sono utilizzabili su set di dati troppo grandi per essere archiviati in memoria.