Machine Learning – Værktøjskassen!

The ML Toolbox

Data. Data udgør det input variabler der bliver brugt til at forme en forudsigelse (prediction).
Struktureret og ikke-struktureret data
Struktureret Data -> defineret og labeled i en table
Tabular datasæt indeholder data organiseret i rækker og kolonner. I hvert kolonne er en feature. En feature også kendt som en variable, en dimension eller en attribute men de er alle ens
Hvert række indeholder en single observation af en given feature/variable. Rows -> case eller value
Hvert kolonne er kendt som en “Vector”. Vector gemmer din x og y værdier og mange vectors(columns) er kendt som en matrices.
I Supervised learning, y vil allerede eksistere i dit datasæt og vil blive brugt til at identificere mønstre i relation til uafhængig variabler x. Y værdien er i den sidste kolonne
Det næste i den første afdeling af værktøjskassen er en række af punktdiagrammer. 2-D diagram x værdier plotted i x aksen og y værdier i y aksen

Næste afdeling indeholder infrastruktur. Hvilket indeholder platforms og værktøjer til at processe data
Jupyter og Notebook (web) Python (programmeringssprog).
Serie af biblioteker -> NumPy, Pandas og Scikit-learn som er kompatible med Python.
Til datavisualisering -> Seaborn, Matplotlib eller et standalone software program -> Tableu (charts, graphs, maps osv)
C++ og C er godt for avanceret machine learning fordi de kan køre direkte på GPU’en hvorimod python har brug for at blive konveteret først før den kan køres på GPU.

Så for at redegøre hvad man kan bruge disse biblioteker i Python:

Loade og arbejde med datasæt via NumPy
Clean up og udføre beregninger på data, og ekstrahere data fra CSV filer med Pandas
Implementere algoritmer med Scikit-learn

Importere data direkte fra en CSV fil. Man kan finde mange Datasæt fra Kaggle.com
Gemmer på algoritmer. Begynder starter med at bruge supervised learning:
- Supervised -> Linær regression, logistic regression, decision trees og k-nearest
- Unsupervised -> k-means clustering og descending dimension algorithms

Forskellen mellem en begynder og en avanceret learner er størrelsen af det data de skal håndtere og operer. Hvor begynder arbejder med mindre datasæt som er nem at håndtere

Big Data -> værdi, variation, volume, hastighed
umuligt for et menneske at processere uden assistanse af en avanceret maskine. Petabytes kvalificere størrelsen af big data.
Scrubbing er en måde at arbejde med big data -> refinere ens datasæt før man bygger en model

Avanceret machine learners anvender samme værktøjer, sprog og biblioteker som begynderniveau
I Stedet for at rely på ens cpu af en personal computer, avanceret studerende typisk vender sig til distribuerede computing og cloud providers som amazon web services (AWS) og køre deres data processing på en GPU.
At køre beregninger på ens GPU er meget hurtigere og effektivt!
Man kan anvende C eller C++ til at køre beregniner på ens GPU
Hvis man koder i Python kan man dog stadig konverter det til C ved anvendelsen af TensorFlow fra google
AWS, Microsoft Azure, Alibaba cloud, google cloud pålatform osv tilbyder pay as you go GPU ressourcer.

Markov models, support vector machines og Q-learning
Neural Networks -> som kommer med en selektion af machine learnings biblioteker
Scikit-learn tilbyder en range af populær shallow algoritmer, så er tensorflow det machine learning bibliotek af valg for deep learning/neural networks da det understøtter mange avanceret teknikker herunder automatic calculus for back-propagation/gradient descent.
Da TensorFlow har masser ressourcer, dokumentation og arbejde tilængeligt er det det bedste framework at arbejde ude fra.
Andre alternativ biblioteker -> Torch, Caffe og fast-growing Keras. Kera er open source deep learning bibliotek som køre ovenpå TensorFlow, Theano og andre frameworks og tillder bruger at performe hurtige eksperimenter med færre linjer kode -> Ligesom WordPress
Nogle bruger Keras til at validere deres model før man skifter til TensorFlow til at bygge mere tilrettet model (customized model)

Kilder:

Machine Learning For Absolute Beginners