Machine Learning – Værktøjskassen!

The ML Toolbox

Afdeling 1: Data

  • Data. Data udgør det input variabler der bliver brugt til at forme en forudsigelse (prediction).
  • Struktureret og ikke-struktureret data
  • Struktureret Data -> defineret og labeled i en table
  • Tabular datasæt indeholder data organiseret i rækker og kolonner. I hvert kolonne er en feature. En feature også kendt som en variable, en dimension eller en attribute men de er alle ens
  • Hvert række indeholder en single observation af en given feature/variable. Rows -> case eller value
  • Hvert kolonne er kendt som en “Vector”. Vector gemmer din x og y værdier og mange vectors(columns) er kendt som en matrices. 
  • I Supervised learning, y vil allerede eksistere i dit datasæt og vil blive brugt til at identificere mønstre i relation til uafhængig variabler x. Y værdien er i den sidste kolonne
  • Det næste i den første afdeling af værktøjskassen er en række af punktdiagrammer. 2-D diagram x værdier plotted i x aksen og y værdier i y aksen

Afdeling 2: Infrastruktur

  1. Næste afdeling indeholder infrastruktur. Hvilket indeholder platforms og værktøjer til at processe data
  2. Jupyter og Notebook (web) Python (programmeringssprog). 
  3. Serie af biblioteker -> NumPy, Pandas og Scikit-learn som er kompatible med Python. 
  4. Til datavisualisering -> Seaborn, Matplotlib eller et standalone software program -> Tableu (charts, graphs, maps osv)
  5. C++ og C er godt for avanceret machine learning fordi de kan køre direkte på GPU’en hvorimod python har brug for at blive konveteret først før den kan køres på GPU. 

Så for at redegøre hvad man kan bruge disse biblioteker i Python:

  1. Loade og arbejde med datasæt via NumPy
  2. Clean up og udføre beregninger på data, og ekstrahere data fra CSV filer med Pandas
  3. Implementere algoritmer med Scikit-learn

Afdeling 4: Algoritmer

  • Importere data direkte fra en CSV fil. Man kan finde mange Datasæt fra Kaggle.com
  • Gemmer på algoritmer. Begynder starter med at bruge supervised learning:
    • Supervised -> Linær regression, logistic regression, decision trees og k-nearest
    • Unsupervised -> k-means clustering og descending dimension algorithms
Visualisering
  • Effektivt at kommunikere resultaterne af relevant desicion-makers. 
  • Anvendelse af Tableu eller et Python bilbiotek som seaborn. 

Advanced Toolbox

  • Forskellen mellem en begynder og en avanceret learner er størrelsen af det data de skal håndtere og operer. Hvor begynder arbejder med mindre datasæt som er nem at håndtere

Afdeling 1: Big Data

  • Big Data -> værdi, variation, volume, hastighed
  • umuligt for et menneske at processere uden assistanse af en avanceret maskine. Petabytes kvalificere størrelsen af big data. 
  • Scrubbing er en måde at arbejde med big data -> refinere ens datasæt før man bygger en model

Afdeling 2: Infrastruktur

  • Avanceret machine learners anvender samme værktøjer, sprog og biblioteker som begynderniveau
  • I Stedet for at rely på ens cpu af en personal computer, avanceret studerende typisk vender sig til distribuerede computing og cloud providers som amazon web services (AWS) og køre deres data processing på en GPU.
  • At køre beregninger på ens GPU er meget hurtigere og effektivt! 
  • Man kan anvende C eller C++ til at køre beregniner på ens GPU
  • Hvis man koder i Python kan man dog stadig konverter det til C ved anvendelsen af TensorFlow fra google
  • AWS, Microsoft Azure, Alibaba cloud, google cloud pålatform osv tilbyder pay as you go GPU ressourcer.

Afdeling 3: Avanceret Algoritmer

  • Markov models, support vector machines og Q-learning
  • Neural Networks -> som kommer med en selektion af machine learnings biblioteker
  • Scikit-learn tilbyder en range af populær shallow algoritmer, så er tensorflow det machine learning bibliotek af valg for deep learning/neural networks da det understøtter mange avanceret teknikker herunder automatic calculus for back-propagation/gradient descent.
  • Da TensorFlow har masser ressourcer, dokumentation og arbejde tilængeligt er det det bedste framework at arbejde ude fra.
  • Andre alternativ biblioteker -> Torch, Caffe og fast-growing Keras. Kera er open source deep learning bibliotek som køre ovenpå TensorFlow, Theano og andre frameworks og tillder bruger at performe hurtige eksperimenter med færre linjer kode -> Ligesom WordPress
  • Nogle bruger Keras til at validere deres model før man skifter til TensorFlow til at bygge mere tilrettet model (customized model)

Kilder:

Machine Learning For Absolute Beginners

Leave a comment

Design a site like this with WordPress.com
Get started