Optimering af Data!

Data Scrubbing

  • Datasæt skal rengøres(cleaning) og human manipulated før det kan tages i brug
  • Scrubbing er den tekniske process af at refinere ens datsæt og gøre det mere arbejdsvenligt.
  • Dette kan involvere at man modificere og somme tider fjerne ufærdigt og inkorrekt formateres irrelevant og duplikeret data. Samt konvertere text basered data til numeriseret værdier. 

Teknikker for Scrubbing

Feature Selection

  • Identificer variabler mest relevant til ens hypotese -> selektiv om de variabler man vælger til at designe ens model
  • f.eks i stedet for oprette et 4-dimensional punktdiagram med 4 features(kolonner) i modellen, så kan man i stedet vælge 2 høj relevante features og bygge en to dimensional punktdiagram som er nemmere at forstå. Faktisk kan data som ikke har stor forhold til hinanden gøre at modellen bliver er unøjagtig

Eksempel 1:

fjerne name in spanish -> ikke relevant og contry code -> redundant til countries

Eksempel 2:

Inddele dem i sub kategorier – ulempe -> forhold mellem specifikke produkter -> generelle produkter.

Row Compression

  • reducering af antallet af rækker og dermed compress total antal af data points
  • Man kan merge to tabeller sammen men så vil feature(kolonne) værdier for begge rækker blive aggregeret og registreret i en single række. Man kan gøre det hvis begge rækker indeholder samme feature værdier. 
  • Numerisk værdier er nemme at aggregere (samle sammen). 

Eksempel:

Tiger og lion bliver til carnivore

One-Hot Encoding

  • Eter at have valgt variabler og rækker du vil gå videre med – skal man kigge efter text baseret features som kan blive konverteret til tal. 
  • One Hot encoding transformere features til binært form, repræsenteret i 0 eller 1. 
  • 0 -> False fortæller at en feature ikke tilhøre en specifik kategori hvor 1 -> true feature høre til en kategori.

Eksempel:

Binning

  • Binning -> Konverter numerisk værdier til en kategori
  • House evaluation example -> den specifikke størrelse på en tennisbane er irrelevant, men at huset har en tennisbane er relevant
  • erstatte numerisk måling af en tennisbane med true/false feature eller kategorisk værdi som “small” eller “medium”.

Missing Data

  • Finder det mest anvendte variable værdi og bruger det til at indsætte i den manglende plads -> Mode 
  • Tager alle tal og divider med antallet af tallene og smider den ind i manglende værdi -> Median

Kilder:

Machine Learning For Absolute Beginners

Leave a comment

Design a site like this with WordPress.com
Get started