Data transformation: Vad, hur och varför

Data transformation, data mangagement, ETL – kärt barn har många namn. Men vad är det egentligen?

Ofta publiceras data som rapporter utan avsikt att återanvändas, de är därför komplexa och formatering kan vara svår att förstå.. Det är här data transformation kommer in.

Vad är data transformation och varför ska jag bry mig?

Datatransformation handlar om att ändra och ordna data från olika källor på ett sådant sätt att data blir lättare att använda för andra ändamål. Detta kan vara data från källor som ERP och CRM-system, Excel-ark och så vidare. Ett typiskt syfte kan vara rapportering och analys, där vi efter data omvandlingen lägger data i ett datalager på ett sådant sätt och format att det är lättare att rapportera och analysera data, ofta över olika professionella system.

Du kan ofta göra en viss grad av sådan transformation direkt i olika BI-verktyg, men det är utmanande om du har många källor, mycket data och en komplex affärslogik. Dessutom behöver du ofta göra data transformationerna flera gånger, eftersom du behöver data i flera analyser och rapporter. Detta kan potentiellt ge olika svar på vad som ansågs vara samma statistik i olika rapporter och analyser. Om du hittar ett fel kan du kanske bara korrigera det någonstans eftersom du inte insåg att samma transformation också utfördes i en annan rapport.

Hur utför man data transformationer?

Som nämnts stöder vissa BI-verktyg ofta enklare möjligheter att organisera och omvandla data. Oavsett om det bygger på skriptspråk eller enkla grafiska verktyg. Nackdelen är att man blir mycket beroende av utvecklaren om detta görs på ett skriptspråk – det är svårt för andra att komma in och förstå och sedan göra ändringar i koden. Dessutom är data som transformeras ofta i ett format som endast är tillgängligt för BI-verktyget som omvandlingen har ägt rum i. Det är inte optimalt om ditt företag vill använda olika rapporterings- och analysverktyg.

Detta är ofta ett av anledningarna till att man har valt att skapa ett datalager eller dataplattform. Här samlas data från olika professionella system, oavsett vilket verktyg du vill använda data i. Traditionellt har så kallade ETL-verktyg (Extract, Transform, Load) använts för detta ändamål. Det här är fantastiska verktyg för att ansluta till källor och extrahera data (Extract), göra data transformationer och enheter (Transform) och slutligen ladda dem till en dataplattform eller ett datalager (Load). Här har du verktyg som Informatica PowerCenter, Microsoft SSIS, Talend etc.

På senare tid har en ny typ av verktyg dykt upp som automatiserar många av stegen som du normalt gör när du bygger ett datalager, så kallade Data Warehouse Automation Tools (DWA). Det här är verktyg som förenklar och automatiserar många av de steg du ofta tar när du bygger ett datalager. Typiska exempel på steg som kan automatiseras är;

  • Delbelastning / stegvis belastning – hämta bara det som är nytt eller ändrat sedan föregående läsning
  • Historia – bygg strukturer som gör att du kan upprätthålla förändringar över tid för t.ex. organisations- eller produktstrukturer. Detta görs av möjligt att se förra årets siffror i dagens organisationsstruktur och vice versa.
  • Dokumentation – generera automatiskt teknisk dokumentation
  • Spårning – att kunna se var data går av (konsekvensanalys) och vilka mätvärden de befinner sig i, och även var data kommer från (datastamning).
  • Semantiskt lager – stöd för att definiera nyckeltal och statistik på en enhetlig plats.

Exempel på denna typ av verktyg inkluderar: Qlik Data Integrator, TimeXtender och WhereScape.

Varför ska data omvandlas?

Det kan finnas många anledningar till varför du behöver eller vill ändra data från källa till användning vid rapportering och analys. Här är några av dem:

  1. Data är inte strukturerade för rapportering

Om du tittar på stora ERP- och CRM-system som SAP och IFS består dessa ofta av ett stort antal tabeller (många 1000 tabeller). Det är inte lätt att navigera i en sådan datauppsättning och förstå hur man sammanställer data från dessa tabeller för att uppnå önskat resultat. Dessutom har tabeller och kolumner ofta ganska kryptiska namn, vilket inte gör jobbet enklare

  1. Data är svåra att komma åt

Vår erfarenhet när fler och fler människor börjar använda molnbaserade lösningar är att det inte alltid är lätt att komma åt datakällan i dessa lösningar. Det är mycket sällsynt att få tillgång till databasen direkt, den används ofta av flera kunder, och lösningen är därför ofta att data görs tillgängliga genom olika API: er (programmeringsgränssnitt). Här finns standarder, t.ex. REST, men detta kräver god teknisk insikt och förståelse för att kunna användas. Att helt enkelt verifiera ett sådant API kan vara svårt för många.

  1. Många källor

Många av våra kunder samlar in data från olika ERP-system. Därefter rapporterar du på koncernnivå med möjlighet att “borra” ner till det enskilda företag. Detta kräver att data omvandlas till ett vanligt format och att man faktiskt kan göra kors rapportering, även om vissa data kan komma från Visma Business och vissa från SAP och IFS. Här kan det också finnas olika regler som bör användas för organisationen.

Gratis guide: 5 steg för bättre datahantering

Företag spenderar idag enorm tid på att hitta, förbereda och organisera stora mängder data så att de kan användas för analys. Vad kan företag göra för att minska den här tiden på att hitta och förbereda data? TimeXtender ger dig 5 specifika steg du kan ta nu.

Ladda ner guiden

0