Importer data fra PDF til Excel via Power Query

Opgaven med at overføre data fra et regneark i en PDF-fil til et Microsoft Excel-ark er altid "sjovt". Især hvis du ikke har dyrt genkendelsessoftware som FineReader eller lignende. Direkte kopiering fører normalt ikke til noget godt, fordi. efter at have indsat de kopierede data på arket, vil de højst sandsynligt "klistre sammen" i én kolonne. Så de skal derefter omhyggeligt adskilles ved hjælp af et værktøj Tekst efter kolonner fra fanen data (Data — Tekst til kolonner).

Og kopiering er selvfølgelig kun mulig for de PDF-filer, hvor der er et tekstlag, dvs. med et dokument, der lige er scannet fra papir til PDF, vil dette principielt ikke fungere.

Men det er egentlig ikke så trist 🙂

Hvis du har Office 2013 eller 2016, så er det på et par minutter, uden yderligere programmer, meget muligt at overføre data fra PDF til Microsoft Excel. Og Word og Power Query vil hjælpe os med dette.

Lad os for eksempel tage denne PDF-rapport med en masse tekst, formler og tabeller fra webstedet for Den Økonomiske Kommission for Europa:

Importer data fra PDF til Excel via Power Query

... og prøv at trække ud af det i Excel, sig den første tabel:

Importer data fra PDF til Excel via Power Query

Lad os gå!

Trin 1. Åbn PDF i Word

Af en eller anden grund ved de færreste, men siden 2013 har Microsoft Word lært at åbne og genkende PDF-filer (selv scannede, altså uden tekstlag!). Dette gøres på en helt standard måde: åbn Word, klik Fil – Åbn (Fil - Åbn) og angiv PDF-formatet i rullelisten i nederste højre hjørne af vinduet.

Vælg derefter den PDF-fil, vi skal bruge, og klik Åbne (Åben). Word fortæller os, at det kommer til at køre OCR på dette dokument til tekst:

Importer data fra PDF til Excel via Power Query

Vi er enige, og om et par sekunder vil vi se vores PDF-fil åbne for redigering allerede i Word:

Importer data fra PDF til Excel via Power Query

Selvfølgelig vil design, typografier, skrifttyper, sidehoveder og sidefødder osv. delvist flyve af dokumentet, men det er ikke vigtigt for os – vi har kun brug for data fra tabeller. I princippet er det på dette stadium allerede fristende blot at kopiere tabellen fra det anerkendte dokument til Word og blot indsætte det i Excel. Nogle gange virker det, men oftere fører det til alle mulige dataforvrængninger – for eksempel kan tal blive til datoer eller forblive tekst, som i vores tilfælde, fordi. PDF bruger ikke-separatorer:

Importer data fra PDF til Excel via Power Query

Så lad os ikke skære hjørner, men gøre alting lidt mere kompliceret, men rigtigt.

Trin 2: Gem dokumentet som en webside

For derefter at indlæse de modtagne data i Excel (via Power Query), skal vores dokument i Word gemmes i websideformatet – dette format er i dette tilfælde en slags fællesnævner mellem Word og Excel.

For at gøre dette skal du gå til menuen Fil – Gem som (Fil — Gem som) eller tryk på tasten F12 på tastaturet og i det vindue, der åbnes, skal du vælge filtypen Webside i én fil (Webside - Enkelt fil):

Importer data fra PDF til Excel via Power Query

Efter at have gemt, bør du få en fil med filtypenavnet mhtml (hvis du ser filtypenavne i Stifinder).

Trin 3. Upload af filen til Excel via Power Query

Du kan åbne den oprettede MHTML-fil i Excel direkte, men så får vi for det første alt indholdet af PDF'en på én gang sammen med tekst og en masse unødvendige tabeller, og for det andet mister vi igen data på grund af forkert separatorer. Derfor vil vi importere til Excel gennem Power Query-tilføjelsen. Dette er en helt gratis tilføjelse, hvormed du kan uploade data til Excel fra næsten enhver kilde (filer, mapper, databaser, ERP-systemer) og derefter transformere de modtagne data på alle mulige måder, så de får den ønskede form.

Hvis du har Excel 2010-2013, så kan du downloade Power Query fra det officielle Microsoft-websted - efter installationen vil du se en fane Strømforespørgsel. Hvis du har Excel 2016 eller nyere, så behøver du ikke downloade noget – al funktionalitet er som standard allerede indbygget i Excel og er placeret på fanen data (Dato) i gruppe Download og konverter (Hent og transformer).

Så vi går enten til fanen data, eller på fanen Strømforespørgsel og vælg et hold For at få data or Opret forespørgsel – Fra fil – Fra XML. For at gøre synlige ikke kun XML-filer, skal du ændre filtrene i rullelisten i nederste højre hjørne af vinduet til Alle filer (Alle filer) og angiv vores MHTML-fil:

Importer data fra PDF til Excel via Power Query

Bemærk venligst, at importen ikke fuldføres korrekt, fordi. Power Query forventer XML fra os, men vi har faktisk et HTML-format. Derfor skal du i det næste vindue, der vises, højreklikke på filen, der er uforståelig for Power Query, og angive dens format:

Importer data fra PDF til Excel via Power Query

Derefter genkendes filen korrekt, og vi vil se en liste over alle de tabeller, den indeholder:

Importer data fra PDF til Excel via Power Query

Du kan se indholdet af tabellerne ved at klikke på venstre museknap på den hvide baggrund (ikke i ordet Tabel!) af cellerne i kolonnen Data.

Når den ønskede tabel er defineret, klik på det grønne ord Bordlampe – og du "falder igennem" i dets indhold:

Importer data fra PDF til Excel via Power Query

Det er tilbage at gøre et par enkle trin for at "kæmme" dets indhold, nemlig:

  1. slet unødvendige kolonner (højreklik på kolonneoverskriften - Fjern)
  2. erstatte prikker med kommaer (vælg kolonner, højreklik – Udskiftning af værdier)
  3. fjern lighedstegn i overskriften (vælg kolonner, højreklik – Udskiftning af værdier)
  4. fjern den øverste linje (Home – Slet linjer – Slet øverste linjer)
  5. fjerne tomme linjer (Hjem – Slet linjer – Slet tomme linjer)
  6. hæv den første række til tabeloverskriften (Hjem – Brug første linje som overskrifter)
  7. filtrere unødvendige data fra ved hjælp af et filter

Når bordet bringes til sin normale form, kan det aflæses på arket med kommandoen luk og download (Luk og indlæs) on Den væsentligste fanen. Og vi får sådan en skønhed, som vi allerede kan arbejde med:

Importer data fra PDF til Excel via Power Query

  • Omdannelse af en kolonne til en tabel med Power Query
  • Opdeling af klæbrig tekst i kolonner

Giv en kommentar