Automatisierung nimmt uns Arbeit ab und erleichtert unser Leben. Anstatt einzelne Prozesse manuell und unregelmässig auszuführen, lässt sich eine automatisierte Pipeline erstellen, welche alle benötigten Arbeitsschritte umfasst und diese nach einem festgelegten Zeitplan selbstständig ausführt. Wir haben ein solches Projekt, das als Prototyp für weitere Vorhaben dienen kann, erfolgreich abgeschlossen und möchten es in diesem Beitrag grob beschreiben.

Ausgangslage

Das Projekt umfasste die Auswertung einer europaweiten Umfrage, welche in regelmässigen Zeitabständen durchgeführt wird. Als Ausgangssituation lagen uns Rohdaten von zwei verschiedenen Marktforschungsunternehmen vor. Diese wurden bisher nach jeder Fragerunde manuell ausgewertet und zu Grafiken und Analysen weiterverarbeitet. Das Ziel unseres Projektes war es nun, die jeweiligen Umfragedaten automatisiert zu konsolidieren, quantitativ und visuell aufzubereiten und dadurch den wiederkehrenden Aufwand so gering wie möglich zu halten. 

Unsere Aufgabe bestand darin, für jedes Land der Umfrage folgende Dokumente automatisiert zu produzieren:

  • Ein Google Sheets Slidedeck mit einer grafischen Aufbereitung der einzelnen Fragen, einem Inhaltsverzeichnis und nach einer Vorlage formatierten und gestalteten Inhaltsfolien
  • Ein Google Sheets Dokument, das die einzelnen Fragen nochmals im Detail und mit unterschiedlichsten Aggregationen und Gruppierungen ausweist

Zusätzlich umfasste das Projekt folgende Leistungen:

  • Ein konsolidiertes Europa-Slidedeck mit Vergleichen zwischen den einzelnen Ländern
  • Ein Google Data Studio Dashboard für eine einfache, personalisierte Auswertung sämtlicher Daten

 

Vorgehen

Zur Umsetzung der verschiedenen Dokumente und Aufbereitungen sind wir folgendermassen vorgegangen:

Daten

Um eine umfassende Datengrundlage zu schaffen, haben wir mithilfe eines Python Scripts die historischen monatlichen Daten der beiden Quellen eingelesen und diese in einem csv-File zusammengeführt. Da die Daten von zwei unterschiedlichen Marktforschungsunternehmen gesammelt wurden, mussten sie einmalig aufbereitet werden, um in der Formatierung kompatibel zu sein. Von nun an können die monatlichen Daten ohne weiteren Aufwand zur Datengrundlage hinzugefügt und gebündelt weiterverarbeitet werden.

Python (Symbolbild) / pixabay

Da uns nur die Rohdaten, also die tatsächlichen Umfragedaten, zur Verfügung gestellt wurden, haben wir anhand eines weiteren Python Scripts die Antworten basierend auf Alter, Geschlecht und Herkunftsregion im Herkunftsland der Teilnehmer gewichtet, um die gewünschte Verteilung pro Land zu bekommen.

Basierend auf dieser gewichteten Datengrundlage haben wir diverse Auswertungen erstellt. Zum einen wurde für jedes Land eine separate Präsentation mit den wichtigsten Facts und Insights erstellt, die den jeweiligen Marktverantwortlichen wichtige Erkenntnise liefert. Ausserdem sollten alle vorhandenen Umfragedaten (Fragen, Antworten, Länder, Jahre) in einem interaktiven Data Studio Dashboard zugänglich sein, um Interessierten die Möglichkeit zum Daten Deep Dive zu geben. Schlussendlich sollten die Daten zur weiteren Analyse tabellarisch aufgearbeitet werden.

Da der Google Workspace gut ausgebaute Schnittstellen (APIs) für Entwickler bietet, haben wir uns entschieden, diese Umgebung für die Darstellung unserer Auswertungen zu nutzen. Alle APIs und Berechnungen wurden in Python implementiert. 

Google Slides – Slide Decks

Die GSlides API erlaubt es, eine Präsentation komplett «from scratch» programmatisch zu erstellen. Dies haben wir uns zunutze gemacht. Da die Umfrage in 24 Ländern durchgeführt wird und die Auswertung in allen Ländern analog umgesetzt werden soll, haben wir per Script ein Gerüst gebaut, welches mit den Daten des jeweiligen Landes gefüttert wird.

So konnten wir 24 analoge Präsentationen mit dem Aufwand von einer einzigen erstellen. Alle Bilder, Texte und Grafiken wurden ebenfalls per API zur Präsentation hinzugefügt, sodass kein Element manuell eingefügt werden muss.

Um die Headlines der Slides der Aussage der ausgewerteten Daten anzupassen, haben wir ein Google Sheet erstellt, in welchem jede*r Zugriffsberechtigte die Texte aktualisieren und anpassen kann. Diese werden beim Erstellen der Präsentationen automatisch via Platzhalter in die Slides integriert. So können die Überschriften einbezogen werden, ohne die Slides manuell anzupassen.

Beispiel eines über die Google Slides API generierten Slides (Original farbig)

Dank der konsistenten Datenlage kann ein neuer Datenpunkt im nächsten Monat dynamisch und ohne Abänderung der Pipeline in der Präsentation dargestellt werden. Hierzu muss nur das Script neu ausgeführt werden, welches basierend auf den Daten die Visualisierungen in der Präsentation erstellt.

Google Data Studio – Interaktives Dashboard

Das interaktive Dashboard haben wir mit Google Data Studio erstellt. Dazu werden die Daten in das Data Warehouse Google Big Query geladen, welches über einen direkten Connector zu Google Data Studio verfügt. Hier können nun alle Charts nach Belieben unter anderem nach Alter, Geschlecht, Land sowie nach weiteren Faktoren gefiltert werden, um individuelle Fragestellungen zu beantworten und die Umfragedaten nach entsprechenden Wünschen zu analysieren.

Beispiele aus dem Data Studio Dashboard (Original farbig)

Google Sheets – Detaillierte quantitative Daten

Um die Umfragedaten am Ende nicht nur ansprechend visualisiert zu haben, sondern auch weitergehende Berechnungen zu ermöglichen, wurden die Daten zusätzlich in einem Gsheet aufgearbeitet. Hierfür wurde die Sheets API von Google verwendet, welche ebenfalls in Python implementiert wurde. Diese liest die Umfragedaten aus dem csv-File und schreibt sie strukturiert in ein Gsheet.

Beispiel einer Datentabelle

Ergebnis

Nach erfolgreicher Umsetzung besteht die Lösung aus folgendem Prozess, der aus den Rohdaten die drei Deliverables Slide Decks, Dashboard und Datenblatt generiert.

Data Flow der Umsetzung

Die Präsentationen sowie das Dashboard und die Tabellenauswertung können per Link oder E-Mail-Adresse geteilt werden und erlauben so eine einfache Verbreitung der Informationen.

Nun kann jeden Monat nach der Datenerhebung eine komplette Auswertung und Visualisierung «per Knopfdruck» durchgeführt und zeitnah ohne grossen manuellen Aufwand an alle Mitarbeiter verteilt werden.

Haben Sie ein ähnliches Vorhaben oder Bedürfnis? Kontaktieren Sie uns gerne für weitere Auskünfte oder professionelle Unterstützung!