Data-Science

Tabellenkalkulationen

Alle quelloffenen Office-Pakete wie

enthalten eine Tabellenkalkulations-Software. Die Bedienung unterscheidet sich kaum von Microsoft-Excel, die Dokumente sind weitgehend kompatibel oder wenigstens im- und exportierbar.

Tabelle mit Daten und von rot nach blau changierender Zellenfärbung.

LibreOffice Calc.

Datenvisualisierung

Wenn die grafische Darstellung von Daten im Vordergrund steht, sind die Möglichkeiten von Tabellenkalkulationen schnell erschöpft. Mehr Freiheit aber ebenso leichte Bedienbarkeit versprechen

Eine lange Tradition hat das kommando- oder scriptgesteuerte Programm

Das Computeralgebrasystem Maxima und das Matlab ähnliche Numerik System GNU Octave nutzen Gnuplot für die grafische Ausgabe.

Die größte Freiheit und die meisten Möglichkeiten, Daten grafisch darzustellen, bieten Python-Programmier-Bibliotheken wie

  • Matplotlib – der Stand der Technik für statische Grafiken,

  • Bokeh und

  • Plotly – wenn es interaktive Grafiken für das Web sein sollen.

Tipp: Schauen Sie sich die Beispiele auf der Matplotlib-Webseite an. Wenn Sie auf ein Beispiel klicken, können Sie den Quelltext sehen und kopieren. So können Sie auch mit sehr geringen Python Kenntnissen beeindruckende Darstellungen zaubern.

Datenverarbeitung

Komplexe Berechnungen werden in Tabellenkalkulationen schnell unübersichtlich und schwer prüfbar. Es gibt eine Reihe von Alternativen. Der Aufwand für die Einarbeitung lohnt sich!

Wer den Programmieraufwand gering halten möchte, kann Matlab ähnliche, skriptgesteuerte Umgebungen nutzen:

Mit gerigen Python-Kenntnissen kann man die mächtigen SciPy Bibliotheken nutzen, insbesondere

  • NumPy, mit dem große Matritzen verarbeitet werden, ähnlich zu GNU Octave oder Scilab und

  • pandas, das besonders statistische Auswertungen und das Arbeiten mit großen Datensätzen erleichtert, vor allem die Verarbeitung von Zeitreihen.

Ein Standardwerkzeug für statistische Analysen in Wissenschaft und Industrie ist die Programmiersprache R.

Eine sehr einfache und elegante Art, Programmierung, Ergebnisdarstellung und Dokumentation in einem einzigen Dokument zu integrieren bieten Jupyter Notebooks, die auch für die meisten Data Scientists die erste Wahl sind.