Data-Science-Praxis

Die besten Tools für Datenwissenschaftler

23.08.2022
Von 
Peter Wayner schreibt unter anderem für unsere US-Schwesterpublikation InfoWorld.com und ist Autor verschiedener Bücher - unter anderem zu den Themen Open Source Software, autonomes Fahren und digitale Transaktionen.
Data Science steht bei Unternehmen hoch im Kurs. Doch wer Business-Mehrwert aus Daten generieren will, benötigt die richtigen Tools.
Diese Tools helfen Data Scientists dabei, das Optimum aus ihren Analysen zu holen.
Diese Tools helfen Data Scientists dabei, das Optimum aus ihren Analysen zu holen.
Foto: Antlii - shutterstock.com

Vor ein paar Dekaden noch war es meist die Aufgabe einiger Nerds im Souterrain, Daten zu sammeln und zu analysieren. Heutzutage möchte sich jedes Unternehmen Data Science zunutze machen, um Prozesse zu optimieren und seine Kunden glücklich zu machen. Der Datenwissenschafts-Boom nährt auch den Markt für Tools im Bereich Data Science. Traditionell haben Data Scientists mit Kommandozeilen-Tools und Open-Source-Software gearbeitet - nun stehen zahlreiche professionelle und moderne Lösungen zur Verfügung, die Datenwissenschaftlern das Leben leichter machen, etwa wenn es darum geht, Daten zu bereinigen.

Auch der Maßstab verschiebt sich. Früher war Data Science oft nur eine Nebenaufgabe, heute ist sie fester Bestandteil der Workflows: Unternehmen integrieren mathematische Analysen inzwischen in ihre Business-Reportings und setzen auf Dashboards, um mit intelligenten Visualisierungen einen schnellen Überblick über den Status Quo zu schaffen. Dabei hat auch das Tempo deutlich angezogen: Analysen, die früher jährlich oder vierteljährlich durchgeführt werden mussten, laufen heute in Echtzeit.

Wir haben einige der besten Tools zusammengestellt, die Datenwissenschaftler bei ihrer Arbeit unterstützen können und Analysen präziser und wissenschaftlich fundiert gestalten.

Jupyter Notebooks

Diese Pakete aus Wörtern, Code und Daten sind innerhalb der Data-Science-Welt zur Lingua Franca geworden. PDFs mit statischen Analysen und Inhalten sind zwar immer noch verbreitet, aber Datenwissenschaftler wollen nicht nur passiv rezipieren. An dieser Stelle kommen Jupyter Notebooks ins Spiel.

Ursprünglich wurden Jupyter Notebooks von Python-Benutzern erstellt, die mehr Flexibilität wollten. Heute unterstützen standardmäßige Jupyter Notebooks mehr als 40 verschiedene Programmiersprachen, darunter üblicherweise R, Julia und auch Jaba oder C. Der den Notebooks zugrundeliegende Code ist quelloffen und bietet damit viele Möglichkeiten, verschiedenste Projekte anzugehen - vom Daten kuratieren bis hin zum Ideenaustausch.

JupyterHub bietet einen containerisierten, zentralen Server mit Authentifizierung, der Ihre Data-Science-Erkenntnisse einem Publikum bereitstellt. Dieses muss dafür keine Software installieren, warten oder sich um Serverskalierung Gedanken machen.

Notebook Lab Spaces

Jupyter Notebooks sind keine Selbstläufer. Sie benötigen eine "Basis", auf der Daten gespeichert und Analysen berechnet werden. Inzwischen bieten mehrere Unternehmen solche Lab Spaces an - teilweise kostenlos, teilweise gegen eine geringe Gebühr. Zu den populärsten Angeboten in diesem Bereich gehören unter anderem:

Obwohl sich diese Services im Kern ähneln, gibt es dabei wichtige Unterschiede: Das Gros der Dienste unterstützt Python, alles was darüber hinausgeht, hängt von lokalen Präferenzen ab. Azure Notebooks unterstützt zum Beispiel auch die von Microsoft entwickelte Programmiersprache F#, während Google Colab Swift-Support bietet, das wiederum für Machine-Learning-Projekte mit TensorFlow eingesetzt werden kann. Auch hinsichtlich der Menüstruktur und anderer kleinerer Features sind die Angebote unterschiedlich ausgestaltet. Dabei sollten Sie nicht vergessen, dass es oft kein größeres Hindernis aufwirft, einen eigenen Server zu diesem Zweck einzurichten.

RStudio

Die Programmiersprache R wurde von Statistikern und Datenwissenschaftlern entwickelt, um die Arbeit mit Datensätzen zu optimieren und die besten Algorithmen einzusetzen, um diese zu analysieren. Einige Data Scientists bevorzugen es, R direkt über die Kommandozeile auszuführen. Andere lehnen sich zurück und überlassen RStudio - einer integrierten Entwicklungsumgebung (IDE, Integrated Development Environment) für mathematische Berechnungen - einige Tasks.

Das Herzstück von RStudio ist eine Open-Source-"Werkbank", mit der Sie Daten untersuchen, Änderungen am Code vornehmen und dann die aufwändigsten Grafiken erstellen können, die mit R möglich sind. Die IDE verfolgt den Verlauf Ihrer Berechnungen, so dass Sie Befehle rückgängig machen oder wiederholen können. Außerdem unterstützt sie auch bei der Fehlersuche, wenn der Code nicht funktionieren will. Wenn Sie auf Python angewiesen sind, können Sie auch diese Sprache in RStudio nutzen.

Mit Features wie beispielweise Versionierung, Rollenvergabe, Security und Synchronisierung unterstützt RStudio darüber hinaus Teams, die gemeinsam an einem Datensatz arbeiten möchten.

Sweave und Knitr

Datenwissenschaftler, die ihre Arbeit in LaTeX verfassen, werden die Komplexität von Sweave und Knitr zu schätzen wissen. Dabei handelt es sich um Tools, die die Datenverarbeitungsleistung von R oder Python mit der eleganten Formatierung von TeX kombinieren. Das Ziel besteht darin, eine Pipeline auf die Beine zu stellen, die Daten in ein schriftliches Reporting inklusive Diagrammen, Tabellen und Grafiken verwandelt. Während die Daten bereinigt, organisiert und analysiert werden, passen sich die Diagramme und Tabellen entsprechend an.

Integrierte Entwicklungsumgebungen

Manchmal beschleicht das Gefühl, dass Data Science zu 99 Prozent daraus besteht, Daten zu bereinigen und für die Analyse vorzubereiten. Integrierte Entwicklungsumgebungen bilden hierfür eine gute Ausgangsbasis, da sie sowohl Mainstream-Programmiersprachen wie C# als auch einige, speziell auf Data Science ausgerichtete Programmiersprachen wie R unterstützen. Benutzer von Eclipse können beispielsweise ihren Code in Java bereinigen und sich dann der Analyse mit rJava widmen.

Python-Entwickler vertrauen auf Pycharm, um ihre Tools zu integrieren und Python-basierte Datenanalysen zu orchestrieren. Visual Studio jongliert regulären Code mit Jupyter Notebooks und speziellen Data-Science-Optionen. Da die Arbeitsbelastung auch im Bereich der Datenwissenschaft zunimmt, entwickeln einige Unternehmen Low-Code- und No-Code-IDEs, die für diese Aufgaben konzipiert sind. Tools wie RapidMiner, Orange und JASP sind nur einige Beispiele für Tools, die auf die Datenanalyse optimiert sind. Diese bauen auf Visual Editors auf und können in vielen Fällen per Drag-and-Drop bedient werden.

Domänenspezifische Tools

Viele Data Scientists spezialisieren sich heutzutage auf bestimmte Bereiche wie Marketing oder Supply-Chain-Optimierung - und benötigen dafür entsprechende Tools. Diese sind für spezifische Zwecke und Probleme optimiert.

Im Bereich Marketing gibt Dutzende qualitativ hochwertiger Optionen, die auch als Customer Data Platforms bezeichnet werden. Diese lassen sich in Schaufenster, Werbeportale und Messaging-Anwendungen integrieren, um einen konsistenten (und oft unerbittlichen) Informationsstrom für Kunden zu erzeugen. Dabei liefern integrierte Backend-Analysen wichtige Statistiken, anhand derer Vermarkter beurteilen können, wie wirksam ihre Kampagnen sind. Inzwischen gibt es Hunderte domänenspezifischer Tools, die auf allen Ebenen funktionieren. Zum Beispiel:

  • Voyant analysiert Texte, um deren Lesbarkeit zu messen und Korrelationen zu identifizieren.

  • Forecast von AWS ist darauf optimiert, auf der Basis von Zeitreihendaten Vorhersagen über die geschäftliche Zukunft zu treffen.

  • Der Azure Video Analyzer verwendet Künstliche Intelligenz, um Videostreams zu analysieren.

Hardware

Der Aufstieg des Cloud Computing spielt Datenwissenschaftlern in die Hände: Sie brauchen keine eigene Hardware mehr zu unterhalten, nur um gelegentlich Analysen durchzuführen. Auf einen Cloud-Anbieter zu setzen, macht insbesondere dann Sinn, wenn Sie beispielsweise nur für einen Tag eine große Menge an Arbeitsspeicher benötigen. Für langfristig angelegte Projekte kann es hingegen am Ende günstiger kommen, eigene Hardware anzuschaffen.

Spezialisierte Optionen für parallele Berechnungen sind dabei im Kommen: Google stellt spezielle Tensor Processing Units (TPUs) her, um maschinelles Lernen zu beschleunigen. Nvidia fertigt "Data Processing Units" und einige Start-ups - etwa d-Matrix - entwickeln spezielle KI-Hardware.

Daten

Ohne Rohdaten nützen die besten Tools wenig. Einige Unternehmen bieten deshalb kuratierte Datensammlungen an. Das kann Ihnen potenziell die Mühe ersparen, die Daten selbst zu finden und zu bereinigen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.