Was ist Natural Language Processing?

13.10.2021
Von 
Thor Olavsrud ist Senior Writer bei CIO.com und beschäftigt sich mit IT-Security, Big Data, Open-Source-Technologie sowie Microsoft-Tools und -Servers. Er lebt in New York.
Natural Language Processing kommt für viele Zwecke zum Einsatz - zum Beispiel in digitalen Assistenten wie Siri und Alexa. Das müssen Sie über NLP wissen.
Wenn Computer Sprache "verstehen", steckt Natural Language Processing dahinter. Das müssen Sie zum Thema wissen.
Wenn Computer Sprache "verstehen", steckt Natural Language Processing dahinter. Das müssen Sie zum Thema wissen.
Foto: Pdusit - shutterstock.com

Heutzutage reden wir mit unseren technischen Gerätschaften: Sie machen Termine, verwalten Einkaufslisten, übersetzen und vieles mehr. Die Technologie, die dahintersteht, heißt Natural Language Processing (NLP) und hat sich im Laufe der letzten Jahre maßgeblich verbessert.

Natural Language Processing - Definition

Natural Language Processing (NLP) - im deutschen Sprachraum auch Computerlinguistik oder linguistische Datenverarbeitung genannt - bezeichnet die algorithmische Verarbeitung von natürlicher Sprache. NLP stellt eine Unterkategorie von Künstlicher Intelligenz dar und ist einer der Haupt-Use-Cases für Deep Learning.

Ursprünglich bezog sich der Terminus lediglich auf die Lesefähigkeit von Computersystemen, heutzutage umfasst er sämtliche Aspekte der Linguistik. Zu den Unterkategorien von Natural Language Processing gehören:

  • Natural Language Generation (ein Rechner erzeugt selbständig Kommunikationsinhalte)

  • Natural Language Understanding (ein Rechner versteht Slang, erkennt falsche Aussprache oder Schreibweise und andere Varianten von Sprache)

NLP funktioniert auf der Grundlage von Machine Learning: ML-Systeme speichern Wörter und ihren Aufbau wie jede andere Form von Daten. Sie werden mit Redewendungen, Sätzen und manchmal ganzen Büchern gefüttert und verarbeiten die Daten auf Grundlage grammatikalischer Regeln, sprachlichen Gepflogenheiten - oder beidem. Diese Daten können Rechner anschließend nutzen, um Datenmuster zu erkennen und "vorherzusagen", welches Wort als nächstes folgt.

NLP - Einsatzzwecke

Der eben beschriebene Fall fällt in die Kategorie Machine Translation und stellt nur einen Einstzzweck von Natural Language Processing dar:

Einer der gängigsten Use Cases für NLP ist die Internetsuche: Jedesmal, wenn Sie etwas über Google oder Bing suchen, pflegen Sie Daten in das jeweilige System ein. Ein Klick auf ein Suchergebnis wertet das System als Bestätigung dafür, die richtigen Ergebnisse präsentiert zu haben.

Chatbots funktionieren auf ganz ähnliche Art und Weise: Sie sind in Slack und anderen Chat-Programmen integriert und analysieren, wie ihr Benutzer schreibt. Bei bestimmten Schlüsselsätzen springt der Bot schließlich an. Dasselbe Prinzip wenden auch intelligente Sprachassistenten wie Siri und Alexa an, die bei Ruf ihres Namens "parat" stehen.

Darüber hinaus kommt NLP in vielen weiteren Bereichen zum Einsatz. So hilft die Technik beispielsweise Recruitern dabei, Lebensläufe nach geeigneten Kandidaten zu durchforsten. Auch Spam Detection oder Sentimentanalysen funktionieren mit Natural Language Processing.

Natural Language Processing - Software

Egal welchen NLP Use Case Sie in der Praxis umsetzen wollen: Dazu brauchen Sie die richtigen Tools. Laut Technology Evaluation Center gehören folgende Lösungen zu den beliebtesten in Sachen Natural Language Processing Software:

  • Natural Language Toolkit (NLTK): Bei NLTK handelt es sich um ein quelloffenes Framework, um in Python erstellte Applikationen für die Verarbeitung von Sprachdaten fit zu machen. Entwickelt wurde NLTK an der Universität von Pennsylvania - das Framework enthält mehr als 50 lexikalische Ressourcen, eine Suite mit Text Processing Libraries und entsprechende Wrapper, sowie ein Diskussions-Forum. NLTK steht mit Apache 2.0 Lizenz zur Verfügung.

  • SpaCy: Diese quelloffene Bibliothek für fortgeschrittenes NLP ist nicht für Forschungszwecke, sondern für den Produktiveinsatz gedacht. SpaCy erlaubt Deep Data Mining und ist lizenziert vom MIT.

  • Gensim: Hierbei handelt es sich um eine Python Library für Natural Language Processing. Die Plattform-unabhängige Bibliothek unterstützt beispielsweise skalierbare statistische Semantiken oder die semantische Analyse von Plaintext-Dokumenten. Gensim ist darauf konzipiert, große Mengen von Text ohne menschliche Eingriffe zu verarbeiten.

  • Amazon Comprehend: Dieser NLP-Service von Amazon erfordert keinerlei Kenntnisse in Machine Learning und soll Unternehmen dabei unterstützen, Insights aus E-Mails, Kunden-Reviews, Social Media, Support-Tickets und anderen Textdokumenten zu extrahieren. Um die Bedeutung hinter den Worten zu erkennen, nutzt der Amazon-Service Sentimentanalysen, Part-of-Speech-Extraction und Tokenization.

  • IBM Watson Tone Analyzer: Diese cloud-basierte Lösung von IBM ist für Social Listening, Chatbot-Integration und Customer Service Monitoring gedacht. Der Tone Analyzer kann die Emotionen der Kunden in Postings, Support-Anrufen oder Chat-Gesprächen erkennen.

  • Google Cloud Translation: Diese API nutzt Natural Language Processing, um die Sprache eines Textes zu ermitteln und diesen anschließend mit Hilfe von neuronaler Machine Translation dynamisch zu übersetzen. Die Schnittstelle erlaubt es den Benutzern, die Funktionalitäten in ihre eigene Software zu integrieren.

NLP - Weiterbildungskurse

Es gibt einige (auch kostenlose) Ressourcen, die Sie in Sachen Natural Language Processing voranbringen können. Dazu gehören beispielweise:

  • Der kostenlose Data-Camp-Kurs "Introduction to Natural Language Processing in Python" enthält 15 Videos und 51 Übungen und behandelt NLP-Grundlagen mit Fokus auf Python - einschließlich der Identifizierung und Trennung von Wörtern, der Extraktion von Themen aus Texten und der Erstellung eines eigenen Fake News Classifiers.

  • Der Einführungskurs "Introduction to Natural Language Processing" von Udemy verspricht eine Hands-On-Erfahrung bei der Analyse von Text mit Python und dem Natural Language Toolkit. Drei Stunden On-Demand-Videomaterial, drei Artikel und 16 Ressourcen (herunterladbar) beinhaltet der Kurs ebenso wie ein Abschlusszertifikat. Der Preis liegt - ohne Rabatt - bei 94,99 Euro.

  • "Hands On Natural Language Processing (NLP) using Python" ist ebenfalls ein Udemy-Angebot, richtet sich jedoch an Interessierte, die bereits über grundlegende Programmiererfahrung (in einer beliebigen Sprache), ein Verständnis objektorientierter Programmierkonzepte sowie Kenntnissen in Mathematik und Matrixoperationen verfügen. Der Kurs ist vollständig projektbasiert und beinhaltet unter anderem die Erstellung eines Text Classifiers, um Stimmungen in Tweets in Echtzeit zu erfassen. Der Inhalt setzt sich aus 10,5 Stunden On-Demand-Video und acht Artikeln zusammen, der Preis liegt - ohne Rabatt - bei 99,99 Euro (Abschlusszertifikat inklusive).

  • Das Coursera-Angebot "Natural Language Processing" ist Teil des Spezialisierungsangebots für fortgeschrittenes Machine Learning und deckt verschiedene NLP-Aspekte ab, darunter Sentimentanalysen, Zusammenfassung, Dialog-Tracking und mehr. Laut Coursera handelt es sich um einen Kurs für Fortgeschrittene, der über einen Zeitraum von fünf Wochen circa vier bis fünf Stunden pro Woche in Anspruch nehmen soll. Die Teilnahme ist kostenlos.

  • Coursera bietet auch eine Spezialisierung in Sachen TensorFlow - wozu auch der Kurs "Natural Language Processing in TensorFlow" gehört. Hier geht es um den Einsatz von TensorFlow für den Aufbau von Systemen, die natürliche Sprache und Text mit Hilfe eines neuronalen Netzes verarbeiten. Laut Coursera handelt es sich um einen Kurs auf mittlerem Niveau, der über einen Zeitraum von vier Wochen circa vier bis fünf Stunden dauern soll. Auch hier ist die Teilnahme kostenlos.

Natural Language Processing - Jobs

Natural Language Processing spielt für viele Jobprofile im Technologiebereich eine Rolle. Hier eine kleine Auswahl von Jobs, die mit NLP in Zusammenhang stehen können (sowie deren Durchschnittsgehalt in Deutschland laut dem Karriereportal Stepstone):

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com. (fm)