Die Microsoft-Tochter GitHub hat ihren KI-gestützten Programmierassistenten Copilot zur allgemeinen Nutzung freigegeben. Unternehmen - auch solche, die nicht die GitHub-Plattform für ihren Softwarecode verwenden - können das Werkzeug lizenzieren und damit die Arbeit ihrer Programmierer unterstützen. Copilot lässt sich laut Anbieter in verschiedenste Code-Editoren integrieren wie Visual Studio, Neovim, VS Code oder JetBrains IDEs. Eine Einzellizenz kostet zehn Dollar im Monat beziehungsweise 100 Dollar für ein Jahr. Die Business-Edition, die zusätzliche Management-Funktionen für die Code-Verwaltung bietet, kommt auf 19 Dollar pro User und Monat.
Copilot geht auf eine gemeinsame Entwicklung mit der kalifornischen KI-Schmiede OpenAI zurück, deren Konversations-Bot ChatGPT derzeit für viel Aufsehen sorgt. Eine erste Preview hatten GitHub und Microsoft bereits 2021 präsentiert. Seitdem wurde das Tool weiter entwickelt und in der Zusammenarbeit mit zahlreichen Entwicklern auf GitHub trainiert.
Turbo für das Coding
Developer könnten ihr Coding mit Hilfe von Copilot um bis zu 55 Prozent beschleunigen, stellen die GitHub-Verantwortlichen den Programmierenden in Aussicht. Laut den bisher gewonnenen Erfahrungen sagten neun von zehn Entwicklern, dass ihnen das Coding mit Unterstützung von Copilot schneller von der Hand gehe. Drei Viertel seien mit ihrer Arbeit zufriedener, weil sie sich besser auf die maßgeblichen Dinge der Softwareentwicklung fokussieren könnten.
Der Anteil, den Copilot zum Code einer Software beisteuert, nimmt GitHub zufolge kontinuierlich zu. Waren es im Juni vergangenen Jahres noch 27 Prozent, liege der von der KI generierte Code-Anteil heute bereits im Durchschnitt bei 46 Prozent - im Java-Umfeld sogar bei 61 Prozent.
Diese KI-Tools sollten Sie kennen
Copilot gehört wie ChatGPT zur Familie der sogenannten Generative AI. Die Analysten von Gartner beschreiben damit KI-Techniken, bei denen aus Massendaten intelligent neue Artefakte erzeugt werden, die zwar eine Ähnlichkeit mit den Originaldaten aufweisen, im Grunde aber völlig neu sind. Generative AI kann demnach nicht nur Modelle von physischen Gegenständen, sondern auch ganz neuartige Medieninhalte (einschließlich Text, Bild, Video und Audio) erzeugen oder auch synthetische Daten. Hilfreich sei diese Technik beispielsweise beim Design von neuen Materialien mit bestimmten Eigenschaften, die Erforschung von Arzneimitteln oder bei kreativen Arbeiten imMarketing, im Design, in der Architektur und bei anderen Medieninhalten.
Copilot passt sich dem Entwickler an
GitHub hat die aktuell verfügbare Version von Copilot eigenen Angaben zufolge weiter verbessert. Demzufolge hätten neue Algorithmen die Qualität der Coding-Vorschläge verbessert. Dafür sei Copilot auf ein neues OpenAI-Codex-Modell umgestellt worden, schreibt Shuyin Zhao, Senior Director für das Product Management bei GitHub, in einem Blog-Beitrag.
Durch ein neues Paradigma namens Fill-In-the-Middle (FIM) lässt sich das Tool zudem tiefer im zu schreibenden Code verankern, verspricht die GitHub-Managerin. Es berücksichtige neben Code-Präfixen auch die Code-Suffixe, hieß es. Copilot verfüge so über mehr Kontext zu dem beabsichtigten Code und wie dieser mit dem Rest des Softwareprogramms zusammenpassen sollte.
Developer können das Werkzeug direkt als Erweiterung in ihre Entwicklungsumgebung integrieren. Copilot schlägt dann an passender Stelle in real-time Code-Schnipsel vor, die Entwickler direkt per Klick in ihr Coding übernehmen oder ablehnen können. Darüber hinaus frägt der Entwicklungsassistent nach möglichen Codeergänzungen für bestimmte Funktionen. Dies funktioniert wie bei ChatGPT per natürlicher Spracheingabe. Der Clou laut GitHub: Copilot lernt den Coding-Stil seiner Nutzer und passt seine Vorschläge entsprechend im Laufe der Zusammenarbeit an. Dafür analysiert das Werkzeug wie oft welche Code-Vorschläge abgelehnt wurden. Um die Arbeitsabläufe des Entwicklers nicht zu stören verändere Copilot seine Vorschläge, um die Passgenauigkeit zu verbessern.
"Wir haben auch einen neuen Filter für Sicherheitslücken entwickelt, um die Code-Vorschläge von Copilot sicherer zu machen und Entwicklern dabei zu helfen, unsichere Codierungsmuster während ihrer laufenden Arbeit zu erkennen", sagt Zhao. Das Tool könne sogar anfällige Muster in unvollständigen Codefragmenten erkennen. So ließen sich unsichere Codierungsmuster schnell blockieren und durch alternative Vorschläge ersetzen.
An dieser Stelle muss Copilot allerdings laufend dazulernen. Dafür braucht es auch menschliche Hilfe, um zwischen anfälligen und nicht anfälligen Codemustern zu unterscheiden. GitHub fordert alle mit Copilot arbeitenden Entwickler auf, mitzuhelfen, die Sicherheit des Assistenz-Bots zu verbessern, und gefährdete Muster, die sie in Codevorschlägen entdecken, an GitHub zu melden.
Kritik an Copilot: Verletzt der Bot Urheberrechte?
Während die Verantwortlichen bei GitHub und der Firmenmutter Microsoft schon von einer neuen Zukunft der KI-basierten Softwareprogrammierung schwärmen, werden an anderer Stelle kritische Stimmen immer lauter. Matthew Butterick, ein Programmierer und Rechtsanwalt in Los Angeles, hat eine Sammelklage gegen Microsoft, GitHub und OpenAI auf den Weg gebracht. Der Vorwurf: KI-Tools wie Copilot sollen die Urheberrechte von Entwicklern verletzen.
Butterick moniert in erster Linie die Art und Weise, wie Copilot funktioniert und lernt. Das Tool entwickle seine Fähigkeiten selbstlernend, indem es Milliarden Zeilen von Softwarecode im Internet, beispielsweise auf GitHub, analysiert. Damit würden jedoch die Urheberrechte der Programmierer verletzt, die den übernommenen Code entwickelt haben.
Verletzen KI-Modelle Urheberrechte?
Im Fokus der Klage steht Microsoft. Der weltgrößte Softwarehersteller hatte Mitte 2018 die Code-Sharing-Site GitHub für 7,5 Milliarden Dollar übernommen. Die Plattform bildet das weltgrößte Reservoir an Softwarecode. Über 83 Millionen Entwickler legen Code auf GitHub ab. Mehr als 200 Millionen Repositories sollen Schätzungen zufolge derzeit auf GitHub liegen. Mit GitHub besitze Microsoft einen gewaltigen Fundus an Informationen über Entwickler und deren Projekte, gaben Analysten schon zum Zeitpunkt der Übernahme zu Bedenken.
In general: (1) training ML systems on public data is fair use (2) the output belongs to the operator, just like with a compiler.
— Nat Friedman (@natfriedman) June 29, 2021
We expect that IP and AI will be an interesting policy discussion around the world in the coming years, and we're eager to participate!
Microsoft weist die Vorwürfe der Urheberrechtsverletzung zurück und spricht von "fair use" des auf GitHub bereitgestellten Softwarecodes. "Das Trainieren von ML-Systemen auf öffentlichen Daten ist eine faire Nutzung", behauptete der damalige GitHub-Chef Nat Friedman Ende Juni 2021 in einem Tweet. Der Output gehöre dem Betreiber, genau wie bei einem Compiler. Friedman räumte allerdings Klärungsbedarf ein. "Wir gehen davon aus, dass geistiges Eigentum und KI in den kommenden Jahren eine interessante politische Diskussion auf der ganzen Welt auslösen werden."