Chat GPT und Large Language Models im rechtlichen Kontext

Geschrieben von David Alain Bloch | 23-mrt-2023 15:42:16

Large Language Models und ChatGPT für Jurist:innen

Interview mit Boas Loeb, Product Manager Data, Legartis

Chat GPT ist in aller Munde. Und das zu Recht. Nun wurde auch ChatGPT 4 offiziell veröffentlicht und interagiert jetzt auch mit Bildern und multimodalen Inhalten. Die künstlichen Intelligenzen wurden entwickelt, um menschenähnliche Sprachfähigkeiten zu erlangen. Sie können für viele Anwendungen eingesetzt werden, unter anderem im Legal Bereich. Sie sind in der Lage, natürliche Sprache zu verstehen, zu interpretieren und zu generieren. Aber auch wenn sie bereits in vielen Bereichen eingesetzt werden, haben sie auch ihre Grenzen. Was vermögen Large Language Models im rechtlichen Kontext? Boas Loeb, Product Manager Data, und David A. Bloch, CEO, Legartis, haben sich darüber unterhalten, was die Fähigkeiten und Grenzen dieser Modelle sind und was User:innen für ihre Anwendung im Rechtswesen beachten müssen.

Für rechtlich informierte Personen, aber technisch nicht Versierte: Was bedeutet das Release von GPT 4?

GPT 4 ist eine Weiterführung und eine Verbesserung von GPT 3 oder 3.5. Ein Unterschied ist: GPT 4 ist multimodal, das Modell wird auf Bilder und auch auf Text trainiert. Und GPT 4 nimmt auch beides als Input: Man kann dem Modell Bilder schicken, aber auch sprachliche Inhalte. Was diese Modelle noch etwas speziell macht, ist, dass sie ein gewisses Verständnis der Welt haben. Man kann sie als Nutzer:in Sachen fragen, die voraussetzen, dass die Modelle verstehen, wie die Welt funktioniert. Die Idee von multimodalen Netzwerken ist, dass sie ein besseres Weltverständnis haben, weil sie nicht nur Texte kennen, sondern weil sie auch Bilder gesehen haben. Das ist im juristischen Bereich neu. Es wäre jetzt zum Beispiel denkbar, dass so ein Modell Bilder auswertet und erkennt, wie der Sachverhalt ist und nicht nur sprachliche Informationen als Input nutzt.

Ist Multimodalität bei Large Language Models etwas Neues?

Im Grunde nicht. Es wurde schon vorher gezeigt, dass solche Modelle bessere Ergebnisse liefern und ein besseres Weltverständnis haben. Das, was bei ChatGPT wirklich neu ist, ist die freie Art des Prompting, des Inputs also. Da ChatGPT ein Chatbot ist, kannst du irgendwas schreiben und es antwortet dir auf eine gute Art. Die meisten Large Language Models verlangen ein bisschen mehr Finesse beim Prompting. Da muss man eine Struktur einhalten, wie man die Frage stellt, um die besten Ergebnisse zu präsentieren, weil sie darauf trainiert werden. Also wirklich spannend an ChatGPT ist, dass es freier ist im Prompting und Input.

Bleiben wir bei den Large Language Models: Wie funktionieren LLMs im juristischen Bereich, wer treibt das voran und was ist hier wichtig?

Man muss zwischen zwei Dingen unterscheiden. Einerseits gibt es diese Large Language Models, die enorm viel Text gelesen haben und die werden besser, je mehr Text sie gelesen haben. Die profitieren von ganz verschiedenen Quellen. Das heißt, auch wenn sie nicht juristische Texte gelesen haben, profitieren Sie von anderen Texten, um auch juristische Fragen und Sätze besser zu formulieren. Es ist relativ aufwändig, solche grossen Modelle zu trainieren. Es sind die Treiber wie Google, Facebook oder OpenAI, die diese Modelle trainieren. Aber es gibt auch zum Beispiel Bloom. Ein Modell, das von Forschern zusammengebaut und auf der ganzen Welt trainiert wird. Das ist ein ähnlich großes Modell, das Open Source verfügbar ist. Es wird von verschiedenen Playern dieses Grundmodell erstellt und dann gibt es Anwendungen davon. Und hier kommt Legal AI und die Anwendung auf den rechtlichen Bereich ins Spiel.

Im rechtlichen Kontext gibt es verschiedene Player, wie zum Beispiel Legartis, die wirklich versuchen herauszufinden: Wie nutzen wir diese Modelle am besten, sodass für den End-User wirklich ein Nutzen dabei herauskommt? Wie entsteht ein Produkt, das ihm bei seiner täglichen Arbeit hilft und das ihm Arbeit abnimmt? Das ist der Anwendungsbereich. Um diesen Nutzen herzustellen, gibt es zum einen das Finetuning. Dazu nimmt man so ein Large Language Modell und optimiert es für eine bestimmte Aufgabe. Und das andere ist das Prompting, das immer wichtiger wird: Das Fragenstellen. Welche Fragen muss ich einem Modell stellen, damit ich genau die Antwort oder die Form der Antwort bekomme, die ich brauche.

Da sind also Finetuning und Anwendungsfälle. Wie wird das gemacht, was kann ich mir darunter vorstellen? Wer spielt da mit?

Finetuning ist eine Art Spezialisierung. Man nimmt ein Large Language Modell, das ganz viele Dinge vermag und trainiert es dann nochmals spezifisch für bestimmte Aufgaben. Dazu braucht man sogenanntes Supervised Learning, man braucht Feedback von Menschen: Was ist richtig und was ist falsch? So wird das Modell genau für diese Aufgaben trainiert. ChatGPT lernt im Finetuning beispielsweise, wie es am besten im Chat-Kontext reagiert. Die Aufgabe ist, mit einem Menschen zu chatten und möglichst gute Antworten in diesem Chat zu geben.

Andere Modelle sind zum Beispiel darauf spezialisiert, Ja-Nein-Fragen zu beantworten oder auf Reasoning. Dabei trifft das Modell Aussagen darüber, warum es zu seinem Schluss kommt. Es gibt also unterschiedliche Spezialisierungen. Das nutzen verschiedene Anbieter. Das gleiche macht auch Legartis. Wir machen auch ein Finetuning für Aufgaben, die in unserem Anwendungsfall relevant sind. Das ist vor allem die Klassifikation bei uns.

Das erscheint mir aber jetzt gerade mit Blick auf die Anwendung im juristischen Kontext als wahrscheinlich wichtiger Schritt.

Die Large Language Models sind enorm gut von sich aus gesehen. Finetuning kann die Qualität der Anwendung aber nochmal verbessern. Ich denke, das Spannende im juristischen Bereich ist ja auch, dass richtig und falsch sehr viel weniger binär ist als in fast allen anderen Wissenschaften. Es gibt oft unterschiedliche Meinungen. Das heißt, gerade da ist es sehr wichtig, dass man kohärent annotiert. Teilweise gibt es eine gewisse Auffassung, der man folgt. Das kennen Jurist:innen gut, und dann ist es wichtig, dass man dieser Auffassung kohärent folgt.

Das ist etwas, was bei Legartis wichtig ist. Wenn wir Verträge klassifizieren, dann gibt es vielleicht verschiedene Auffassungen, wie man eine gewisse Klausel klassifizieren könnte. Wir stecken viel Arbeit in die Erstellung einer kohärenten Ontologie. Das ist eine Aufteilung dieser einzelnen Kategorien, die in sich stimmig ist. Und nur dadurch, dass man eine in sich stimmige Aufgabe hat, können wir diese Modelle trainieren, um möglichst die Ergebnisse zu erzielen, die wir wollen.

Man könnte sagen, es werden immer stärkere Motoren hingestellt. Aber die Provider sorgen dafür, den Unterschied zu machen, ob es ein normales Auto ist oder wirklich ein Rennauto werden kann. Was bedeutet das für Anwendungsfälle wie die Vertragsprüfung?

Wenn wir die Vertragsprüfung anschauen, dann kann ein Modell wie ChatGPT theoretisch schon enorm viel. Das heißt, man kann da relativ frei Fragen stellen und ChatGPT gibt auch gute Antworten. Eine einzelne Vertragsprüfung besteht jedoch nicht aus einer einzelnen Frage. Wenn man ChatGPT einen Vertrag gibt und fragt, ob man diesen Vertrag unterschreiben soll, ja oder nein, dann weiß ChatGPT das auch nicht. Es fehlt ihm der Kontext. Dieser Kontext ist eine der Limitationen. Ein Mensch, der einen Vertrag prüft, weiss: Wer ist die andere Partei? Was ist für mein Unternehmen wichtig? Was sind Risiken, die wir eingehen wollen oder nicht? Und was muss in dieser Klausel spezifisch für uns geprüft werden? Das sind Kontext-Informationen, die man theoretisch mit ChatGPT lösen könnte. Man müsste aber hunderte oder eher tausende verschiedene Fragen stellen, die zusammen dann eine Vertragsprüfung ergeben. Um das Modell also wirklich zu nutzen, muss man Zwischenschritte machen. Ich muss zuerst herausfinden: Was sind die Fragen, die ich stellen möchte? Was sind die Prompts, die wir brauchen? Was machen wir dann mit diesen Informationen? Und was sind die Regeln und der relevante Kontext für mein Unternehmen, die wir für die Prüfung brauchen?

Du hast zu Beginn gesagt, die Large Language Models sind schon sehr gut. Brauche ich das Finetuning noch? Werde ich es immer brauchen?

Das wird die Zeit zeigen. Finetuning ist eine Spezialisierung. Was wir in diesem ganzen Space sehen, ist, dass wir weggehen von spezialisierten Modellen zu allgemeineren Modellen. Und dass die Large Language Modelle immer besser und immer nützlicher werden.

Was aber natürlich immer von enormer Bedeutung ist, ist das Testen. Also wenn man so ein Modell einsetzen möchte, muss man testen, ob es tatsächlich das macht, was es auch sollte, ob die Ergebnisse gut sind. Und das ist eigentlich sehr ähnlich zum Finetuning. Man muss annotieren und braucht Beispiele, an denen man sieht, was als Resultat erwartet wird und es danach überprüfen.

Du sagst, Large Language Models können sehr viel. Kannst du deinen ersten Eindruck teilen: Was kann ChatGPT denn?

Ganz simpel: ChatGPT kann das nächste Wort vorhersagen. Und es hat einen gewissen Kontext. Wenn ChatGPT die Beschreibung einer Situation und einen Kontext hat, kann es also vorhersagen: Was kommt danach? Das heisst, ich muss Input geben und beschreiben, was mein Unternehmen ist und wie meine Situation aussieht. Je mehr ich preisgebe, desto eher erzeugt ChatGPT eine adäquate Antwort. Wo das eingesetzt werden wird? Ich denke, da haben wir noch nicht ansatzweise alles, was möglich ist, erkannt. Aber das Simpelste ist natürlich die Textgenerierung. Also E-Mails schreiben, aber auch Vorschläge für einzelne Klauseln machen. Es kann auch zusammenfassen, was nützlich ist. Angenommen, man hat jetzt eine super lange, komplexe Klausel und hätte das gerne vereinfacht übersetzt. Dann kann man das nutzen.

Kann es auch Widersprüche in einem Dokument erkennen?

Wenn man nur zwei Sätze nehmen würde und dann die Frage stellt: “Siehst du einen Widerspruch darin?”, könnte ich mir vorstellen, dass es das hinkriegt. Wenn ich aber den ganzen Vertrag als Input in das Modell gebe, dann wird es diese Frage nicht direkt beantworten können. Wenn man dann fragt: “Siehst du irgendwo Widersprüche?”, wird es wahrscheinlich irgendwelche Widersprüche finden, aber nicht jene, um die es einem geht. Dann müsste man wahrscheinlich eine Reihe von 20 sehr spezifischen Fragen genau zu diesem Widerspruch stellen. Dann würde es vielleicht funktionieren.

Wieso soll ich mich als Jurist:in jetzt mit dem Thema befassen?

Das ist wie beim Zehnfingersystem. Je früher man das lernt, desto nützlicher ist es, desto länger profitiert man davon. Denn es macht einen enorm viel schneller beim Arbeiten. Ganz unabhängig davon, ob du Jurist:in bist oder nicht. Es ist klar, dass diese Modelle bleiben werden. E-Mail-Erstellung, Dokumentenerstellung, Präsentationen - diese Modelle können enorm viel und machen das Leben sehr einfach. Für den juristischen Bereich sind sie sehr nützlich, weil Large Language Models sehr viel Wissen über sehr viel Text haben, was für Jurist:innen vorteilhaft ist. Und das andere ist: Sie sind in der Lage, Texte zu schreiben und zu verstehen, was ebenfalls eine juristische Kernaufgabe ist.

Das heißt also, als Jurist kann man entweder abwarten und sehen, wie sich das weiterentwickelt. Und es wird sich weiterentwickeln. Aber schon jetzt wird deutlich, dass sich sehr viel mit diesen Modellen machen lässt. Und um zu lernen, welche Fragen man stellen muss oder was man von diesen Modellen erwarten oder eben nicht erwarten kann: Diese frühzeitig zu erfahren, wird uns einfach viel, viel effizienter machen.

Also mit anderen Worten. Ich werde nicht heute oder morgen ersetzt. Ich werde aber sicher in Rückstand kommen, wenn ich mich jetzt nicht damit auseinandersetze. Oder werden wir Menschen doch von der KI ersetzt?

In den kommenden Jahren werden wir zwei Gruppen von Jurist:innen haben: Die eine, die mit diesen Modellen umgehen kann und versteht, wo sie einzusetzen und nützlich sind. Und die werden wahrscheinlich sehr viel effizienter und schneller arbeiten können.

Stellen wir uns vor, ich bin Jurist:in in einem Unternehmen und muss mich damit auseinandersetzen. Was habe ich für Möglichkeiten?

Das Grossartige an ChatGPT ist ja, dass es so einfach ist. Die Schwelle ist enorm niedrig. Man muss überhaupt nicht aufpassen, welche Prompts man schreibt. Man kann das wirklich einfach direkt nutzen. Man muss natürlich aufpassen und bitte, bitte keine sensiblen Daten da reinstecken. Man sollte allgemein vorsichtig sein, was man da mitgibt. Aber grundsätzlich kann man da einfach mal ausprobieren, experimentieren und es nutzen für Fragen aller Art. Man kann es auch fragen, was man es fragen soll. Es gibt kaum Grenzen. Das Wichtigste ist, auszuprobieren und ein bisschen zu lernen: Was können solche Modelle, was können sie noch nicht? Das ist der einfachste Weg.

Für Jurist:innen sind sensible Daten wahrscheinlich genau das hemmende Element. Gibt es da Alternativen? Wie kann ich als Jurist:in damit umgehen?

Es kommt darauf an, wie technisch die Person ist. Wenn man möchte, dann kann man ganz viele verschiedene Möglichkeiten ausprobieren. Es gibt verschiedene Modelle über API, über Hugging Face, das ist eine Plattform, wo ganz viele solcher Modelle veröffentlicht sind. Die Schwelle ist hier aber deutlich höher als bei ChatGPT. Einerseits müssen die Prompts genauer sein, sonst erhält man keine guten Resultate. Und das andere ist es das Interface selbst. ChatGPT hat einfach ein sehr einfaches, angenehmes Interface.

Sind andere KI-Anwendungen, wie zum Beispiel Legartis, eine Möglichkeit, für die Zukunft zu lernen?

Ja. Ich denke, hier müssen wir evaluieren, inwieweit unsere User:innen selbst ausprobieren und prompten wollen oder inwiefern sie das von uns vorbereitet haben möchten. Für uns ist klar, es gibt eine Mischung. Das heisst über Legartis wird solches Prompting in der Zukunft durchaus möglich sein.

Was spricht für ein selbständiges Prompting und was spricht dagegen?

Dafür spricht natürlich die Freiheit, die es gibt. Das heißt, jede User:in und jede Kund:in von uns kann selbst völlig frei entscheiden, was sie evaluiert oder geprüft haben wollen. Was dagegen spricht, ist die Qualität und vor allem die Sicherheit. Wir haben für jeden solcher Prompts, die wir veröffentlichen und unseren Kunden zur Verfügung stellen, Testcases. Wir haben ganz viele verschiedene Beispiele, bei denen Jurist:innen annotiert haben, was da rauskommen soll. Dadurch können wir evaluieren, was hier jetzt wirklich die richtige Frage ist. Welche Frage müssen wir stellen, um zur richtigen Antwort zu kommen? Als normaler Kunde müsste man diesen Aufwand noch betreiben, um das wirklich zu testen für diese verschiedenen Fälle. Das ist sicherlich eine Schwierigkeit. Das Problem ist, wenn ich das als Kunde selbst mache und nicht so erfahren und geschult bin darin, dann kann es sein, dass ich nicht die beste Prompt nutze und dann nicht die gewünschten Resultate bekomme.

Herzlichen Dank für das Gespräch.

-----

Über Boas Loeb, Product Manager Data, Legartis:

Boas Loeb beschäftigt sich als Product Manager Data intensiv mit den Möglichkeiten und Anwendungen von Legal Tech und insbesondere von Legal AI. Er verantwortet die Produktentwicklung auf Data-Seite. Er besitzt einen juristischen Hintergrund.

Über David A. Bloch, CEO, Legartis:

David war als Anwalt bei einer führenden Schweizer Anwaltskanzlei tätig und arbeitete in den diversen Rechtsbereichen. Seit 2016 fokussiert er sich mit Passion auf die Entwicklung von digitalen Lösungen für Rechtsabteilungen. Heute ist er CEO von Legartis, einer preisgekrönten Legal Tech-Plattform zur KI-assistierten Vertragsprüfung. David ist Mitgründer des Think Tanks foraus und seit 2014 Global Shaper des World Economic Forum.

Vollständigen Beitrag anzeigen