Wie man die KI-Qualität messen kann

Die Voraussetzung zur Messung der KI-Qualität ist ein sogenanntes Test-Set. Man testet, wie gut eine Aufgabe von einem Menschen und wie gut diese von einer KI gelöst wird. Diese Test-Sets sind die Basis, um die KI immer weiter und auf exaktere Outputs zu trainieren. Legartis beispielsweise gibt nur KI-Resultate frei, die eine Genauigkeit von über 92% erreichen. 

1. Eine Aufgabe wird von Menschen gelöst

Beispiel: Aus 100 Verträgen soll eine bestimmte Klausel extrahiert werden. Lassen Sie diese Aufgabe von Fachpersonen lösen. 

 

2. Dieselbe Aufgabe wird von einer KI gelöst

Lassen Sie nun dieselbe Aufgabe von einer KI bewältigen. Also: Die KI soll aus 100 Verträgen eine bestimmte Klausel erkennen. 

3. Vergleich der Ergebnisse

Die Antworten der KI wird mit den menschlichen verglichen. So erhält man eine Übereinstimmung oder Abweichung. Man kann quantifizieren, wie gut die KI im Vergleich zum Menschen abschneidet. 

 

KI Qualitäts-Standards

Der Ruf nach KI-Qualitäts-Standards wird immer lauter. Das macht auch Sinn - denn für Laien ist es mitunter schwierig, den KI-Output zu bewerten oder zu verstehen, warum eine KI gewisse Fehler macht. 

Derzeit gibt es aber noch keine offiziellen KI Qualitäts-Standards. Es gibt Initiativen, wie zum Beispiel das Legal Bench Project im englischsprachigen Raum, das Large Language Modelle in Bezug auf bestimmte Kategorien miteinander vergleicht. 

Als Nutzer *in kann man aber derzeit auf wenig zurückgreifen, um zu wissen, wie gut die KI-Qualität eines Anbieters performt. 

Herausforderung KI-Resultate messen

Je komplexer der Sachverhalt, desto schwieriger ist es, den KI-Output zu bewerten. 

Bei einfachen Aufgaben, wie der Erkennung bestimmter Vertragsklauseln, lässt sich die Leistung einer KI durch den direkten Vergleich mit menschlichen Ergebnissen quantifizieren. Doch sobald die Aufgaben unstrukturierter werden, wie bei der Interpretation von Rechtsdokumenten, ist es schwieriger, standardisierte Testmethoden zu entwickeln. 

 

Indikatoren für hohe KI-Qualität

Basierend auf Gesprächen mit Experten finden sich folgende Indikatoren, die auf gute KI-Qualität bei einem KI-Anbieter hinweisen: 

  • Ein Indikator für die KI-Qualität eines Anbieters sind beispielsweise seine Datenschutzbestimmungen und Sicherheitsstandards der Technologie-Infrastruktur (ISO Zertifikate). 

  • Interne Test-Sets: Es gibt KI-Anbieter, die mit eigenen Testsets arbeiten. Sie messen und verbessern kontinuierlich den KI-Output. 

  • Fachpersonen & KI-Entwickler arbeiten zusammen: Die Weiterentwicklung einer KI in Bezug auf einen bestimmten Anwendungsfall gelingt dann besonders gut, wenn Fachpersonen, die den KI-Output bewerten können, mit den KI-Entwicklern zusammenarbeiten.

Testset-Legartis

Bild: Bei Legartis werden nur KI-Resultate, die eine Genauigkeit von über 92% aufweisen (F1 Score über 0.92), dem Kunden zur Verfügung gestellt.

Wie evaluiert man eine KI für seinen Business Case? 

Es gibt immer mehr Anbieter, die  KI-Lösungen für verschiedene Anwendungsbereiche offerieren. Wie findet man heraus, ob die KI-Qualität den Ansprüchen genügt? 

1. Anwendungsgebiet eingrenzen, KI-Qualität definieren

Je klarer definiert und eingegrenzter der Anwendungsbereich, desto besser lässt sich sagen, wie hoch die KI-Qualität sein muss: Soll die KI vollautomatisiert einen Prozess übernehmen, ohne spätere Überprüfung durch einen Menschen (autonome KI)? Dann sollte die Fehlertoleranz beim KI Output nahe null sein. Oder wird die KI für einen Prozess eingesetzt, der im Anschluss von einem Menschen nochmals kurz überprüft wird (KI Assistenz)? Dann ist die Fehlertoleranz etwas höher. 

Um eine KI zu evaluieren, ist es wichtig, dass das Anwendungsgebiet eingegrenzt und die Fehlertoleranz definiert ist. 

2. Datenschutzbestimmungen I Sicherheitsrichtlinien des Unternehmens 

Wie bei anderen Technologie-Anwendungen sollten die Datenschutzbestimmungen und Sicherheitsrichtlinien des Anbieters im Einklang mit dem eigenen Unternehmen sein.

3. Plausibilitäts-Check machen 

Weiss man, für welchen Prozess man eine KI einsetzen möchte, dann kann man die verschiedenen Anbieter kontaktieren und sie direkt fragen: 

  • Nutzt ihr eigene Test-Sets? Wie sehen diese aus? 

  • Gibt es Fachpersonen bei euch im KI-Entwickler-Team (im Rechtsbereich beispielsweise Anwälte), die die KI-Resultate prüfen und verbessern? 

 

Einsatzgebiete und KI-Qualität

KI bietet erhebliche Vorteile bei repetitiven Aufgaben wie dem stundenlangen Durchsehen von Verträgen und dem Heraussuchen von Klauseln. Sie arbeitet bei diesen Aufgaben effizienter und genauer als Menschen, die durch Ermüdung fehleranfälliger werden. Beispiele für gute Einsatzmöglichkeiten einer KI: 

  1. Routineaufgaben mit klarem Fokus: Die KI funktioniert gut bei Routineaufgaben/Fleissarbeiten, die klar definiert und nicht zu komplex sind. Dort erledigt sie Aufgaben effizient und zuverlässig. Beispiel: KI wird erfolgreich bei der Vertragsprüfung und der Analyse von Klauseln eingesetzt. Sie eignet sich sehr gut für Erstprüfungen von Verträgen. 
  2. Dokumentenprüfung und Risikoanalyse: In Bereichen wie der Due Diligence, wo grosse Mengen an Dokumenten nach bestimmten Fragen durchsucht werden müssen, leistet die KI wertvolle Vorarbeit, indem sie relevante Informationen extrahiert und strukturiert.
  3. Erstellung von Textvorschlägen: KI unterstützt gut bei der Erstellung von Textvorschlägen. Seien dies Entwürfe für E-Mails, Schriftsätze oder Formulierungsvorschläge in Verträgen.  Anschliessend werden diese Vorschläge von einem Menschen überprüft und gegebenenfalls angepasst.

Lernen Sie die Legal AI von Legartis kennen.

Jetzt Legartis kennenlernen

Die passende Lösung für viele Teams

Die KI-assistierte Prüfung ermöglicht uns ein verbessertes Risikomanagement, da sie sofort erkennt, welche Klauseln gegen die Unternehmensstandards verstossen, konträr oder anders formuliert sind.
Nicole Steuer
General Counsel DACH
Rexel Group
Die manuelle Prüfung eines Datenschutzvertrages braucht je nach Umfang und Komplexität eines Vertrags ca. 45 - 60 Minuten - auch durch einen erfahrenen Juristen. Mit Legartis sind wir in der Lage, die Erstprüfung eines DPAs auf unter 10 Minuten zu reduzieren.
Dr. Marc Hansmann
Director Legal & Governance
Arvato Supply Chain Solutions
Die Routineaufgabe der NDA-Vertragsprüfung ist mit AI besser gelöst als durch kostenintensive Ressourcen im Backoffice. Die AI ist schnell. Wir müssen im Anschluss an die AI Vertragsanalyse nur noch den Handlungsanweisungen der AI folgen.
Norbert Knapp
Chief Commercial Officer
Publicis Group

Die passende Lösung für jedes Team

Legal Team

Legal-Teams

Legartis automatisiert die Vertragsprüfung, so dass Sie sich auf komplexere Herausforderungen konzentrieren können.

Sales-Team

Vertriebsteams

Legartis sorgt für die lückenlose Einhaltung Ihrer Richtlinien auf dem Weg zur Unterschrift und führt Sie reibungslos zum Vertragsabschluss.

Procurement-Team

Einkaufsteams

Legartis erhöht die Effizienz im Einkauf und erlaubt es Ihnen, sich der Gestaltung optimaler Vertragskonditionen zu widmen.

Entdecken Sie das volle Potenzial von Legartis

Zeitaufwändige und komplizierte Vertragsprozesse gehören der Vergangenheit an. Die künstliche Intelligenz von Legartis unterstützt Rechtsabteilungen sowie Vertriebs- und Einkaufsorganisationen bei der Vertragsprüfung.

Frequently asked questions (FAQ)

+
Welche Fehler macht eine KI?
1. Fehlerhafte Ergebnisse wegen Prompts: Das sind Fehler, die aufgrund unklarer Eingaben oder Anweisungen ("Prompts") entstehen. Diese Missverständnisse können dazu führen, dass die KI unerwartete oder fehlerhafte Ergebnisse liefert. 2. Unvollständige oder ungenaue Antworten: Fehler, bei denen die KI eine Aufgabe nur teilweise richtig erfüllt, da evt. Kontext fehlt oder zu wenig Daten vorliegen. 3. Interpretationsabweichungen: Bei Aufgaben, die mehrere richtige Antworten zulassen, wie der Zusammenfassung eines Gerichtsprozesses, können Abweichungen auftreten, die nicht unbedingt als Fehler, sondern als unterschiedliche Interpretationen oder Lösungen gelten. 4. Halluzinationen: Fehler, bei denen die KI Informationen erfindet, die im Ausgangsdokument nicht vorhanden sind. Diese Art von Fehlern wird als besonders problematisch beschrieben, da sie unerwartete und unvorhersehbare Ergebnisse liefern, was das Vertrauen in die KI erschwert.
+
Kann man einer KI vertrauen?
Wenn man jemanden ausbildet und die KI in gewisser Weise auch ein auszubildende/r Mitarbeiter*in ist, verlässt man sich irgendwann darauf, dass die Arbeit gut erledigt wurde. Insbesondere dann, wenn sie sich 30 oder 40 Mal bewährt hat. Also wenn man erkannt hat, dass die KI gut funktioniert und die Arbeit zuverlässig macht, dann baut sich Vertrauen auf.
+
Wer haftet, wenn eine KI Fehler macht?
Wenn ein/e Anwalt/Anwältin ein signiertes Dokument versendet, ist es unerheblich, wie er/sie dieses erstellt hat. Ob mit oder ohne KI. Er/sie haftet in diesem Fall.
+
Wie viel schneller ist man mit einer KI bei der Vertragsanalyse?
Der Einsatz von KI, wie zum Beispiel mit Legartis bei der Vertragsprüfung, bedeutet, dass die KI als Assistenzlösung dient. Sie hilft dabei, die Arbeit um bis zu 85% schneller zu erledigen, je nach Wahl des Automatisierungsgrads. Bei Risikoanalysen über alle aktiven Verträge ergeben sich Kostenreduktionen aufgrund des Wegfalls manueller Arbeit um über 90%.
+
Warum sollte man heute schon KI rund um Verträge einsetzen?
Automatisierung mit KI reduziert die Kosten für externe Anwaltskanzleien und minimiert rechtliche Risiken. Unternehmen profitieren von einer schnelleren Vertragsabwicklung und einer höheren Effizienz.
+
Welche Datenschutz- und Compliance-Vorgaben deckt Legartis ab?
Legartis ist vollständig DSGVO-konform und entspricht den höchsten Sicherheitsstandards, einschliesslich ISO/IEC 27001-Zertifizierung.
+
Was hebt Legartis von anderen Legal AI-Lösungen ab?
Legartis bietet eine vortrainierte und vorgetestete Lösung (interne Testsets), die sofort einsatzbereit ist. Durch die Kombination von Sprachmodellen und juristischer Expertise bietet Legartis präzise und konsistente Ergebnisse und unterstützt mehrere Sprachen (Deutsch, Englisch, Französisch).