KI Qualitäts-Standards
Der Ruf nach KI-Qualitäts-Standards wird immer lauter. Das macht auch Sinn - denn für Laien ist es mitunter schwierig, den KI-Output zu bewerten oder zu verstehen, warum eine KI gewisse Fehler macht.
Derzeit gibt es aber noch keine offiziellen KI Qualitäts-Standards. Es gibt Initiativen, wie zum Beispiel das Legal Bench Project im englischsprachigen Raum, das Large Language Modelle in Bezug auf bestimmte Kategorien miteinander vergleicht.
Als Nutzer *in kann man aber derzeit auf wenig zurückgreifen, um zu wissen, wie gut die KI-Qualität eines Anbieters performt.
Herausforderung KI-Resultate messen
Je komplexer der Sachverhalt, desto schwieriger ist es, den KI-Output zu bewerten.
Bei einfachen Aufgaben, wie der Erkennung bestimmter Vertragsklauseln, lässt sich die Leistung einer KI durch den direkten Vergleich mit menschlichen Ergebnissen quantifizieren. Doch sobald die Aufgaben unstrukturierter werden, wie bei der Interpretation von Rechtsdokumenten, ist es schwieriger, standardisierte Testmethoden zu entwickeln.
Indikatoren für hohe KI-Qualität
Basierend auf Gesprächen mit Experten finden sich folgende Indikatoren, die auf gute KI-Qualität bei einem KI-Anbieter hinweisen:
-
Ein Indikator für die KI-Qualität eines Anbieters sind beispielsweise seine Datenschutzbestimmungen und Sicherheitsstandards der Technologie-Infrastruktur (ISO Zertifikate).
-
Interne Test-Sets: Es gibt KI-Anbieter, die mit eigenen Testsets arbeiten. Sie messen und verbessern kontinuierlich den KI-Output.
-
Fachpersonen & KI-Entwickler arbeiten zusammen: Die Weiterentwicklung einer KI in Bezug auf einen bestimmten Anwendungsfall gelingt dann besonders gut, wenn Fachpersonen, die den KI-Output bewerten können, mit den KI-Entwicklern zusammenarbeiten.
Bild: Bei Legartis werden nur KI-Resultate, die eine Genauigkeit von über 92% aufweisen (F1 Score über 0.92), dem Kunden zur Verfügung gestellt.
Wie evaluiert man eine KI für seinen Business Case?
Es gibt immer mehr Anbieter, die KI-Lösungen für verschiedene Anwendungsbereiche offerieren. Wie findet man heraus, ob die KI-Qualität den Ansprüchen genügt?
1. Anwendungsgebiet eingrenzen, KI-Qualität definieren
Je klarer definiert und eingegrenzter der Anwendungsbereich, desto besser lässt sich sagen, wie hoch die KI-Qualität sein muss: Soll die KI vollautomatisiert einen Prozess übernehmen, ohne spätere Überprüfung durch einen Menschen (autonome KI)? Dann sollte die Fehlertoleranz beim KI Output nahe null sein. Oder wird die KI für einen Prozess eingesetzt, der im Anschluss von einem Menschen nochmals kurz überprüft wird (KI Assistenz)? Dann ist die Fehlertoleranz etwas höher.
Um eine KI zu evaluieren, ist es wichtig, dass das Anwendungsgebiet eingegrenzt und die Fehlertoleranz definiert ist.
2. Datenschutzbestimmungen I Sicherheitsrichtlinien des Unternehmens
Wie bei anderen Technologie-Anwendungen sollten die Datenschutzbestimmungen und Sicherheitsrichtlinien des Anbieters im Einklang mit dem eigenen Unternehmen sein.
3. Plausibilitäts-Check machen
Weiss man, für welchen Prozess man eine KI einsetzen möchte, dann kann man die verschiedenen Anbieter kontaktieren und sie direkt fragen:
-
Nutzt ihr eigene Test-Sets? Wie sehen diese aus?
-
Gibt es Fachpersonen bei euch im KI-Entwickler-Team (im Rechtsbereich beispielsweise Anwälte), die die KI-Resultate prüfen und verbessern?
Einsatzgebiete und KI-Qualität
KI bietet erhebliche Vorteile bei repetitiven Aufgaben wie dem stundenlangen Durchsehen von Verträgen und dem Heraussuchen von Klauseln. Sie arbeitet bei diesen Aufgaben effizienter und genauer als Menschen, die durch Ermüdung fehleranfälliger werden. Beispiele für gute Einsatzmöglichkeiten einer KI:
- Routineaufgaben mit klarem Fokus: Die KI funktioniert gut bei Routineaufgaben/Fleissarbeiten, die klar definiert und nicht zu komplex sind. Dort erledigt sie Aufgaben effizient und zuverlässig. Beispiel: KI wird erfolgreich bei der Vertragsprüfung und der Analyse von Klauseln eingesetzt. Sie eignet sich sehr gut für Erstprüfungen von Verträgen.
- Dokumentenprüfung und Risikoanalyse: In Bereichen wie der Due Diligence, wo grosse Mengen an Dokumenten nach bestimmten Fragen durchsucht werden müssen, leistet die KI wertvolle Vorarbeit, indem sie relevante Informationen extrahiert und strukturiert.
- Erstellung von Textvorschlägen: KI unterstützt gut bei der Erstellung von Textvorschlägen. Seien dies Entwürfe für E-Mails, Schriftsätze oder Formulierungsvorschläge in Verträgen. Anschliessend werden diese Vorschläge von einem Menschen überprüft und gegebenenfalls angepasst.