Chatbot-Training: Was ist Overfitting und wie kann es vermieden werden?

Was ist Overfitting und warum tritt es auf?

KI-Chatbots haben die Fähigkeit, Nachrichten von Benutzern in menschlicher Sprache zu verstehen und dazu passende Antworten auszugeben. Künstliche Intelligenz funktioniert jedoch niemals ohne Daten. Bei einem KI-Chatbot bestehen die Daten aus Beispielformulierungen, wie Benutzer nach Anliegen fragen können.

Pro Anliegen benötigt ein Chatbot ein Set an Beispielformulierungen, die möglichst unterschiedlich formuliert sein sollen. Beispielformulierungen für das Anliegen „Öffnungszeiten“ wären zum Beispiel: „Wie sind die Öffnungszeiten?“, „Wann haben Sie auf?“ oder „Bis wann ist geöffnet?“.

Damit der Chatbot die unterschiedlichen Formulierungen seiner Nutzer versteht, werden ihm mehrere Beispielfragen trainiert. Im Idealfall liegt die Anzahl zwischen 5 und 25 Formulierungen pro Anliegen.

Weniger ist oft mehr

Nun würde man meinen, dass ein Chatbot besser funktioniert, je mehr Beispielformulierungen man ihm beibringt. Das ist jedoch nicht der Fall. Zu viele Daten können sich sogar negativ auf dessen Leistung auswirken und dazu führen, dass der Chatbot die Benutzer nicht mehr gut versteht. Dies geschieht vor allem dann, wenn sich Formulierungen zu stark im Aufbau ähneln oder wenn sie sich innerhalb eines Anliegens zu stark thematisch unterscheiden. Dieses Problem wird Overfitting (dt. Überanpassung) genannt.

Nicht nur bei Chatbots, sondern bei Machine-Learning-Modellen im Allgemeinen tritt das Phänomen des Overfitting häufig auf. Dabei lernen die Modelle Details in den Trainingsdaten in einem so starken Ausmaß, dass diese sich negativ auf die Verallgemeinerungsfähigkeit bei neuen Daten auswirken. Die Modelle sind dann nicht mehr in der Lage, neue Daten korrekt zu verarbeiten.

Wie vermeidet man Overfitting bei Chatbots?

Overfitting lässt sich vermeiden, indem darauf geachtet wird, nicht zu viele Formulierungen für ein Anliegen zu verfassen. Im Idealfall liegt die Anzahl zwischen 5 und 25 Formulierungen. Die ausgewählten Formulierungen sollten sich außerdem nicht zu sehr ähneln. Es ist sinnvoll Menschen aus der Zielgruppe dazu zu befragen, wie sie verschiedene Anliegen formulieren würden. Damit kann sichergestellt werden, dass sie die Zielgruppe beim Anfangstaining in Ihren Beispielformulierungen abgebildet wird.

Wenn Overfitting durch thematisch zu unterschiedliche Beispielformulierungen entstanden ist, die sich in mehrere Anliegen unterteilen lassen könnten, sollte man dies tun.

Chatbots mit der KI von IBM Watson besonders stark

Chatbots, die die Künstliche Intelligenz von IBM Watson Assistant verwenden, erzielen mit einem Trainingsdatensatz von 5-10 Beispielformulierungen pro Anliegen bereits sehr gute Ergebnisse. Das unterscheidet sie von vielen anderen Anbietern auf dem Markt, bei denen größere Datensätze für eine zuverlässige Spracherkennung benötigt werden. Das heißt für unsere Kunden: Weniger Aufwand beim Anfangstraining des Chatbots, in den Trainingsphasen und nach der Live-Schaltung.

Overfitting vs Underfitting

Neben dem Overfitting gibt es auch das Phänomen des Underfittings (dt. Unteranpassung). Hierbei hat der Chatbot zu wenig Trainingsdaten, um Muster in Sprachäußerungen zu erkennen. Underfitting zeichnet sich dadurch aus, dass bereits im Training der Chatbot Schwierigkeiten hat, Anliegen richtig zuzuordnen. Dieses Problem kann allerdings sehr simpel behoben werden, indem mehr Beispielformulierungen für die einzelnen Anliegen verfasst werden. Es ist nur wichtig, darauf zu achten, dass sich diese nicht zu stark ähneln, damit wiederrum Overfitting vermieden werden kann.

Wie können wir Sie unterstützen?

Sie würden gerne unverbindlich mehr darüber erfahren, inwiefern ein KI-Chatbot bei ihrem individuellen Anwendungsfall Ihr Unternehmen unterstützen kann? Gerne beraten wir Sie dazu in einem kostenlosen Erstgespräch. Vereinbaren Sie doch einfach einen Termin über unsere Webseite. Telefonisch erreichen Sie uns unter +49 4307 900 407. Wir freuen uns auf Sie!