AI-agenten·

Testen in het tijdperk van AI-agenten

Het gebruik van een testframework is cruciaal bij het creëren van consistente AI-agenten

Bij Coding Delta gaat onze missie verder dan alleen het helpen van onze klanten bij hun groei — we ontwikkelen en marketen ook onze eigen producten. Een van die producten is Chatsome, een AI-chatbot die naadloos integreert met de CRM-systemen van onze klanten.

Klantinteractie transformeren

Met onze CRM-integratie wordt Chatsome een integraal onderdeel van het personeelsbestand van het bedrijf. De chatbot is uitgerust met uitgebreide kennis van alle verkochte producten en fungeert als een digitale verkoopagent die 24/7 beschikbaar is om bezoekers te helpen.

Bovendien, door toegang te hebben tot bestelgegevens, functioneert de chatbot ook als een digitale klantenserviceagent die talloze vragen oplost zonder menselijke klantenservicemedewerkers in te schakelen.

Chatsome widget

Hoe werken onze agenten?

Websitebezoekers kunnen verschillende vragen stellen, variërend van verkoopvragen tot klantenservicekwesties. We hebben een uitgebreide pijplijn ontwikkeld om de intentie van de gebruiker en de juiste respons te bepalen.

Gezien de diversiteit van de producten van onze klanten — sommige verkopen deurklinken, anderen babyaccessoires — hebben we een generieke workflow gebouwd die aan elk scenario kan worden aangepast. Ondanks de verschillen in producten, beheert ons systeem ze allemaal effectief.

De brede waaier aan producten vormt echter een uitdaging: testen of codewijzigingen de prestaties van de bot voor specifieke klanten verbeteren of verslechteren. Aanvankelijk, met slechts enkele klanten, was handmatig testen haalbaar. Naarmate we opschaalden en meer edge-cases moesten behandelen, werd dit onpraktisch.

Bovendien variëren de antwoorden van ChatGPT elke keer dat dezelfde vraag wordt gesteld, wat de consistentie bemoeilijkt. Bijvoorbeeld, toen werd gevraagd "Wie is de koning van Nederland?" gaf ChatGPT de volgende antwoorden:

Antwoord 1: De huidige koning van Nederland is koning Willem-Alexander. Hij is monarch sinds 30 april 2013, na de abdicatie van zijn moeder, koningin Beatrix.

Antwoord 2: De koning van Nederland is koning Willem-Alexander. Hij is de regerende monarch sinds 30 april 2013, na de abdicatie van zijn moeder, koningin Beatrix. Koning Willem-Alexander is de eerste mannelijke monarch van Nederland in meer dan een eeuw, na een lijn van drie vrouwelijke monarchen.

Hoewel vergelijkbaar, verschillen deze antwoorden genoeg om problematisch te zijn voor computerinterpretatie.

Consistente resultaten garanderen

We hadden een oplossing nodig om dit te verbeteren. Traditionele testmethoden schieten tekort omdat, in tegenstelling tot een eenvoudige functie die consequent dezelfde output geeft voor gegeven invoer, de antwoorden van GPT kunnen variëren.

Onze test suite introduceren

Om dit aan te pakken, hebben we een interne test suite ontwikkeld. Voor elke kritische botinteractie maken we een test waarin de chatgeschiedenis en de verwachte output worden gespecificeerd. We:

  1. Vragen GPT om een antwoord te genereren op basis van de verstrekte chatgeschiedenis.
  2. Starten een nieuwe GPT-sessie en vergelijken het antwoord met de verwachte output.
  3. Evalueren het resultaat als "waar" of "onwaar."

Deze aanpak stelt ons in staat om wijzigingen in de code te verifiëren. Als een test faalt, onderzoeken en corrigeren we het probleem totdat alle tests slagen.

Waarom LLM-tests nodig zijn?

We hebben al uitgelegd dat dezelfde zin tot zeer verschillende uitkomsten kan leiden. Hieronder hebben we testresultaten waarbij we slechts 1 prompt hebben veranderd.

Zoals je kunt zien in de onderstaande afbeelding, leidt een verandering van 1 zin tot 3 extra geslaagde tests.

5 tests mislukt

2 tests mislukt na het wijzigen van 1 zin

Dit toont het belang aan van geautomatiseerde tests bij het werken met LLM's. Anders weet je nooit of nieuwe wijzigingen in de code de uiteindelijke outputs verbeteren.

De impact van LLM-testen

Zoals hierboven getoond, zijn de resultaten opmerkelijk. Onze ontwikkelingssnelheid is aanzienlijk toegenomen en we zijn zelfverzekerder in de nauwkeurigheid van de reacties van onze AI-agent op bezoekers van onze klanten.

Als je geïnteresseerd bent in het gebruik van onze AI-agenten, neem dan contact met ons op. Als je meer wilt weten over onze test suite, neem dan gerust contact met ons op.