Het huidige AI-nieuws wordt voornamelijk gedomineerd door generatieve AI en Large Language Models (LLMs). Hoewel deze modellen indrukwekkende prestaties leveren, hebben ze ook hun beperkingen.
LLM’s zijn vaak zwaar (vereisen veel middelen), duur in training en soms ongeschikt voor toepassingen die snelle en nauwkeurige antwoorden vereisen, zoals in high-risk omgevingen. Daarom hebben wij eens verder gekeken naar AI-onderwerpen waarin ook heel veel leuke ontwikkelingen in zijn, maar waar LLM’s niet per se geschikt voor zijn.
In deze blog stippen we een drietal AI-voorbeelden aan waar LLM’s niet gebruikt worden.
Sales Forecasting
Ten eerste de uitdagingen en methoden binnen sales forecasting, een specifieke toepassing van time series forecasting. In de sales heb je te maken met verschillende effecten, zoals seizoenen, kortingen en kannibalisatie. Deze effecten wil je kunnen modelleren en aan de grondslag daarvan ligt een goed sales forecasting model, dat goed kan voorspellen wat je gaat verkopen.
Om deze voorspellingen te maken kun je klassieke methoden, zoals lineaire regressie en support vector machines gebruiken, maar ook modernere technieken, zoals Deep Learning. Er zijn verschillende type modellen, elk met de bijbehorende voor- en nadelen.
Zo zijn lineaire regressiemodellen vaak simpel om te trainen en goed uitlegbaar, maar hebben ze de neiging om anti-conservatief te zijn in hun voorspellingen. Neurale Netwerken zijn soms lijken soms een voor de hand liggende oplossing, ook al zijn ze n groter en zwaarder om te trainen (slechter uitlegbaar ook). CNN’s (Convolutional Neural Networks zijn bijvoorbeeld goed in het voorspellen van lokale effecten (kortetermijn gebeurtenissen bijvoorbeeld) RNN’s (Recurrent Neural Network) aan de andere kant zijn van nature beter in staat om seizoensgebonden effecten mee te nemen.
Welke van deze modellen het best is, hangt af van de beschikbare dataset. Klassieke, kleinere algoritmes worden nog steeds heel veel gebruikt, maar de neurale netwerken zijn vaak het accuraatst.
Zelfrijdende Auto’s
Ook de zelfrijdende auto’s Tesla gebruiken geen LLM’s, maar Tesla Hydranet, een zelfontwikkeld neuraal netwerk, speciaal gebouwd om heel veel taken tegelijk te doen, snel informatie te verwerken en snel kunnen reageren. Met 8 camera’s, zonder gebruik van radar, dus op alleen visuele input kunnen Tesla’s volledig zelf rijden.
Tesla gebruikt complexe modellen om de visuele data van de 8 camera’s te verwerken, objecten te identificeren en te anticiperen op veranderingen in de rijomgeving. Het zogenaamde Hydranet is opgebouwd uit verschillende convolutional neural networks (CNN’s), Transformer-modellen en andere subelementen. Regnet’s worden gebruikt als feature extractors. De output van deze modellen wordt gevoed aan een BiFPN om features van hoge lagen van de Regnet’s en lage lagen van de Regnet’s te combineren. Op deze manier kunnen de verschillende lagen van de Regnet’s als het ware met elkaar praten om zo semantische informatie (van hoge lagen) met hoge resolutie (van lage lagen) te combineren. De features die uit de BiFPN komen worden vervolgens gevoed aan een transformer, met slechts 1 transformerblock. Deze transformer zorgt ervoor dat de input van alle 8 camera’s samenkomt in 1 feature space. Tot nu toe hebben we alleen nog op losse afbeeldingen gewerkt, maar om te rijden moet er natuurlijk gewerkt worden met video. Om deze reden worden de features in feature space met regelmatige intervallen in een video queue gezet (eens per +- 20ms, maar ook per afstand gereden). De features uit de video queue worden uiteindelijk in een Spatial RNN gevoed. Dit RNN heeft de mogelijkheid om slechts bepaalde pixels in zijn output space te vullen, waardoor het mogelijk wordt voor de auto om alleen relevante pixels (waarin iets verandert bijvoorbeeld) te veranderen.
Al met al is het ontwerp van het model erg interessant en het geeft aan hoe veel engineering er soms in het oplossen van complexe problemen zit.
Multi-Agent Pathfinding
Het derde voorbeeld van AI zonder LLM is de multi-agent pathfinding, waar meerdere agents tegelijkertijd moeten navigeren zonder elkaar te hinderen. Globaal een route plannen wordt steeds minder aantrekkelijk als het aantal agents toeneemt. Dit komt doordat de afstand die de agents samen af hadden kunnen leggen toeneemt. Daarbovenop kunnen onverwachte afwijkingen van 1 agent het optimale pad van een andere beïnvloeden. In veel situaties is snel beginnen met bewegen daarom veel meer waard dan een optimale route. Deep Learning in het verbeteren van beslissingsprocessen van individuele agenten kan helpen om zowel de optimale globale berekeningen, als het lokale gedrag te bepalen. Zo kan het herkennen dat een gebied weinig obstakels heeft, en een directe route de beste berekening zal zijn, of dat er nauwe paden zijn met veel obstakels, en een pad moet worden berekend waar veel rekening wordt gehouden met file en omwegen, waarbij de snelste en de kortste route ver uit elkaar liggen. Dit kan het probleem met globale coördinatie verlichten, maar niet oplossen.
AI in Gaming
Om met veel agents efficiënt te werken moet globale coördinatie plaats maken voor zelfstandige agents. Dit is makkelijker gezegd dan gedaan. Een grote uitdaging bij zelfstandig gestuurd gedrag trainen is dat het vaak hangt op arbitraire elementen in het trainingsproces. Om dit duidelijk te maken presenteren we een AI-model dat Pokémon leert spelen. Dit loopt op een aantal plekken vast waar de beloningen voor acties onbedoeld de ontdekking van bestaande oplossingen in de weg zitten. Zo ontwijkt het AI de snelste manier om te herstellen na een gevecht omdat het in die locatie Pokémon kwijt kan raken door ze op de computer te bewaren. Het probleem is dat hier de beloning voor uiteindelijk gewenst gedrag een enorme invloed heeft op het leerproces.
De nieuwe aanpak van DreamerV3 biedt hier een oplossing voor. Deze oplossing is in staat om een verscheidenheid aan games te leren spelen, vanaf een universele startpositie. De sleutel tot dit succes ligt in de opsplitsing in wat het probeert te leren in drie aparte modellen. Het eerste model probeert puur de toekomst te voorspellen op basis van visuele input. Daarbij maakt het niet uit hoe goed die toekomst is voor de score, alleen dat het accuraat is gegeven de inputs die gegeven worden. Hier komen dan een aantal acties uit voort die zo goed mogelijk passen op voorspellingen.
Het tweede model probeert zo goed mogelijk de beloningen voor acties te bepalen. Het beter in kaart brengen van negatief lijkende acties wordt hierdoor gestimuleerd. Dit staat los van het derde model, dat acties kiest op basis van deze eerste twee modellen, en beslist hoeveel risico het wil nemen, omdat het bijvoorbeeld al lang niks nieuws van betere waarde gevonden heeft, of juist een nieuwe voordelige actie heeft gevonden die het wil maximaliseren tot dat niet meer zo is. Zo kan de combinatie van modellen wisselen tussen exploratief opties aftasten en goed gebruik maken van de opties die het heeft.
Deze opsplitsing stelt het systeem in staat om gaandeweg een steeds beter beeld te krijgen van de manier waarop acties effect op de wereld hebben, en daarmee juist die acties te vinden die tot innovatie leiden. In plaats van een AI één specifieke taak te leren, kan het behulpzaam zijn het leerproces op te breken in aparte onderdelen. Daarmee kan een veel generiekere oplossing gevonden worden. Zo kon een model dat geleerd had om diamanten in Minecraft te maken omgaan met een verscheidenheid van beginsituaties. Hiermee kan een agent getraind worden om zelfstandig complexere taken uit te leren voeren, zonder dat de training exact op de taak hoeft te worden afgestemd.
Zodra deze agents zelfstandig kunnen handelen in een omgeving met andere agents, schaalt de oplossing linear als het aantal agents toeneemt. Waar een centrale berekening bij een bepaald aantal agents tegen een muur van torenhoge rekenkosten oploopt zodra er 1 wordt toegevoegd, kunnen zelfstandige agents deze muur ontwijken door met een voorspelbare hoeveelheid rekenkracht per agent uit de voeten te kunnen.
Dit was een tip van de sluier in de ontwikkelingen die er buiten LLMs plaatsvinden in de wereld van AI. Ook als generatieve modellen niet van toepassing zijn op jouw domein, is het het zeker waard op te letten wat AI in bredere zin kan innoveren.
Jip Maijers en Jaap Rutten