Lokale AI voor MKB — On-premises LLM, AI-chatbot op maat & eigen AI draaien

Q: Welke modellen worden ingezet voor Nederlandstalige taken?

Voor tekst: Qwen2.5, Mistral en Gemma presteren goed op Nederlands. Voor spraakherkenning: Whisper large-v2 (fine-tuned op Nederlands corpus) voor regionale accenten en dialecten, Whisper large-v3 voor standaard-Nederlands. De exacte keuze volgt uit de inventarisatie.

/ AI voor MKB

AI-oplossingen voor Nederlandse MKB-organisaties.

AI voor het MKB is in 2026 geen toekomstmuziek meer — het is dagelijkse bedrijfsvoering. Maar veel kant-en-klare pakketten vereisen dat u uw documenten, klantgesprekken en bedrijfsdata naar een Amerikaanse cloud stuurt. Voor veel Nederlandse organisaties — zeker in juridische, zorg, forensische en industriële sectoren — is dat geen optie. Gold IT Services bouwt AI-chatbots op maat, transcriptiepipelines en document-analyse die op uw eigen hardware draaien: GDPR-compliant, AVG-proof, en zonder dat uw data ooit uw netwerk verlaat.

AI-chatbot voor uw website

Een chatbot die ú kent — klantenservice, veelgestelde vragen, offertehulp, afspraak-planning — getraind op uw eigen documenten, gekoppeld aan een lokale AI-machine bij u of bij ons.

Document-analyse & RAG

Uw hele archief doorzoekbaar met natuurlijke taal. Contracten, dossiers, kennisbanken. Vraag iets in normale zinnen, krijg het antwoord plus de bron.

Transcriptie & samenvattingen

Vergaderingen, interviews, klantgesprekken — automatisch omgezet naar tekst met Whisper, plus een samenvatting. Nederlandse accenten en dialecten worden herkend.

Vertaling & classificatie

Bulk-vertaling van inkomende documenten, automatische categorisering van mail en binnenkomende stukken, dubbele-detectie, sentiment-analyse. Alles lokaal, alles schaalbaar.

Elke oplossing is maatwerk — een kant-en-klaar pakket verkopen dat voor iedereen half werkt doen we niet. Start rechts het korte inventarisatie-gesprek voor een concreet voorstel op uw situatie.

/ Waarom lokaal

Vier redenen om over te stappen.

Data blijft binnen

Gevoelige documenten, dossiers, opnames — niets verlaat ooit uw infrastructuur. Voor forensische en juridische omgevingen is dit geen voordeel, maar een voorwaarde.

Voorspelbare kosten

Eenmalige investering in hardware plus stroomverbruik. Geen token-tellers, geen verrassingen, geen prijsverhogingen waar u geen invloed op hebt.

Stabiel model

Een model dat u vandaag kiest, werkt over een jaar nog exact hetzelfde. Geen "verbeteringen" die ineens output-formaten veranderen of prompts onbruikbaar maken.

Offline inzetbaar

Van air-gapped netwerken tot locaties met onbetrouwbare internetverbinding: lokale AI werkt ook als er géén verbinding met de buitenwereld is.

/ Praktijk

Twee projecten, in productie.

Onderstaande trajecten draaien beiden operationeel bij cliënten. Namen en specifieke domeinen laten we bewust weg — vertrouwelijkheid is onderdeel van de opdracht. De werkwijze, technische keuzes en trade-offs delen we wel.

Forensische audio-transcriptie — Nederlandse dialecten

● In productie

Een transcriptiedienst voor forensisch audio-materiaal waar Nederlandse dialect- en accentherkenning cruciaal is. De pipeline draait volledig air-gapped op één GPU-server en verwerkt opnames in batch.

De interessante keuze zat in het model. Whisper large-v3 heeft op papier een lagere WER dan large-v2, maar op regionale Nederlandse audio presteerde v2 consistent beter. We hebben v2 vervolgens verder fine-tuned op een Nederlands spraakcorpus — dat bracht de WER op forensisch materiaal nog eens aanzienlijk naar beneden.

Een dashboard laat operators de wachtrij, voortgang en eventuele fouten zien.

PlatformUbuntu 22.04 LTS

GPU1× RTX 3090 (24 GB)

ModelWhisper large-v2 + LoRA

Runtimefaster-whisper · CTranslate2

Modeair-gapped, batch

Servicesystemd + watchdog

Bulk document-vertaling — meertalig naar Nederlands

● In productie

Een air-gapped vertaaldienst die elke tien minuten een netwerk-share controleert op nieuwe documenten. Alles wat géén Nederlands is, wordt automatisch vertaald en klaargezet.

Ondersteunde formaten: .eml, .pdf, .docx, .txt, .xlsx. Elk formaat heeft zijn eigen extractie- en reconstructie-strategie zodat het resultaat leesbaar blijft.

Het taalmodel draait via een lokale inferentie-server; de business-logica zit in een Python-service met dashboard.

PlatformUbuntu Server LTS

GPUInferentie-server, volume-afhankelijk

Runtimellama.cpp / vLLM

Formaten.eml .pdf .docx .txt .xlsx

Modeair-gapped, polling

Servicesystemd + dashboard

E-discovery assistent — RAG-chatbot op softwarehandleidingen

● In productie

Voor een klant in de forensische sector draaien we een RAG-gebaseerde chatbot die juridisch-technische eindgebruikers helpt met vragen over een specifiek e-discovery softwarepakket. Alle officiële handleidingen, release-notes en interne werkinstructies staan geïndexeerd in een vector-store; de bot beantwoordt gerichte vragen en verwijst naar de juiste paragraaf of screenshot.

Het interessante zit in de persona-laag: bovenop de generieke RAG is er een dunne code-laag die de bot laat antwoorden volgens het DNA van de klantorganisatie — hun toon, hun vakjargon, hun voorkeurs-workflows. Zo voelt het niet als een algemene software-helpdesk maar als een collega die het dossier kent.

Volledig lokaal, air-gapped, geen data naar externe LLM-providers. Vragen en antwoorden worden gelogd voor kwaliteitsreview en het doorlopend verfijnen van het retrieval-corpus.

PlatformUbuntu Server LTS

TypeRAG + persona-laag

Vector-storeChromaDB

EmbeddingsNederlandstalig

InterfaceWeb chat + API

Modeair-gapped, on-prem

/ Stack

De techniek eronder.

Elk lokaal AI-traject is een stapeltje beslissingen op verschillende lagen. Hieronder de bouwstenen die wij standaard inzetten — met waar het om draait en welke concrete tuning het verschil maakt.

Ubuntu Server LTS (22.04 / 24.04)

Voor AI-werkbelasting is stabiliteit belangrijker dan het laatste snufje. Ubuntu LTS heeft de driver-ondersteuning en lange levensduur die past bij infrastructuur die jaren meegaat.

apt · systemd ufw / nftables unattended-upgrades

GPU-stack

NVIDIA driver + CUDA + cuDNN — gematcht

De meest voorkomende oorzaak van "waarom werkt dit niet" bij lokale AI is een mismatch tussen driver, CUDA-versie en de versie die PyTorch of llama.cpp verwacht. We stellen één geverifieerde combinatie vast en pinnen die.

Aanvullend zetten we standaard nvidia-persistenced aan — dat voorkomt driver-opstartlatentie bij elke inferentie-call.

nvidia-driver 550+ CUDA 12.x cuDNN 9.x persistence-mode

Inferentie

vLLM voor throughput, llama.cpp voor flexibiliteit

vLLM: veel parallelle requests, voldoende VRAM. PagedAttention, continuous batching, tensor-parallel over meerdere GPU's. Bij 4× consumer-class NVIDIA (bv. RTX 4090) of professional-class (L40S, RTX 6000 Pro) draait 70B via --tensor-parallel-size 4 --quantization awq --kv-cache-dtype fp8. Voor zware multi-user throughput: H100 of H200.

llama.cpp: GGUF-modellen, flexibele kwantisatie (Q4–Q8), CPU/GPU-offloading. Onmisbaar voor kleinere servers.

vLLM llama.cpp AWQ · GPTQ · GGUF

Modellen

Open modellen, per taak gekozen

Voor Nederlandstalige documenten en vertaling werken Qwen2.5, Mistral en Gemma goed — keuze op basis van VRAM, context-lengte en output-lengte.

Spraak: Whisper large-v2 voor regionale Nederlandse audio, large-v3 voor standaard-Nederlands en andere talen. Fine-tuning waar de business-case het rechtvaardigt.

Qwen2.5-* Mistral-* Gemma-* Whisper large-v2/v3

Web-laag

nginx reverse proxy + Python/Node.js services

Inferentie-servers niet direct publiek. nginx regelt TLS, routing en streaming (SSE voor chat-widgets). Daarachter FastAPI, Flask of Node.js.

Waar publieke bereikbaarheid nodig is: Cloudflare-tunnel, geen opengezette poorten.

nginx FastAPI / Flask Cloudflare tunnel

Procesbeheer

systemd services met restart-policies

Elke component krijgt een eigen systemd service met duidelijke restart-condities, journald logging en dependencies. Een herstart en alles komt in de juiste volgorde weer up.

systemd units journalctl Restart=on-failure

Tuning

Kleine details, groot verschil

PCIe-lanes controleren (4 GPU's draaien soms terug naar Gen2), geheugenklok vastzetten, batch-size op werkelijk VRAM-gebruik, hallucinatie-thresholds voor Whisper, midnight-rollover bugs in batch-verwerking. Komt niet uit een tutorial, komt uit ervaring.

nvidia-smi -pm 1 pcie gen check batch_size tuning

/ Hardware

Drie realistische instapniveaus.

Hardware is een middel, geen doel. Deze niveaus zijn richtinggevend — de concrete keuze volgt uit de inventarisatie. Eerst meten, dan kiezen.

Niveau I

Instap

Eén specifieke taak, laag tot middelmatig volume. Transcriptie, lokale chatbot voor klein team, document-samenvatting.

GPU1× 24 GB (RTX 3090/4090)
Modeltot 13B (Q4/Q6)
Gebruikers1–3
PlatformWorkstation

Niveau II

Productie

Meerdere taken, dagelijks gebruik, meerdere gebruikers tegelijk. Sweet spot voor de meeste organisaties.

GPU2–4× RTX 4090 / L40S / 6000 Pro
VRAM-klasse48–192 GB totaal
Modeltot 70B (AWQ)
Gebruikers5–20

Niveau III

Cluster

Meerdere nodes achter load-balancer. Redundantie, failover, horizontale schaalbaarheid, kritische throughput.

GPUH100 / H200 · multi-node
Model70B+ · multi-instance
Gebruikers20+ · HA
PlatformRack-cluster

/ Levering & hosting

Drie manieren om live te gaan.

Niet elke organisatie zit klaar om zelf een GPU-server in de meterkast te zetten. Daarom zijn er drie routes. Alle drie zijn maatwerk — de onderstaande schets geeft de hoofdsmaak, de details vullen we samen in.

Variant A

On-prem bij u

Klassieke lokale AI: hardware wordt geïnstalleerd bij u, draait onder uw beheer, u krijgt de sleutels. Data verlaat uw pand niet.

Locatie hardwarebij de klant
Beheerklant (of SLA)
Custom dashboardinbegrepen
Kosteneenmalig + optioneel SLA

Variant B

Site + chatbot + eigen rig

Uw website krijgt een make-over of wordt nieuw gebouwd, inclusief een chatbot die praat met een lokale AI-machine die we op maat leveren. Chatbot kent uw product, data blijft bij u.

Websiteredesign of nieuw
Chatbot-integratieop uw eigen site
AI-machineop maat, bij u
Custom dashboardinbegrepen

Variant C

Gehost bij Gold IT

Geen GPU's in huis, geen ruimte, geen zin in beheer. Website én optioneel lokale AI draaien op onze rigs. Klein bedrag per maand, allemaal maatwerk — neem contact op voor de precieze vormgeving.

Locatie hardwareGold IT private server
Website hostingvanaf ~klein bedrag p/mnd
Optioneel AI op onze rigsja
Beheerdoor Gold IT

Elke variant is aanpasbaar — bestaande AI-tooling die u al draait nemen we op in het dashboard, chatbots kunnen worden gekoppeld aan uw eigen bronnen (FAQ's, handleidingen, interne documenten), en bij gehoste oplossingen bepaalt u zelf welk deel bij u blijft en welk deel bij ons draait. Stuur een mail met uw situatie voor een concreet voorstel.

/ Dashboard

Eén dashboard voor alles wat bij u draait.

Bij elk project — klein of groot — hoort een custom dashboard. Geen generieke template, wel een interface die laat zien wat voor ú relevant is: voortgang, wachtrij, uptime, resources. Heeft u al andere AI-tooling draaien? Die nemen we op in hetzelfde dashboard, zodat alles op één plek staat.

Per project maatwerk

Een transcriptiedienst heeft andere meters nodig dan een vertaalbot. Elk dashboard wordt gebouwd rond wat voor uw situatie zinnig is.

Bestaande tooling mee

Heeft u al een interne chatbot, classificatie-service, of monitoring-systeem? Dat integreren we via hun API's zodat alles in één venster zichtbaar is.

Uitbreidbaar

Komt er later iets bij, of wilt u een nieuwe meter toegevoegd? Geen nieuw product — we breiden uw bestaande dashboard uit.

Op uw eigen server

Het dashboard draait op uw infrastructuur (of, bij gehoste projecten, op onze private server). Geen SaaS-abonnement, geen externe afhankelijkheid.

/ Traject

Van eerste gesprek naar productie.

Geen verplicht minimum aantal uren, geen pakketten. Elke stap is onafhankelijk — u kunt uitstappen zonder dat er al een factuur is ontstaan.

STAP 01

Inventarisatie

Vrijblijvend gesprek: taak, volume, data, randvoorwaarden.

STAP 02

Voorstel

Heldere offerte: hardware onderbouwd, uren, doorlooptijd, risico's.

STAP 03

Bouw

Installatie, configuratie, testen met echte data. Tussentijdse demo's.

STAP 04

Oplevering

Documentatie, toegang, introductie. Servicecontract optioneel.

/ Veelgestelde vragen

Vragen die vaak terugkomen.

Is lokale AI betaalbaar voor MKB-organisaties?

Een bruikbare lokale AI-opstelling begint bij een eenmalige investering die voor de meeste MKB-organisaties lager uitvalt dan twee jaar cloud-abonnement. Het draait om goede inventarisatie van het werkelijke volume en de juiste hardware-keuze, niet om groot budget. Een gerichte workstation-opstelling met één GPU kan al voldoende zijn voor veel usecases.

Welke hardware is nodig voor een lokale LLM?

Voor instap-use cases volstaat één NVIDIA GPU met 24 GB VRAM (bijvoorbeeld een RTX 3090 of RTX 4090) voor modellen tot 13B. Productie-opstellingen draaien doorgaans op 2 tot 4 GPU's met tensor-parallellisme via vLLM — denk aan 4× RTX 4090, L40S (48 GB) of een RTX 6000 Pro. Voor 70B+ modellen en multi-user throughput zijn datacenter-kaarten zoals H100 of H200 geschikt. De juiste keuze volgt uit de inventarisatie.

Lopen open modellen nog ver achter op GPT-4 en Claude?

Voor bulk-taken zoals transcriptie, vertaling, samenvatting en classificatie is het verschil klein tot verwaarloosbaar. Voor de zwaarste redeneringstaken is er nog een gat, maar dat sluit elk kwartaal. Qwen2.5, Mistral en Gemma leveren voor de meeste zakelijke usecases meer dan voldoende kwaliteit.

Kan lokale AI air-gapped draaien zonder internetverbinding?

Ja. Alle componenten (modellen, inferentie-engine, applicatielaag) draaien volledig offline zodra ze geïnstalleerd zijn. Dit is standaard voor forensische en juridische omgevingen en voor locaties met onbetrouwbare internetverbinding. Updates gebeuren gecontroleerd via een apart gateway-pad.

Wie beheert de infrastructuur na oplevering?

De klant. Oplevering omvat documentatie, toegangsgegevens en introductie voor eindgebruikers. Beheer beperkt zich in de praktijk tot een handvol systemd-services en een dashboard. Een optioneel servicecontract is mogelijk, maar niet verplicht — afhankelijkheid is geen verdienmodel.

Welke modellen worden ingezet voor Nederlandstalige taken?

Tekst: Qwen2.5, Mistral en Gemma presteren goed op Nederlands. Spraak: Whisper large-v2 (fine-tuned op Nederlands corpus) voor regionale accenten en dialecten, Whisper large-v3 voor standaard-Nederlands. De exacte keuze volgt uit de inventarisatie — modelkeuze is taak-specifiek.

Krijg ik bij mijn project ook een dashboard, en kan dat mijn bestaande AI-tooling meenemen?

Ja, bij elk project hoort een custom dashboard dat wordt gebouwd rond wat voor uw situatie relevant is: wachtrij, voortgang, uptime, resources. Bestaande AI-tooling die u al draait kan via API's worden meegenomen zodat alles op één plek zichtbaar is. Het dashboard is uitbreidbaar naar wensen die later opkomen.

Kan Gold IT Services ook mijn website hosten en een chatbot inbouwen?

Ja. Er zijn drie varianten: on-prem bij de klant, een website met geïntegreerde chatbot gekoppeld aan een op-maat geleverde lokale AI-machine bij de klant, of volledig gehost op Gold IT's eigen private server vanaf een klein maandbedrag — eventueel met lokale AI-capaciteit op onze rigs. Alle varianten zijn maatwerk en vragen een voorafgaand gesprek.

Lokale AI die in uw pand draait — niet in de cloud van iemand anders.

AI-oplossingen voor Nederlandse MKB-organisaties.

AI-chatbot voor uw website

Document-analyse & RAG

Transcriptie & samenvattingen

Vertaling & classificatie

Vier redenen om over te stappen.

Data blijft binnen

Voorspelbare kosten

Stabiel model

Offline inzetbaar

Twee projecten, in productie.

Forensische audio-transcriptie — Nederlandse dialecten

Bulk document-vertaling — meertalig naar Nederlands

E-discovery assistent — RAG-chatbot op softwarehandleidingen

De techniek eronder.

Ubuntu Server LTS (22.04 / 24.04)

NVIDIA driver + CUDA + cuDNN — gematcht

vLLM voor throughput, llama.cpp voor flexibiliteit

Open modellen, per taak gekozen

nginx reverse proxy + Python/Node.js services

systemd services met restart-policies

Kleine details, groot verschil

Drie realistische instapniveaus.

Instap

Productie

Cluster

Drie manieren om live te gaan.

On-prem bij u

Site + chatbot + eigen rig

Gehost bij Gold IT

Eén dashboard voor alles wat bij u draait.

Per project maatwerk

Bestaande tooling mee

Uitbreidbaar

Op uw eigen server

Van eerste gesprek naar productie.

Inventarisatie

Voorstel

Bouw

Oplevering

Vragen die vaak terugkomen.

Benieuwd wat er in uw situatie mogelijk is?