🛠 Hoe Intercom 2x meer code shipt met Claude Code — en wat dat voor jouw team betekent
Hoofdonderwerpen
- Intercom verdubbelde throughput in 9 maanden — gemeten als merged PRs per R&D-medewerker (dus inclusief PMs, designers, TPMs). Doel: 10x. Aanjager: CTO zette een expliciet 2x-doel.
- Claude Code als centrale tool, verspreid via hun IT-systeem naar alle laptops (niet via het officiële Claude Code plugins-mechanisme — dat vonden ze te wisselvallig).
- Skills + hooks (een skill is een stukje instructies + scripts dat Claude op het juiste moment gebruikt; een hook is een blokkade die afvuurt bij bepaalde acties) om kwaliteit af te dwingen, bijv. het verplicht gebruiken van een 'create PR'-skill in plaats van gewoon
gh pr create. - Telemetrie op AI-gebruik: skill-invocaties naar Honeycomb (observability-tool), volledige sessie-data geanonimiseerd naar S3 (Amazon's object-storage), plus een interne LLM-as-judge (een AI die andere AI-output beoordeelt) die de kwaliteit van PR-beschrijvingen over tijd volgt.
- Cultuur & permissie: senior engineers moeten voortrekken; 'blame me if it goes wrong' als mechanisme om mensen los te krijgen.
Key insights
- Het nieuwe bottleneck is jouw verbeelding, niet de tool. Sinds rond Claude Opus 4 (eind 2025) hoef je minder tijd te besteden aan 'de tool masseren' en meer aan bedenken wát je wil bouwen.
- Backlog zero is realistisch. Tech debt (oude rommel in de codebase waar niemand tijd voor had), flaky tests (tests die willekeurig falen), architectuurmigraties — het is nu allemaal haalbaar omdat de kosten van dat werk gecompressed zijn.
- Behandel je organisatie als een product. Meet adoptie, meet kwaliteit, bouw dashboards, doe evals. Niet meten = blind vliegen.
- Code quality gaat omhóóg, niet omlaag — mits je skills/hooks/evals goed inricht. Stanford-onderzoekers die Intercom's data analyseren zien kwaliteitswinst.
- SaaS moet agent-friendly worden. Als een agent jouw product niet in één sessie kan installeren, drukken ze ESC en bouwen ze het zelf. Onzichtbare churn.
- Opus voor alles, kosten later: Intercom kiest bewust voor 'maximaal tokens verbranden' nu, optimaliseren later. Ze zien de Anthropic-factuur groeien als hun PR-grafiek.
- Vakantie = AI-upgrade: Claire's grapje dat je meer PTO (paid time off, betaald verlof) moet geven omdat mensen terugkomen 10x skillful in Claude Code. Serieus advies.
What to Build
1. 'Create PR'-skill met hook die directe gh pr create blokkeert
Wat het is: Een Claude Code skill die automatisch hoogwaardige PR-beschrijvingen genereert op basis van de context van de sessie (wat het doel was, waarom deze aanpak, welke alternatieven). Een hook blokkeert de standaard gh pr create (de GitHub command-line tool) zodat niemand de skill kan omzeilen.
Hoe Intercom het bouwt:
- Skill-bestand (markdown) met instructies: haal intent uit de sessiecontext, volg een template, interview de user als context mist.
- Hook die
ghCLI-calls onderschept → meldt 'nee, gebruik de create-PR-skill'. - Een aparte LLM-as-judge die maandelijks alle merged PRs scoort op kwaliteit → gebruikt als feedback-loop voor de skill zelf.
Web research: Geen exacte publieke implementatie. Wel bruikbaar:
- Composio's awesome-claude-skills — verzameling van 100+ skills, inclusief PR-review patronen.
- Een 'PR Description Writer' skill bestaat al in die lijst, maar zonder blokkade-hook.
- Anthropic's eigen docs over Skills zeggen: hou SKILL.md onder 5k tokens, gebruik progressive disclosure (laad extra referentiebestanden alleen als nodig).
Analyse: De échte kracht zit niet in de skill zelf, maar in de combinatie skill + hook + judge-eval. Zonder de hook omzeilen mensen 'm. Zonder de judge weet je niet of 'ie beter wordt. Voor jou (klein team) is de hook misschien overkill — maar de judge-pattern is goud: laat wekelijks een LLM al je eigen PRs/commits scoren en leer wat je zelf beter kan doen.
Stappenplan voor jouw Next.js/Supabase setup:
- Zet een
.claude/skills/create-pr.mdin je repo met een duidelijk template (wat, waarom, alternatieven, test-plan). - Voeg een git pre-push hook toe (
.husky/pre-pushof native.git/hooks/pre-push) die checkt of de laatste commit via Claude is gedaan en of er een fatsoenlijke PR-beschrijving bestaat. - Bouw een simpele Supabase Edge Function die 1x per week via GitHub API je PRs ophaalt, door Claude laat scoren (1-5 op duidelijkheid/completeness), en in een
pr_qualitytabel schrijft. - Dashboard in Next.js: lijngrafiek van gemiddelde PR-score over tijd.
2. Telemetrie-pipeline voor Claude Code skill-gebruik
Wat het is: Elke keer dat iemand een skill aanroept, wordt een event gelogd met metadata (welke skill, wie, duur, resultaat). Dashboard in Honeycomb om adoptie te meten.
Hoe Intercom het bouwt:
- Claude Code heeft native OpenTelemetry (OTel — een open standaard voor het versturen van metrics en logs) support.
- Env vars in
.claude/settings.json:CLAUDE_CODE_ENABLE_TELEMETRY=1, OTLP-exporter naar Honeycomb. - Gedeelde API-key op alle laptops via IT.
Web research:
- Honeycomb's officiële guide geeft de exacte config — setup in ~5 minuten.
- TechNickAI/claude_telemetry — wrapper die tool calls, tokens, costs naar Honeycomb logt.
- Alternatief: SigNoz (open source observability tool) werkt net zo goed als je geen Honeycomb-account wil.
Analyse: Voor een team van 10 is Honeycomb overkill qua prijs. Maar het principe — meet je eigen AI-gebruik — is precies wat je wil als ondernemer die AI-fluent wil worden. Je ziet dan welke skills/prompts écht gebruikt worden en welke je kan wegsnijden.
Stappenplan voor Stooker-schaal:
- Zet
CLAUDE_CODE_ENABLE_TELEMETRY=1en wijs OTLP-endpoint naar een gratis Grafana Cloud account (of een Supabase-tabel via een simpele OTel-collector). - Maak één tabel
claude_usagein Supabase:user, skill_name, timestamp, duration_ms, tokens_used, outcome. - Bouw een kleine Next.js-pagina met een staafdiagram 'meest gebruikte skills deze week' + 'kosten per dag'.
- Weekly review: welke skill verdient verbetering, welke kan weg.
3. Sessie-collector met anonymisatie + 'personal insights'-tool
Wat het is: Alle Claude Code sessies (die lokaal als JSON in ~/.claude/projects/ staan) worden geanonimiseerd naar S3 gestuurd. Een interne tool geeft elke gebruiker een persoonlijk dashboard ('je zit in de 79e percentiel', 'je verspilt tokens aan X, probeer Y').
Hoe Intercom het bouwt:
- Script dat sessies uploadt naar S3 met PII-stripping (persoonlijke data eruit halen).
- Claude zelf analyseert sessies en geeft feedback per gebruiker.
- Ze gebruiken dit ook om te zien waar mensen vastlopen (bv. de Gog-integratie die verkeerd ging → prompt om CLAUDE.md te updaten).
Web research:
- Chill-AI-Space/claude-session-anonymizer — lokale anonymisatietool, goede basis.
- Claude Code heeft al een native
/insightscommando dat lokaal je laatste 30 dagen analyseert → dit werkt al out-of-the-box zonder S3. - CamoText voor PII-hashing voordat je iets uploadt.
Analyse: Voor Intercom's schaal (100+ engineers) is centraliseren nuttig. Voor jou persoonlijk: claude /insights draaien op je eigen sessies is al 80% van de waarde. Weekend-project: stel die output als wekelijkse Slack-DM aan jezelf in.
Stappenplan (persoonlijke versie):
- Cronjob op je laptop (of Mac Shortcut): draai
claude /insights --last-7-dayselke vrijdag. - Output naar een markdown-file in een Supabase Storage bucket (Supabase's variant op S3).
- Simpele Next.js-pagina
/my-ai-weekdie die markdown rendert. - Optioneel: laat Claude op basis van de insights 1 concrete 'deze week leren'-tip formuleren.
4. Self-improving flaky-test fixer
Wat het is: Skill die flaky tests (tests die random falen) automatisch fixt. Houdt een checklist bij van bekende patronen. Leert van elke fix (werkt zichzelf bij). Fant uit: vindt en fixt alle vergelijkbare tests na een succesvolle fix.
Hoe Intercom het bouwt:
- Brian liet Claude alle historische flaky-test data analyseren → daaruit een checklist genereren.
- Skill heeft feedback-loop: fixt test → verifieert via CI → leert nieuw patroon → updatet zichzelf.
- Fan-out: na een fix zoekt 'ie alle tests die door dezelfde oorzaak geraakt worden.
Web research:
- FlakyDoctor — neuro-symbolische aanpak (LLM + statische code-analyse), fixt 57-59% van real-world flaky tests.
- Atlassian's Flakinator en CircleCI's Chunk — commerciële tools die PRs genereren met fixes.
- Autonoma — zelfhelende tests voor UI-drift.
Analyse: Het mooiste aan Brian's aanpak is niet de tech, maar het proces: 'geef Claude een testbaar doel + historische data + een feedback-loop, laat 'm zichzelf verbeteren'. Dat is een template voor elk repetitief probleem.
Stappenplan (voor jouw situatie): Je hebt waarschijnlijk niet veel flaky tests, maar wel andere repetitieve problemen. Zelfde patroon op bijv.:
- Supabase RLS-policies die telkens fout gaan bij nieuwe tabellen → skill met checklist.
- TypeScript-errors in Next.js die telkens dezelfde oorzaak hebben → self-improving fix-skill.
- Stappen: (1) verzamel historische voorbeelden, (2) laat Claude een checklist destilleren, (3) bouw een skill die die checklist volgt, (4) elke nieuwe case = Claude updatet de checklist.
5. Agent-friendly installatie van je SaaS (voor Intercom zelf)
Wat het is: Intercom bouwt een CLI zodat een agent Intercom kan installeren + configureren op een klantenwebsite, inclusief email-verificatie afhandelen (via Gog — een Google Workspace CLI).
Hoe ze het bouwen:
- CLI die de Intercom API wrapped, met prompts-als-hints ('als je agent email-access heeft, check daar voor de verificatielink').
- Werkt omnichannel: REST API + MCP (Model Context Protocol — Anthropic's standaard voor agent-tool-integraties) + CLI.
Analyse voor jou: Dit is relevant voor Stooker's digitale producten. Stel je hebt een abonnementsflow of een B2B-bestel-API → hoe makkelijk kan een klant's AI-agent daar zelf doorheen? In 2026 is dit serieus: klanten laten steeds vaker Claude/ChatGPT namens hen dingen regelen.
Quick win: Maak een simpele CLI (of beter: MCP server) voor je belangrijkste customer-flow. Eén commando = klant geïnstalleerd. Test het door zelf Claude Code te vragen 'installeer Stooker abonnement voor testklant@voorbeeld.nl'.
Takeaways voor jou als ondernemer
- Jouw imagination is de bottleneck, niet je codeer-skill. Stop met denken 'kan ik dit?' en begin met 'wil ik dit?'. Brian shipte een Go microservice → Ruby herimplementatie in één sessie, iets wat vroeger maanden lobby-werk kostte.
- Behandel je eigen AI-gebruik als een product. Meet wat je doet, review wekelijks, verbeter je eigen prompts/skills. Het
/insightscommando in Claude Code is letterlijk gratis zelfkennis. - Kwaliteit gaat omhoog, niet omlaag — als je het goed inricht. Niet pure YOLO, wel snel. Skills + evals + een LLM-judge op je eigen output is geen overkill, het is hygiëne.
- Backlog zero is realistisch. Alle 'dat zou ik ooit nog willen'-dingen in Stooker's digitale stack? Nu is het moment. De kostendrempel is weg.
- Geef jezelf (en je team) expliciete permissie. Brian's grootste hack is 'blame me if it breaks' — mensen wachten op toestemming. Als ondernemer: geef die permissie aan jezelf én aan de 1-2 mensen die met jou meebouwen.
- Denk na over hoe agents jouw producten gebruiken. Niet alleen klanten-agents, ook jouw eigen operationele agents. Is Stooker's B2B-flow agent-navigeerbaar? Zo nee: dat is je volgende voordeel vs. concurrenten.
- Opus-voor-alles-strategie: Intercom kiest bewust 'max tokens, kosten later'. Voor jou in het klein: wees niet zuinig met Claude op kritieke werkmomenten. €50 aan tokens die een middag werk besparen is niks.
- Vakantie = AI-upgrade moment. Neem bij je volgende vrije week bewust tijd om te experimenteren met Claude Code op een zij-project. Je komt terug met nieuwe skills die in je dagelijks werk landen.