How I AI

🛠 Claire Vo's echte GPT-5.5 test: hacken in een Chinees Bluetooth-schermpje

Plus hoe ze 2M rijen legacy chat-data migreerde in één shot en 6 uur autonoom Codex liet draaien

Open in Readwise →

Hoofdonderwerpen

  • GPT-5.5 en GPT-5.5 Pro zijn uit in Codex en ChatGPT (nog niet in de API). Duur: $30/$180 per miljoen tokens voor Pro (input/output). Claire Vo testte het weken en is enthousiast — vooral over het feit dat het autonomer en token-efficiënter werkt.
  • Intelligence overhang: in ChatGPT wist ze niet goed wat ze met al die intelligentie moest. Haar dagelijkse problemen zijn niet complex genoeg. Voor developers met echte tech debt is het een ander verhaal.
  • Bulk tech debt wegwerken door een CSV met security issues naar Codex te gooien en te zeggen: groepeer, plan, fix. Daarna kwam hun pen-test (penetratietest — externe security audit waarbij hackers proberen je app te kraken) schoon terug.
  • Data-migratie van 2 miljoen chat-rijen naar een uniform schema — iets waar haar team al maanden op vastliep — werd in één shot opgelost met 98% edge case coverage.
  • 6 uur autonoom draaien: Codex bouwde zelf een smoke test (snelle test om te checken of basisfunctionaliteit werkt) via sub-agents, testte threads tegen Anthropic en OpenAI, en fixte zichzelf. Nul prompts, nul steering.
  • Het echte eval-momentje: Claire hackte na maanden falen met Claude en GPT-5 eindelijk haar Divoom Pixoo (een retro Bluetooth-pixelschermpje uit China met proprietary protocol) via packet sniffing (Bluetooth-verkeer afluisteren om te zien welke bytes de officiële app verstuurt) en een CLI tool die GPT-5.5 bouwde.

Key insights

  • Het ROI-frame verschuift van 'sneller' naar 'ambitieuzer'. Claire zegt letterlijk: GPT-5.5 doet dingen die ze voorheen niet eens probeerde omdat de intelligentie er niet was. Dit is een belangrijke mentale switch — je moet nu groter durven dromen over wat je kunt aanpakken.
  • Autonomie × efficiëntie = echte overnight agents. Iedereen roept 'mijn agent draaide de hele nacht' maar dit is de eerste keer dat zij dat ook echt werkend zag, 6 uur zonder babysitten.
  • Het kwaliteitsverhaal over AI coding is achterhaald. De narrative van 'vibe coders leveren rommel' klopt volgens haar niet meer — met deze intelligentie gaat kwaliteit juist omhoog omdat je tech debt en edge cases aankunt die je voorheen links liet liggen.
  • Chain-of-thought reasoning (de AI laat zien hoe hij stap-voor-stap denkt voordat hij antwoordt) kost tijd — ze wachtte 17 minuten op een simpele rekenapp. Voor kleine taken is dat overkill.
  • Persoonlijkheid matters: Codex heeft standaard een 'baked potato personality'. Via /personality kun je 'm naar Gen Z zetten. Klein ding, maar het laat zien dat OpenAI bewust aan tone werkt.

What to Build

1. Bulk security remediation via CSV → coding agent

Wat het is: Je haalt een lijst security of tech-debt issues uit een scanner (zoals Snyk, SonarQube of OpenAI's Codex Security product), exporteert als CSV, en laat een AI-agent ze thematisch groeperen en fixen in één batch — in plaats van issue voor issue.

Hoe Claire het bouwde:

  • Security scan via OpenAI Codex Security op de ChatPRD codebase
  • CSV download van de issues
  • Upload naar Codex met prompt: architecturaal reviewen, thematisch groeperen, changes voorstellen, dan uitvoeren
  • Human review + code review op de output
  • Validatie via een annual pen-test die schoon terugkwam

Web research: Er is geen kant-en-klare CSV-upload tool in de markt. GitHub Copilot Coding Agent werkt per issue (via GitHub Issues API) en heeft bij GitHub's eigen billing team remediation van weken naar uren gebracht (case study). Codegen doet autonome debt-tickets. Bekende valkuil: AI-agents missen vaak error handling en security-checks (het '80% probleem') — altijd CI-scans draaien na afloop.

Analyse: Voor Stooker's schaal is dit overkill voor security (je hebt geen miljoenen regels code), maar het patroon is goud voor elke lijst repetitieve fixes. Denk: een CSV met 40 productfoto's die allemaal alt-tags missen, 60 blog posts die een metadata-update nodig hebben, 200 customer records die geformatteerd moeten worden. Het patroon = lijst + groepeer + fix-in-batch.

Stappenplan voor jouw Next.js/Supabase stack:

  1. Dump issues/taken in een Supabase tabel of CSV (van Sentry, Linear, of een eigen script)
  2. Schrijf een prompt-template: "Hier is een CSV met N items. Groepeer thematisch, stel per groep een aanpak voor, wacht op mijn akkoord, voer uit"
  3. Gebruik Codex CLI, Claude Code, of bouw een simpele Next.js admin-page waar je de CSV uploadt en naar een AI-endpoint stuurt
  4. Review gate: laat de agent altijd eerst een plan tonen per groep voordat hij fixt
  5. CI/tests draaien na elke batch — geen auto-merge

2. Legacy data-migratie met AI voor messy schemas

Wat het is: Je hebt jarenlang data opgeslagen in wisselende formaten (omdat APIs veranderden, je schema evolueerde, of je meerdere providers gebruikt). In plaats van zelf migrations te schrijven laat je een AI-agent de hele conversie bouwen én valideren.

Hoe Claire het bouwde:

  • Probleem: miljoenen chat-rijen in legacy formats van OpenAI en Anthropic (beide hebben hun API-response shape meerdere keren veranderd)
  • Gaf GPT-5.5 Pro het hele probleem inclusief docs en libraries
  • One-shot migratie gebouwd die 98% van edge cases dekte
  • Daarna een CLI-tool laten bouwen die een production-like test environment opzet, elke thread via de echte Anthropic/OpenAI APIs valideert, en een scalable test-systeem vormt dat elke agent kan draaien
  • Prompt: "I trust you to make a call, figure out how to spawn a sub agent to do this, test it, and identify any issues, repair them" — 6 uur autonoom, daarna 1 edge case uit 2M rijen

Web research: Er bestaan AI-assisted migration tools — Datafold DMA doet SQL-naar-SQL translaties met diff-validatie, Matillion heeft AI-agents voor CRM schema mapping, AIMi van SDG Group analyseert legacy systems. Geen daarvan is specifiek voor AI-chat-logs. Best practice: profileer je data eerst, map schemas upfront, test in kleine batches.

Analyse: Dit is voor de meeste kleine bedrijven niet direct relevant — tenzij je zelf conversatie-data of klantdata opslaat die over jaren van formaat veranderd is. Voor Stooker denkbaar: als je ooit klantdata of orderdata hebt staan in oude Airtable/Notion/Excel-exports die nu naar Supabase moet.

Stappenplan voor Next.js/Supabase:

  1. Exporteer een representatieve sample (500-1000 rijen) van je messy data
  2. Geef Claude Code of Codex het doel-schema (Supabase tabel-definitie) + sample input
  3. Laat 'm een migratie-script schrijven dat naar een staging tabel in Supabase schrijft, niet productie
  4. Laat de agent zelf een validatie-script bouwen: vergelijk row counts, check null rates per kolom, sample 50 conversions handmatig
  5. Pas na clean validatie: swap staging → prod (gebruik Supabase's ability om tabellen te renamen in een transactie)

3. Hack-into-proprietary-Bluetooth-device workflow

Wat het is: Een workflow om elk IoT-device met een mobiele app maar zonder open API te 'kraken' via reverse engineering van het Bluetooth-verkeer. Claire deed dit met een Divoom Pixoo (retro-style pixel display).

Hoe Claire het bouwde:

  • Bluetooth developer profile op iPhone geïnstalleerd
  • Packet sniffer aangesloten (tool die alle Bluetooth-pakketten logt die tussen telefoon en device gaan)
  • De officiële Divoom-app gebruikt om een image te sturen terwijl sniffer meeloopt
  • Alle logs + context naar GPT-5.5 Pro in Codex
  • Codex figureerde uit hoe de bitmap encoding werkte en bouwde een CLI tool
  • Hooked het op als notify hook in Codex config: elke keer dat Codex een taak afrondt, toont het schermpje een bericht

Web research: MattIPv4/divoom-control bestaat al — Node.js CLI die bitmaps naar Pixoo stuurt via Bluetooth. Ook node-divoom-timebox-evo voor het Timebox protocol. Dus Claire's tool bestond al open-source, maar zij heeft 'm zelf gebouwd via reverse engineering — wat het interessante punt maakt: GPT-5.5 kan echt reverse engineeren, niet alleen docs samenvatten.

Analyse: Direct toepasbaar? Niet voor koffie. Maar het patroon — AI + packet sniffer = je kunt elk closed systeem openmaken — is conceptueel belangrijk. Denk aan: oude koffie-equipment met alleen een app, maar jij wilt data naar je eigen dashboard. Of een IoT-temperatuursensor die alleen via de fabrikant-cloud werkt.

Stappenplan als je ooit iets soortgelijks wilt doen:

  1. Install Wireshark of een Bluetooth packet sniffer (op Mac: PacketLogger uit Apple's Additional Tools for Xcode)
  2. Log een paar representatieve acties in de officiële app (bijv. 'stuur image', 'zet brightness')
  3. Geef de logs + een beschrijving van wat je deed aan Codex of Claude Code
  4. Vraag: "figureer het protocol uit en bouw een Node.js CLI die hetzelfde kan"
  5. Test incrementeel — eerst connectie, dan 1 simpel commando, dan complexe

4. Notify-hook op een fysiek scherm wanneer je agent klaar is

Wat het is: Een klein retro-schermpje op je bureau dat een bericht of animatie toont elke keer dat je AI-agent een taak afrondt. Ambient notifications in plaats van een push naar je telefoon.

Hoe Claire het bouwde: Gewoon een shell-hook in haar Codex config die haar CLI aanroept en een bericht naar de Pixoo stuurt.

Stappenplan:

  1. Koop een Divoom Pixoo (~€70) of ander ambient display
  2. Install divoom-control van MattIPv4 of bouw zelf via Claude Code
  3. In Claude Code/Codex: voeg een hook toe in je config die na elke task completion een commando runt
  4. Script: random bericht/emoji op het scherm tonen
  5. Bonus: laat het scherm kleur veranderen afhankelijk van task type (groen = tests pass, rood = error)

Takeaways voor jou als specialty coffee ondernemer met AI

  • Denk ambitieuzer, niet sneller. De grootste les hier: Claire pakte dingen op die ze voorheen liet liggen omdat de intelligentie er niet was. Vraag jezelf: wat heb ik links laten liggen bij Stooker omdat het te complex leek? Een messy klantendatabase opschonen? Een jarenlange export van bonnen naar Exact omzetten? Dat is nu aanpakbaar.
  • Het CSV + AI-agent patroon is direct bruikbaar. Voor een bedrijf van ~10 mensen: elke keer dat je een lijst repetitieve taken hebt (productomschrijvingen, alt-tags, email-templates, FAQ-updates) — dump als CSV, gooi naar Claude, laat groeperen en in batches fixen.
  • Overnight autonome runs zijn een reële optie geworden. Voor niet-urgente maar grote taken: start voor je naar bed gaat, check in de ochtend. Wel: human review gate inbouwen, geen auto-deploys.
  • Intelligence heeft een prijs — $180 per miljoen output tokens is niet niks. Voor simpele taken overkill. Reserveer de duurste modellen voor échte hard problems. Voor dagelijks werk blijft Claude Sonnet of GPT-5 standaard prima.
  • ChatGPT voor consumers heeft weinig aan deze intelligentie. Claire's eigen conclusie: voor haar persoonlijk (buiten coding) wist ze niet wat ze ermee moest. Voor jou thuis: niet per se upgraden. Voor vibe coding bij Stooker: zeker proberen via Codex.
  • Reverse engineering is nu een realistische skill zonder dat je diep technisch bent. Als je ooit data uit een gesloten systeem wilt halen (oude kassasystemen, IoT-sensoren, leverancier-portals zonder API) — AI + packet sniffer kan je daar ver mee brengen.

Gerelateerd