CACIS — Mettre de la géométrie dans les erreurs

🫐 CACIS

Mettre de la géométrie dans les erreurs

Dans beaucoup de systèmes industriels, un classifieur n’est pas un “prédicteur” : c’est un module de décision. Ses sorties déclenchent des actions irréversibles, avec des conséquences économiques asymétriques. En détection de fraude, rater une fraude à 50 000€ n’a rien à voir avec rater une fraude à 10€.

Pourtant, on entraîne encore souvent avec la cross-entropy, qui vit dans une géométrie “plate” : toutes les erreurs se ressemblent, et deux labels sont traités comme équidistants. On compense ensuite avec des seuils, de la repondération, ou des heuristiques post-hoc. Mais ces corrections ne changent pas l’apprentissage : elles changent seulement la décision finale.

CACIS (Cost-Aware Classification with Informative Selection) propose une autre approche : injecter le coût des erreurs dans la géométrie même de la distribution de sortie. L’objectif n’est plus seulement d’être “probabilistiquement correct”, mais d’être décisionnellement aligné.

Trois manières de traiter les coûts

🧊 Plat une erreur = une erreur	Cross-entropy	Excellente pour estimer des probabilités, mais aveugle à la valeur économique des erreurs.
🎚️ Patch après coup	Seuils / repondération	Améliore la politique de décision, mais ne déforme pas l’apprentissage : les représentations restent “moyennes”.
📏 Géométrique le coût devient une distance entre des choix	CACIS	Le regret devient un coût de transport sur le simplex des probabilités : l’apprentissage se concentre sur les erreurs à fort impact.

Comment ça marche ?

CACIS repose sur une idée simple : si les erreurs n’ont pas la même gravité, alors déplacer de la probabilité d’un label à l’autre ne devrait pas avoir le même “coût”.

1️⃣ Le regret est la monnaie que nous perdons
On spécifie une matrice de coût \(\mathbf{C}\) (souvent dépendante de l’instance : montant, contexte, segment). Elle encode combien “ça coûte” de choisir l’action \(j\) quand la vérité est \(i\).

2️⃣ Transport Optimal (OT) : la géométrie
On traite ce regret comme un ground cost entre labels, et on construit une divergence OT (entropiquement régularisée) qui induit une géométrie de prudence sur le simplex.

3️⃣ Informative Selection : une softmax qui a du relief
Au lieu d’utiliser directement la softmax (géométrie KL), CACIS produit une distribution “informative” \(q(\mathbf{z})\) compatible avec les coûts : les gradients se concentrent sur les erreurs qui font mal. Cette distribution est calculée de manière stable sur le simplex via un inner-loop de type Frank–Wolfe.

Pourquoi c’est utile en industrie

CACIS est conçu pour les contextes où :

les coûts sont asymétriques (exemple : faux négatif ≠ faux positif ),
les coûts sont dépendants de l’instance (montant, contexte, segment),
la vérité est retardée (chargebacks à 60–120 jours, audits),
on veut optimiser une métrique réellement métier : le regret.

Résultat : au lieu d’un modèle “moyen” optimisé pour le cas dominant, on obtient une représentation qui internalise une géométrie de précaution sur les régions à fort enjeu.

Envie d’explorer ?

Si vous avez un système où l’erreur n’est pas un scalaire mais un coût, et où vous voulez que l’apprentissage soit aligné avec la valeur, parlons-en. CACIS n’est pas une astuce de seuil : c’est une loss qui change le relief.

CACIS
Fiche à la Guy Kawasaki

⚠️ Problème / Opportunité

En production, toutes les erreurs ne se valent pas : certaines coûtent très cher.
La cross-entropy est décision-agnostique : elle apprend dans une géométrie plate.
Les corrections post-hoc (seuils, repondération) ne modifient pas l’apprentissage.

💎 Proposition de valeur

Aligner l’entraînement sur la valeur métier : minimiser le regret attendu.
Internaliser une géométrie de précaution pour les cas à fort enjeu (whales).
Conserver de bonnes propriétés probabilistes (calibration) tout en gagnant en décision.

🧪 Sauce secrète

Une loss Fenchel–Young induite par une régularisation OT (entropique / Sinkhorn).
Le regret \(\mathbf{C}\) devient le ground cost qui tord la géométrie du simplex.
Calcul stable de la distribution informative via un inner-loop Frank–Wolfe (sans unroll Sinkhorn).

💰 Business model

Atelier : formaliser la matrice de regret (finance / produit / data).
PoC : benchmark regret vs métriques standard (protocole temporel si besoin).
Intégration : training + monitoring regret, shadow window, audits de coût.

📣 Marketing

Storytelling : “Mettre de la géométrie dans les erreurs”.
Démos : même dataset, même modèle, loss différente → regret différent.
Post : “cross-entropy est correcte… mais pas rentable”.

🦅 Concurrence

Seuils et heuristiques post-hoc.
Cost-sensitive learning “à la main” (poids fixes, calibration cassée).
OT unrolled (instable / coûteux) pour intégrer des coûts.