Pour gérer vos consentements :
Categories: Data & Stockage

Comment Pinterest a implémenté la détection d’anomalies

Automatiser l’analyse des causes premières ? Il y a les modèles GPT pour ça. La fintech française Younited a en tout cas fait ce choix. Nous nous en étions fait l’écho la semaine passée.

Chez Pinterest, pas de GPT pour l’analyse des causes premières – tout du moins officiellement. L’entreprise projette, en revanche, d’aborder ce cas d’usage avec sa plate-forme Warden.

Cette dernière constitue son socle pour la détection d’anomalies. Elle est modulaire, au sens où des briques fonctionnelles distinctes gèrent respectivement l’ingestion de données, leur analyse et le traitement des résultats.

Pinterest utiliser PSI pour repérer les dérives du machine learning

Warden sert notamment à détecter les dérives des modèles d’apprentissage automatique. Pinterest s’appuie pour le moment sur l’algorithme PSI (Population Stability Index) avec, comme base de comparaison, des données historiques.

L’algorithme divise cette data en compartiments et donne à chacun un score en fonction du pourcentage de données qu’il contient. La somme de ces scores donne un « score PSI ». Plus il est élevé, plus la dérive est importante.

Pinterest a opté pour une fenêtre temporelle de trois heures, avec un recalcul des scores toutes les trois à cinq minutes. Il compte intégrer, à l’avenir, d’autres algos, dont KLD/JSD (Kullback-Leibler Divergence/Jensen-Shannon Divergence). Ainsi que d’autres méthodes de comparaison, notamment entre environnements (staging vs prod, par exemple).

… et EGADS pour détecter le spam

Warden sert aussi à la détection de spam. Dans le contexte de Pinterest, il s’agit des épingles contenant des liens indésirables.

On a décidé de s’appuyer sur EGADS (Extensible Generic Anomaly Detection System). Ce framework made in Yahoo prédit des données futures à partir de données historiques. Il compare cette prédiction aux données réelles et détecte ainsi les écarts.

La première version du système récupère, en quasi-temps réel dans un cluster Apache Druid, des données horodatées. Un connecteur Presto a été ajouté pour de futurs projets. En bout de chaîne, un outil de visualisation permet d’affiner l’analyse. Les alertes partent sur Slack et par mail, entre autres.

Photo d’illustration © Sergey – Adobe Stock

Recent Posts

IA générative : les lignes directrices de l’ANSSI

Formats de paramètres, méthodes d'apprentissage, mutualisation GPU... Voici quelques-unes des recommandations de l'ANSSI sur l'IA…

13 heures ago

De la marque blanche à l’« exemption souveraine », Broadcom fait des concessions aux fournisseurs cloud

À la grogne des partenaires VMware, Broadcom répond par diverses concessions.

16 heures ago

iPadOS finalement soumis au DMA

iPadOS a une position suffisamment influente pour être soumis au DMA, estime la Commission européenne.

18 heures ago

ChatGPT : le Financial Times signe avec OpenAI

FT Group, éditeur du Financal Times, a signé un accord avec OpenAI afin d'utiliser ses…

3 jours ago

Les hyperscalers renforcent leurs recherches et datacenters pour l’IA

Au premier trimestre, Microsoft, Meta/Facebook et Alphabet/Google ont déjà investi plus de 32 milliards $…

3 jours ago

Cybersécurité : Darktrace dans l’escarcelle de Thoma Bravo

La société britannique de cybersécurité Darktrace a accepté une offre de rachat de 5,32 milliards…

3 jours ago