Mercado Libre y la detección de fraude en tiempo real: cómo proteger millones de transacciones con Machine Learning
Mercado Pago procesa más de 1,800 millones de transacciones por trimestre en LATAM. Detrás de cada pago, hay un modelo de ML evaluando miles de variables en milisegundos. Así funciona el sistema antifraude más sofisticado de la región.
Mercado Libre y la detección de fraude en tiempo real: cómo proteger millones de transacciones con Machine Learning
En el primer trimestre de 2023, Mercado Pago procesó más de 1,800 millones de transacciones, equivalentes a aproximadamente 20 millones de pagos por día. Cada uno de esos pagos fue evaluado, en milisegundos, por un sistema de Machine Learning que analiza miles de variables simultáneamente. Sin ese sistema, el fraude haría inviable el negocio. Con él, Mercado Libre se convirtió en la plataforma fintech más poderosa de América Latina.
El desafío
Detectar fraude en pagos digitales es uno de los problemas más complejos en ciencia de datos. No porque sea difícil encontrar patrones fraudulentos, sino porque el costo de equivocarse en ambas direcciones es muy alto.
Si el modelo falla y aprueba una transacción fraudulenta, la empresa pierde dinero y el usuario pierde confianza. Pero si el modelo es demasiado agresivo y bloquea transacciones legítimas, los compradores se frustran, los vendedores pierden ventas y la plataforma pierde competitividad.
En un ecosistema que opera en 18 países de América Latina, con monedas distintas, comportamientos de consumo heterogéneos, diferentes niveles de bancarización y millones de usuarios nuevos incorporándose cada año, el desafío de calibrar este sistema correctamente es formidable.
Además, los patrones de fraude cambian. Lo que detectaba el modelo en 2020 no es lo que intenta evadir un defraudador en 2024. El sistema tiene que aprender constantemente.
La solución con datos e IA
Mercado Libre construyó una infraestructura de detección de fraude multicapa que combina velocidad, escala y aprendizaje continuo.
Análisis de más de 5,000 variables en tiempo real. Para cada transacción o publicación sospechosa, el sistema puede analizar simultáneamente más de 5,000 variables: información del dispositivo, historial de comportamiento del usuario, patrones de navegación, geolocalización, velocidad de tipeo, historial de transacciones, reputación del vendedor y docenas de señales adicionales. Todo esto ocurre antes de que el usuario vea confirmada o rechazada su transacción.
Pipelines de ML con Apache Spark. El equipo de Data Science de Mercado Libre construye sus modelos de predicción de fraude usando Apache Spark para entrenar sobre grandes volúmenes de datos históricos. Estos modelos generan scores de fraude en tiempo real para cada evento generado por los usuarios, y activan respuestas automáticas cuando el score supera ciertos umbrales.
Bucle de retroalimentación continua. Uno de los elementos más poderosos del sistema es su capacidad de aprendizaje. Cuando un usuario reporta una publicación fraudulenta o cuando el equipo de moderación confirma una violación, el modelo aprende de ese caso y ajusta sus criterios. El resultado: por cada reporte recibido, el sistema detecta y elimina en promedio ocho veces más publicaciones irregulares de forma automática.
Moderación de anuncios con IA. Para el marketplace, Mercado Libre implementó sistemas de visión computacional y procesamiento de lenguaje natural que evalúan automáticamente las publicaciones antes de que aparezcan en la plataforma. Esto permite detectar productos falsificados, publicidades engañosas y contenido que viola las políticas de la plataforma sin intervención humana en la mayoría de los casos.
Google Spanner como columna vertebral. La infraestructura de datos de Mercado Libre usa Google Spanner como base de datos central, lo que permite alimentar en tiempo real los scores de fraude generados por BigQuery directamente a las aplicaciones de atención al cliente. Así, cuando un agente de soporte abre el perfil de un usuario, ya tiene visible el nivel de riesgo calculado por los modelos.
Los números que importan
- Más de 1,800 millones de transacciones procesadas solo en el primer trimestre de 2023, con un crecimiento del 71.8% interanual.
- Aproximadamente 20 millones de transacciones por día en ese periodo (estimado a partir de cifras trimestrales oficiales).
- Solo el 0.74% de los más de 614 millones de anuncios creados o modificados en el primer semestre de 2023 tuvieron que ser eliminados por incumplimiento de políticas.
- El 98% de esos anuncios irregulares fue detectado automáticamente por herramientas de IA y ML, sin intervención humana inicial.
- Reducción del 9.5% en los reportes manuales de los usuarios en comparación con el periodo anterior, gracias a que el sistema actúa antes de que el fraude sea visible.
- Más de 10,000 miembros del Programa de Protección de Marcas (BPP), que usa IA para combatir piratería y falsificación en tiempo real.
- Operaciones en 18 países de LATAM, con una base de decenas de millones de compradores y vendedores activos.
¿Qué puede aprender tu empresa?
No necesitas ser Mercado Libre para implementar detección de anomalías basada en datos. Las lecciones son aplicables a cualquier empresa mediana que procese pagos, gestione inventario o tenga operaciones con riesgo de fraude interno o externo.
1. El fraude cuesta más que su prevención. El costo de un sistema de detección de anomalías es predecible y controlable. El costo de no tenerlo —fraude no detectado, devoluciones, daño reputacional— no lo es. Para empresas que procesan miles de transacciones al mes, incluso modelos simples de detección de outliers generan retorno inmediato.
2. Las variables de comportamiento son más poderosas que las financieras. Muchas empresas intentan detectar fraude mirando montos y frecuencias. Mercado Libre mira patrones de comportamiento: cómo se mueve el cursor, desde qué dispositivo, a qué hora, con qué velocidad. En tu empresa, el comportamiento de un empleado, proveedor o cliente también puede revelar anomalías antes de que aparezcan en el estado financiero.
3. El bucle de retroalimentación es el verdadero valor. Un modelo que aprende de sus errores vale diez veces más que uno que no aprende. Cualquier sistema de detección de fraude o control debe estar diseñado para incorporar los casos confirmados como datos de entrenamiento futuro.
4. Automatiza la detección, no la decisión final. Mercado Libre usa IA para detectar y pausar, pero tiene procesos humanos para los casos de mayor impacto. El equilibrio entre automatización y supervisión humana es clave para no bloquear operaciones legítimas.
5. El dato de hoy es el modelo de mañana. Muchas empresas medianas en Perú y LATAM no registran sistemáticamente sus incidentes de fraude o sus errores operativos. Ese registro estructurado, aunque sea en una hoja de cálculo, es el primer paso para construir modelos de detección propios.
Mercado Libre tardó años en construir este sistema. Tu empresa no necesita replicarlo todo: necesita identificar cuál es el punto de mayor riesgo en sus operaciones y empezar a instrumentarlo con datos. En DataPrix ayudamos a empresas medianas a diseñar sus primeros modelos de detección de anomalías con la infraestructura que ya tienen. Hablemos.