Cómo los modelos de IA evalúan la exactitud factual

Ilustración — Image Source: statics.mylandingpages.co

¿Tu modelo “suena” bien, pero no sabes si dice la verdad? La exactitud factual —qué tan ajustadas a hechos verificables son sus respuestas— es la línea que separa un asistente útil de un generador de errores seguros de sí mismos. Para equipos de marca, marketing y producto, medirla no es opcional: afecta confianza, riesgos (sobre todo en YMYL) y decisiones tácticas sobre contenido, soporte y automatización.

Qué significa “exactitud factual” (y qué no)

Exactitud factual: grado en que una salida coincide con hechos del mundo o con evidencia proporcionada.
Corrección de la tarea: una respuesta puede seguir las instrucciones (formato, tono) y aun así ser falsa.
Fidelidad (faithfulness): en tareas con evidencia (resumen, RAG), es la consistencia entre la salida y la fuente/contexto. Un resumen fiel no introduce nada que el documento no sostenga.

Cuando el modelo inventa o contradice la evidencia, hablamos de alucinaciones. Aun con buena fluidez, pueden esconder afirmaciones no soportadas. Aquí es donde una evaluación clara marca la diferencia.

Dos grandes enfoques de evaluación

Hay dos familias principales para evaluar factualidad. Piensa en ellas como “con brújula externa” (referencia) y “sin brújula externa” (sin referencia):

Enfoque	Qué compara	Ejemplos de métricas/benchmarks	Fortalezas	Límites
Con referencia	La salida vs. una verdad de oro o evidencia	Exact Match/F1 en QA; FEVER score; rúbricas humanas	Interpretación directa; útil para regresión; auditable	Requiere datasets curados; puede no cubrir todos tus dominios
Sin referencia	Consistencia interna o juicio automático	LLM-as-a-judge; chequeos de consistencia	No necesita gold labels; rápido para screening	Riesgos de sesgo del “juez”; correlación imperfecta con humanos

Benchmarks y métricas canónicas (lo imprescindible)

TruthfulQA (veracidad en QA abierto). Diseñado para detectar “falsedades imitativas”: preguntas que tientan al modelo a repetir creencias populares pero falsas. Según el paper de Lin, Hilton y Evans (2021), los modelos grandes pueden sonar persuasivos y aun así fallar en veracidad; el conjunto y metodología están descritos en el artículo original: TruthfulQA en arXiv (2021).
FEVER (verificación de hechos con evidencia). Evalúa si el sistema clasifica reclamaciones como SUPPORTS/REFUTES/NEI y, crucialmente, si recupera la evidencia que lo respalda. Es estándar en verificación basada en Wikipedia; consulta el sitio oficial del proyecto: FEVER: Fact Extraction y VERification.
HELM (marco holístico). El CRFM de Stanford propone un tablero vivo que cubre precisión, calibración, robustez, toxicidad y más. No es solo factualidad, pero sus escenarios de QA y conocimiento permiten comparar modelos con transparencia metodológica: Portal HELM de Stanford CRFM.
QAGS (consistencia factual en resumen). Genera preguntas a partir del documento fuente y compara las respuestas derivadas del resumen vs. las derivadas del original; discrepancias sugieren inventos. La versión canónica está en la ACL Anthology: QAGS (ACL 2020).

Evaluación específica para RAG: medir la fidelidad al contexto

En RAG (Retrieval-Augmented Generation), la veracidad depende de dos piezas: qué recuperas y cómo generas. Por eso conviene descomponer las métricas:

Faithfulness: ¿la respuesta está respaldada por el contexto recuperado? (0–1)
Answer Relevance: ¿la respuesta realmente contesta la pregunta?
Context Precision: de lo que recuperaste, ¿qué proporción era relevante?
Context Recall: ¿recuperaste suficiente evidencia relevante?

Un toolkit popular que integra estas métricas es RAGAS, con definiciones y APIs estables: Métricas de RAGAS (docs oficiales).

Pequeño ejemplo mental: si el recuperador trae tres fragmentos y solo uno habla del tema (precisión baja), la generación “adivina” más. Si trae los correctos pero la respuesta añade datos que no figuran en los fragmentos, falla la fidelidad.

Procedimiento práctico para equipos

No hace falta un laboratorio gigantesco para empezar. Aquí tienes una ruta pragmática que funciona en proyectos reales:

Diseña tu conjunto de evaluación

Haz muestreo estratificado de prompts por dominio, intención y dificultad (incluye “trampas” tipo TruthfulQA para medir resiliencia).
Versiona el conjunto (v1, v2…) y congélalo para comparar progresos de forma justa.

Define rúbricas y anota con humanos

Redacta criterios claros para factualidad/fidelidad/cobertura con ejemplos positivos/negativos.
Usa doble ciego y mide acuerdo (p. ej., kappa). Reconciliar discrepancias mejora la calidad del oro.

Triangula métricas y pon umbrales

Combina métricas con referencia (cuando existan) con chequeos automáticos (p. ej., jueces LLM o consistencia interna).
Establece umbrales operativos (ej.: faithfulness ≥ 0,8; context precision ≥ 0,6) y conéctalos a alertas.

Monitoriza en continuo

Programa corridas semanales/mensuales; incorpora datos reales (consultas de usuarios, tickets, búsquedas).
Controla drift de modelo y del conocimiento; documenta versiones y fechas de corte.

Checklist de inicio rápido

Define 3–5 casos críticos por dominio (incluye YMYL si aplica) y redacta verdades de oro o evidencia.
Implementa al menos una métrica automática por tarea (p. ej., QAGS para resumen, RAGAS para RAG).
Reserva 15–20% de muestras para evaluación humana ciega cada ciclo.
Fija 2–3 umbrales con alertas y panel de tendencias.
Documenta modelos, prompts y versiones del conjunto de evaluación.

Límites y riesgos que no debes ignorar

Correlación con humanos. Algunas métricas correlacionan mejor que otras, pero ninguna sustituye la revisión humana en dominios sensibles. Úsalo como sistema de señales, no como oráculo infalible.
Sesgos del juez automático. Un LLM como juez puede favorecer estilos o contenidos similares a su entrenamiento. Mitiga con múltiples jueces, prompts calibrados y cegado parcial.
Drift del conocimiento. Lo que era cierto ayer puede cambiar (leyes, precios, resultados). Versiona oráculos y anota fechas de validez.
YMYL (salud, legal, financiero). Eleva umbrales de aceptación, exige atribución explícita y aplica revisión humana obligatoria.
Reproducibilidad. Fija semillas, versiones y conjuntos. Reporta varianza, no solo promedios.

Siguientes pasos accionables

Empieza pequeño y estable: elige una tarea (p. ej., QA de soporte o resumen de contenidos), define 30–50 ejemplos bien anotados, y congélalos como “v1”.
Mide–aprende–itera: combina una métrica automática + muestreo humano + revisión de casos extremos cada sprint.
Conecta métricas a decisiones: cuando el score caiga por debajo del umbral, detén despliegues, ajusta recuperación o cambia prompts/modelo.

Divulgación: Geneo es nuestro producto. Si trabajas la presencia de tu marca en motores y plataformas generativas, Geneo puede ayudar a monitorear qué responden sobre tu marca, etiquetar sentimiento y priorizar contenidos a corregir cuando detectes respuestas no fieles a tus fuentes.