Hace unos años, en una reunión con un equipo legal de una corporación, alguien soltó una frase que se me quedó grabada: “La IA sirve para resumir, no para pensar”. Lo dijo con esa seguridad que te da haber sobrevivido a auditorías, comités y negociaciones donde cada palabra cuesta dinero. Lo cierto es que, en mi caso, he repetido algo parecido en otras mesas, con clientes de banca y retail, cuando la conversación se pone demasiado entusiasta. Porque una cosa es automatizar tareas, y otra muy distinta es meterse en el pantano delicado del análisis legal, donde un matiz cambia el tablero completo. No es ajedrez. Es ajedrez con piezas que, de vez en cuando, deciden que también son jueces.

Por eso me interesa especialmente cuando aparecen intentos serios de medir a los agentes de Inteligencia Artificial en condiciones parecidas a la vida real. No en el laboratorio, no en el demo con música épica, no en el “mira cómo redacta una cláusula” que termina con aplausos. Hablo de poner a los modelos frente a trabajo que haría un abogado corporativo o un consultor: interpretar instrucciones imperfectas, buscar información, cruzar documentos, justificar decisiones y entregar algo que se pueda usar sin que te explote en la cara en una due diligence. Desgraciadamente, en la práctica, ahí es donde mueren la mayoría de promesas.

En ese contexto aparece APEX-Agents, un benchmark diseñado para evaluar agentes de IA en tareas de white-collar work. La clave está en cómo lo plantea: no como un examen de trivia, sino como una simulación de servicio profesional, con herramientas y flujos que cualquier oficina reconoce. Como en una novela de Arthur Conan Doyle, el problema no es solo “qué pasó”, sino reconstruir el caso con pistas dispersas, piezas que no encajan y documentos que se contradicen. A la hora de medir esto, el benchmark no premia el verso bonito ni la respuesta rápida, sino la capacidad de completar tareas de varios pasos con criterio, consistencia y un mínimo de responsabilidad intelectual.

¿Por qué esto importa para abogados y consultores? Porque la mayor parte de su valor no está en recitar leyes o frameworks, sino en navegar la ambigüedad. En una consultoría real nadie te entrega un enunciado perfecto. Te entregan un correo mal escrito, un contrato con veinte versiones, un comentario en Slack que cambia la prioridad y un “esto es urgente” que, curiosamente, siempre llega un viernes a las seis de la tarde. Y luego te piden una recomendación que aguante la mirada del CFO, del compliance officer y, si se complica, de un regulador. Esa mezcla de contexto, presión y riesgo es “trabajo real”. Lo demás son ejercicios académicos.

Suelo comentar que, si quieres saber qué tan cerca está la IA de meterse en profesiones complejas, no mires demos: mira métricas donde el fracaso cuesta. En el fondo, APEX-Agents intenta responder una pregunta incómoda: cuando un asistente de IA se enfrenta a un caso corporativo con documentos, herramientas y pasos intermedios, ¿puede sostener una cadena de razonamiento sin romperla? Y si la rompe, ¿te das cuenta a tiempo? Porque, claro, la ironía moderna es que algunos modelos fallan con aplomo. Y ya sabemos cómo termina esa historia: con un meme en LinkedIn y una factura real en el mundo.

“La memoria es el único equipaje que no se pierde.”

En términos históricos, esto se parece más a la llegada de la imprenta que a la llegada de una calculadora. La imprenta no sustituyó a los escribas de un día para otro. Cambió la economía del conocimiento, redefinió quién podía acceder a la información y obligó a reinventar oficios completos. Con los benchmarks de agentes pasa algo similar: están construyendo el “campo de batalla” donde se decidirá qué parte del trabajo intelectual se automatiza, qué parte se transforma y qué parte sigue siendo profundamente humana. Eso sí, no confundamos: medir no es reemplazar. Pero medir bien es el primer paso para dejar de discutir con opiniones y empezar a discutir con evidencia.

Y en ese sentido, APEX-Agents tiene un valor que va más allá del titular: pone a la IA aplicada frente al espejo de la realidad profesional. No le pregunta si “sabe derecho”. Le pregunta si puede operar como un agente dentro de un sistema, con herramientas, restricciones y consecuencias. Lo demás, por tanto, es literatura. Y sí, la literatura también importa. Pero cuando el contrato está firmado, lo que importa es si alguien entendió de verdad lo que estaba firmando.

Opus 4.6 de Anthropic: resultados, salto porcentual y qué significa el 30%/45% en desempeño legal

Con ese marco —el de medir la realidad y no el teatro—, lo que ocurrió esta semana con Anthropic Opus 4.6 no es un “hito” de comunicado de prensa. Es un dato que incomoda. Porque en APEX-Agents el modelo llegó a 29.8% en pruebas one-shot y a un promedio del 45% con múltiples oportunidades. Y el detalle que cambia el ánimo de la sala no es el “casi 30%”, sino el salto: veníamos de un 18.4%. En pocos meses, eso implica un aumento cercano al 60% en rendimiento relativo. Lo cierto es que, cuando una curva sube así, la conversación deja de ser “si” y pasa a ser “cuándo, dónde y con qué controles”.

Ahora, pongamos los pies en el suelo. 30% de acierto en un escenario que simula trabajo profesional significa que el agente falla más de lo que acierta. Si esto fuera un bufete, nadie pondría a ese “abogado” a enviar respuestas directo al cliente. Ni loco. Pero aquí viene la parte incómoda: tampoco es un 5% anecdótico. Es un rendimiento que ya se parece a ese practicante brillante que, a veces, te salva el día… y a veces te mete en un lío por exceso de confianza. Brendan Foody, CEO de Mercor, lo describió como “un intern que acierta un cuarto de las veces”, frente al 5%–10% del año anterior. Y en el mundo real, un intern que acierta un cuarto de las veces sí tiene valor, si sabes encuadrarlo, revisar su trabajo y asignarle tareas con criterio. En ajedrez, no le entregas la reina. Pero puede ayudarte con el control del centro, mientras tú piensas la partida.

El 45% con múltiples oportunidades también es una señal interesante por lo que sugiere: no es solo “sabe” o “no sabe”, sino que iterando mejora. Eso se parece mucho a la dinámica de trabajo legal cuando el equipo tiene margen para revisar, contrastar y corregir. No es romanticismo; es operación. En mi caso, cuando he implementado automatizaciones en procesos delicados, casi siempre veo el mismo patrón: la primera versión suele ser torpe, pero las rondas de mejora —con reglas claras— hacen la diferencia. El problema es que, en derecho, cada ronda cuesta tiempo, reputación y, con frecuencia, dinero.

Y aquí conviene evitar dos trampas típicas. La primera: el “ya está, se acabaron los abogados”. No. A 30% no reemplazas a nadie; apenas empiezas a discutir dónde recortas fricción. La segunda: el “esto no sirve para nada”. Tampoco. Porque el progreso no se está desacelerando, y eso es lo que debería hacerte levantar la ceja. Como en las novelas de Asimov, el peligro rara vez llega con un golpe heroico; llega con una suma de pequeñas mejoras que, un día, de pronto, cambian el equilibrio.

“El 30% no es la victoria de la IA. Es el fin de nuestra comodidad.”

Hay, además, una lectura estratégica. Si un agente alcanza ese nivel en tareas de análisis legal y trabajo corporativo simulado, lo que cambia es el “benchmark mental” de lo que esperamos de un asistente de IA. Hasta ayer, muchos lo veían como un resumidor elegante. Hoy, con estos números, empieza a parecerse a un colaborador imperfecto que, bien dirigido, puede quitar horas de encima. Eso sí: la ironía es deliciosa. Pasamos años diciendo que la IA “no entiende el contexto”, y ahora el contexto empieza a ser justamente el terreno donde más rápido está avanzando. En la práctica, la mayoría se enterará cuando el cliente pregunte por qué su contrato se revisó en la mitad del tiempo. Y ahí volveremos a la pregunta incómoda: ¿lo revisó más rápido… o lo revisó mejor?

En términos históricos, estas cifras recuerdan a esos primeros mapas de los exploradores: no eran precisos, estaban llenos de blancos y monstruos marinos dibujados en la esquina. Pero servían para navegar un poco más lejos cada vez. Y en negocios, navegar un poco más lejos cada mes no es poesía. Es ventaja.

Agent swarms + contexto de 1 millón de tokens: la arquitectura que explica el avance en análisis de contratos y compliance

Si esos porcentajes te parecen extraños —ni suficientemente altos para confiar, ni tan bajos como para ignorar—, la respuesta no está solo en “mejor modelo”. Está en cómo empieza a trabajar. Aquí entran dos ideas que, en la práctica, cambian el juego: los agent swarms y la ventana de contexto de 1 millón de tokens. Dicho de forma simple: ya no tienes un único “cerebro” intentando hacerlo todo en fila, sino un pequeño equipo coordinado, con memoria suficiente para no perderse en el pantano.

Los agent swarms funcionan con una lógica muy parecida a un despacho real. En vez de forzar a una sola instancia de IA a leer, interpretar, investigar, comparar y redactar en secuencia —con todo lo que eso implica en fatiga, errores de arrastre y pérdida de coherencia—, el sistema descompone el problema en subtareas y las ejecuta en paralelo. Mientras un subagente revisa una cláusula de limitación de responsabilidad, otro puede centrarse en protección de datos, y un tercero validar consistencia interna: definiciones, excepciones, referencias cruzadas, anexos. Lo cierto es que, cuando lo ves operar, recuerda a ese momento en el que un partner reparte el caso: “tú te encargas del research, tú del contrato, tú del checklist de compliance”. No es magia. Es organización del trabajo intelectual.

Y esto importa porque el análisis legal rara vez es lineal. Es una guerra de trincheras, donde ganas terreno por metros, no por kilómetros. Un agente secuencial suele caer en dos problemas: o se obsesiona con un detalle y pierde el conjunto, o mantiene el conjunto y se traga un detalle que luego revienta. En cambio, con agent swarms puedes montar una revisión con “doble control”, como en aviación, pero sin duplicar horas humanas. Eso sí, y aquí viene la ironía: algunos todavía creen que un asistente de IA es un chat bonito. Perfecto. También hubo quien pensó que la imprenta era “solo” una máquina para copiar libros.

La segunda pieza —y quizás la más subestimada por quienes no han sufrido contratos de 200 páginas— es el contexto de 1 millón de tokens. En la práctica, esto equivale a poder cargar un universo documental completo sin tener que amputarlo en resúmenes peligrosos. Porque el diablo, en derecho, no está en los detalles; está en los detalles que se relacionan con otros detalles. Un NDA que contradice un MSA. Un anexo que redefine un término sin avisar. Una política corporativa que dice A, mientras un procedimiento operativo dice B, y el regulador espera C. Con contextos pequeños, el modelo “olvida” partes, o rellena huecos con una seguridad que da miedo. Con un contexto enorme, el modelo puede mantener en la mesa las piezas relevantes, como quien trabaja con todos los expedientes abiertos, sin depender de memoria frágil.

Suelo comentar que la mayor parte de los errores graves en revisión contractual no vienen de no saber derecho, sino de no ver el sistema completo. Por eso, cuando combinas agent swarms con un contexto masivo, lo que mejoras no es solo la redacción. Mejoras la capacidad de rastrear coherencia a través de múltiples pasos: identificar una obligación, ubicar su excepción, comprobar su definición, verificar su compatibilidad con una norma o con una política interna. Es casi detectivesco. Como en Conan Doyle, no basta con encontrar la pista; hay que demostrar que encaja en la historia sin romperla.

Además, este enfoque permite especialización táctica dentro del mismo caso. Un subagente puede actuar como “auditor de cumplimiento” y otro como “negociador”, buscando puntos de fricción típicos en acuerdos corporativos. Otro, como “bibliotecario”, localizando dónde aparece un concepto y cómo evoluciona en el documento. Un hombre sin libros es un hombre sin alma; un abogado sin contexto es un abogado sin defensa. Y la IA, al menos en esta arquitectura, empieza a tener biblioteca y mapa, aunque todavía le falte criterio humano para decidir qué batalla vale la pena pelear.

Lo relevante aquí es que el salto del 18.4% al 29.8% no se explica solo por “más parámetros” o “mejor entrenamiento”. Se explica porque el modelo empieza a operar como un sistema, no como una respuesta aislada. Y en servicios profesionales, casi todo es sistema: entradas imperfectas, documentos que se pisan, herramientas distintas, tareas en paralelo, revisiones cruzadas y presión. En ese terreno, estas dos capacidades —paralelización y memoria contextual— son el equivalente a pasar de un soldado solitario a un pelotón con radio y mapas. No garantiza la victoria, pero cambia radicalmente el tipo de errores que cometes y, por tanto, el tipo de trabajo que puedes intentar.

Impacto en empresas y legal tech 2026: CLM, automatización de revisión contractual y casos de uso con ROI medible

Hasta aquí, todo suena interesante en modo benchmark. Pero el punto no es discutir porcentajes como si fueran el marcador de un partido. El punto es qué pasa cuando esto aterriza en operación: CLM, compras, ventas enterprise, compliance y auditoría interna. Ahí es donde 2026 se vuelve un año bisagra, porque la conversación deja de ser “¿puede?” y se convierte en “¿cómo lo integro sin incendiar el área legal?”.

En empresas medianas y grandes, el cuello de botella rara vez es “no sabemos redactar”. Es el volumen, el ida y vuelta, las versiones, los anexos, la negociación por correo, la presión comercial, los checklists que se llenan a medias y el famoso “firma hoy porque el deal se cae”. Un agente, o mejor dicho, un sistema de agentes, empieza a aportar cuando se enchufa al flujo donde realmente duele:

Ingreso y clasificación de contratos: identificar tipo de documento, jurisdicción, contraparte, nivel de riesgo, y enrutarlo al playbook correcto.
Comparación contra playbooks: detectar desviaciones de la cláusula estándar, explicar por qué importa y proponer redlines alineados a políticas internas.
Revisión de consistencia: definiciones que cambian, referencias cruzadas rotas, anexos que contradicen el cuerpo, versiones que se mezclaron.
Soporte a compliance: mapear obligaciones (por ejemplo, reportes, auditorías, SLAs, privacidad), y generar un checklist accionable para dueños de proceso.
Preparación de resúmenes ejecutivos: para negocio, finanzas o dirección, con foco en riesgos, obligaciones, penalidades y puntos a negociar.

¿Dónde aparece el ROI medible? En tres lugares muy concretos: tiempo de ciclo (días u horas para pasar de borrador a firma), capacidad (cuántos contratos puede procesar el equipo sin crecer en headcount) y calidad de detección (cuántos riesgos relevantes se levantan antes, no después). En un CLM maduro, además, puedes poner números: reducción de retrabajo, menos escalaciones al equipo senior por temas rutinarios, y menos “sorpresas” en renovaciones porque el sistema registró obligaciones desde el inicio.

Esto no elimina la negociación ni el criterio. Lo que hace —cuando se hace bien— es quitar fricción en tareas repetitivas y liberar tiempo para lo que sí paga la factura: estrategia, negociación real y decisiones con responsabilidad. Dicho sin maquillaje: que el equipo legal deje de vivir apagando incendios y tenga aire para prevenirlos.

Y aquí hay un detalle que muchas legal tech pasan por alto: el valor no está solo en que el agente encuentre “algo raro”. Está en que lo encuentre en el momento correcto, dentro del flujo, con trazabilidad y con un lenguaje que el negocio entienda. Un warning perfecto que llega dos días tarde es como una cláusula brillante que nadie leyó: no sirve.

Riesgos y límites actuales: fallos, responsabilidad legal, gobernanza, transparencia y regulación en adopción de IA

Con todo esto sobre la mesa —agent swarms, contexto de 1 millón de tokens y mejoras medibles— es tentador pensar que el problema ya está resuelto y que lo único que falta es conectar el modelo al CLM y esperar el ahorro. Y sí, el ROI existe. Pero la historia del derecho (y de la tecnología) te enseña que la eficiencia puede ser una sirena: canta bonito, y luego te estrella contra las rocas. Porque el límite no es solo técnico. Es jurídico, operativo y profundamente humano.

Primero, el elefante en la habitación: los agentes aún fallan en la mayoría de tareas complejas. El benchmark lo deja claro. Y el riesgo no es el error en sí; los humanos también se equivocan. El riesgo es el tipo de error: uno que viene envuelto en una prosa convincente, con seguridad de manual y sin señales visibles de duda. Es como un pasante que nunca pregunta, nunca confirma, nunca levanta la mano… y aun así entrega un informe con portada impecable. Maravilloso para el ego. Peligroso para el cliente. En guerra, el problema no es disparar; es disparar al objetivo correcto. En análisis legal, el problema no es redactar; es entender qué se juega cada parte cuando el conflicto aparece.

Luego está la pregunta incómoda que nadie quiere responder hasta que llega una demanda: ¿quién responde cuando el agente omite un riesgo relevante? ¿El abogado que lo usó? ¿La firma? ¿El proveedor del software? ¿El cliente que “aceptó” el uso de IA en una letra pequeña? La responsabilidad profesional no se evapora porque la revisión la haya hecho un asistente de IA. Y aquí, desgraciadamente, veo el mismo patrón que en ciberseguridad: cuando todo va bien, la IA “fue clave”; cuando algo sale mal, la IA “solo era una herramienta”. Qué casualidad.

Por eso la palabra clave para 2026 no es “automatización”. Es gobernanza. Necesitas reglas claras para que los agentes no se conviertan en un experimento permanente dentro de procesos críticos. En mi caso, cuando he acompañado implementaciones en equipos regulatorios y de compliance, lo que funciona es tratar al agente como un sistema sujeto a control, no como un chat inspirado. Y eso implica, como mínimo:

Políticas de uso: qué tareas puede hacer la IA y cuáles quedan prohibidas (por ejemplo, recomendaciones finales al cliente sin revisión humana).
Trazabilidad: registro de prompts, fuentes consultadas, versiones de documentos y salidas, para auditoría y defensa futura.
Revisión humana obligatoria: no por romanticismo, sino por gestión de riesgo. Si el agente acierta 30% one-shot, lo tratas como “primer filtro”, no como “dictamen”.
Control de datos: qué información entra, dónde se procesa, qué se retiene, cómo se anonimiza, y qué pasa con inputs/outputs en términos de propiedad y confidencialidad.
Evaluación continua: testear al agente con casos reales de tu industria y tu jurisdicción. Lo que funciona en common law puede patinar en derecho latino con una facilidad insultante.

El tercer punto es transparencia. No solo ante reguladores, sino ante clientes. En ciertos mercados, el debate ya está encendido: ¿debe el cliente saber si su abogado usó IA? Yo creo que sí, al menos cuando el uso afecta el proceso, el costo y el riesgo. No por miedo. Por ética profesional y por protección reputacional. Un bufete no se sostiene por lo que sabe, sino por lo que el cliente cree que cuida. Y la confianza, como los libros, se quema rápido y se reconstruye lento.

El cuarto frente es el regulatorio. En Ecuador —y en buena parte de la región— seguimos en una zona gris donde la regulación de IA evoluciona, pero el mercado ya corre. Esto crea un incentivo peligroso: implementar primero y preguntar después. Y cuando la norma llegue, no perdona la excusa de “es que era innovador”. La innovación sin responsabilidad es solo adolescencia tecnológica. Y las empresas no pagan consultoría para vivir una adolescencia; pagan para evitar crisis.

“La IA no te quita el riesgo. Te lo reubica.”

¿Significa esto que no hay que usar agentes? Al contrario. Significa que hay que usarlos bien. Hoy, el lugar sensato para los agentes en legal es el de detección temprana, revisión asistida, comparación contra playbooks, clasificación de riesgos y preparación de insumos para el abogado que decide. Como en un buen barco, puedes automatizar velas y rutas, pero alguien debe seguir mirando el horizonte. Porque el mar no negocia.

Así que te dejo una provocación final, que en el fondo es una llamada a la acción: si tu organización está adoptando Inteligencia Artificial aplicada en procesos legales, deja de preguntarte “¿qué tan buena es la IA?” y empieza a preguntarte “¿qué tan bueno es mi sistema de control para convivir con su error?”. Porque el problema no será que el agente se equivoque. El problema será que se equivoque y nadie lo note. Y en legal, como en política, lo que no se nota a tiempo termina saliendo carísimo… y con titulares.

Mi recomendación es simple y nada cómoda: define un piloto con casos reales, integra el agente al flujo del CLM, mide resultados (tiempo, calidad, riesgos detectados), documenta decisiones, y establece una gobernanza que aguante auditoría. Si te interesa hacerlo con criterio —no con humo—, conversemos. Ahora más que nunca, la ventaja no la tendrá quien tenga “la mejor IA”, sino quien sepa usarla sin venderle el alma al primer contrato apresurado.

Artículo base: https://techcrunch.com/2026/02/06/maybe-ai-agents-can-be-lawyers-after-all/

APEX-Agents y el análisis legal: lo que revela el 30% de Opus 4.6

Opus 4.6 de Anthropic: resultados, salto porcentual y qué significa el 30%/45% en desempeño legal

Agent swarms + contexto de 1 millón de tokens: la arquitectura que explica el avance en análisis de contratos y compliance

Impacto en empresas y legal tech 2026: CLM, automatización de revisión contractual y casos de uso con ROI medible

Riesgos y límites actuales: fallos, responsabilidad legal, gobernanza, transparencia y regulación en adopción de IA

Sergio Jiménez Mazure

Compartir artículo