Volver al blog
resilienciainfraestructuradescentralizaciónseguridadarquitectura

Resiliencia digital: cómo sobrevive el ecosistema cuando todo falla

TroncoCorp 3 min de lectura

En un mundo donde la nube se cae, los CDN se degradan y las grandes plataformas deciden unilateralmente qué servicios descontinuar, la resiliencia no es una característica deseable: es un requisito de existencia.

TroncoCorp está diseñado desde la base para funcionar cuando todo lo demás falla. No es teoría. Es arquitectura.

El principio de la caída gradual

El sistema convencional funciona binariamente: o todo funciona o todo está caído. En un ecosistema soberano, esa lógica es inaceptable. Operamos con caída gradual (graceful degradation):

  • Si un nodo Zénit cae, el tráfico se redistribuye en milisegundos
  • Si el ancho de banda se reduce, las prioridades se reajustan (comunicaciones críticas primero)
  • Si un servicio completo se degrada, los demás siguen operando de forma independiente

No hay un gran botón rojo que apague todo. Cada unidad del ecosistema es autónoma.

Redundancia mesh, no maestro-esclavo

La red Zénit no sigue topología de estrella. No hay un servidor central del que todo dependa. Los 247 nodos forman una malla peer-to-peer donde cada nodo es a la vez cliente y servidor.

Si desconectas un nodo, los otros 246 siguen hablando entre sí. La red se reconfigura en tiempo real.

Almacenamiento distribuido con copia triple

Cada dato crítico del ecosistema — votos del Parlamento, registros de TripX, contenido de obras — se replica en al menos tres nodos geográficamente separados. Si un datacenter entero desaparece, los datos siguen accesibles.

Usamos IPFS como capa de direccionamiento content-addressable y Redis clusters para caché distribuida con persistencia.

Recuperación autónoma

Cuando un nodo detecta que otro nodo no responde, el protocolo de recuperación se activa automáticamente:

  1. Detección — Heartbeat cada 500ms. Tras 3 fallos consecutivos, el nodo se marca como sospechoso.
  2. Verificación — Gossip protocol: otros 5 nodos verifican independientemente.
  3. Aislamiento — El tráfico se redirige, el nodo se pone en cuarentena.
  4. Reincorporación — Cuando el nodo vuelve, sincroniza el estado perdido y se reincorpora a la malla.

Sin intervención humana. Sin tickets. Sin páginas de guardia.

Energía y conectividad

Cada nodo Zénit tiene:

  • Batería de respaldo para 4 horas de operación
  • Dos fuentes de internet independientes (fibra + 5G)
  • Paneles solares con capacidad de recarga

La red puede operar en modo isla si el Internet general se interrumpe. Las comunicaciones internas siguen funcionando.

Lecciones del mundo real

MadridTaxis.es opera 24/7 en producción con pasajeros reales. En seis meses de operación, hemos tenido exactamente cero caídas de servicio completas. Degradaciones parciales, sí. Caídas totales, ninguna.

La razón no es un mejor hardware. Es una arquitectura que asume que todo va a fallar y está diseñada para que ningún fallo sea fatal.

Resiliencia cultural

La resiliencia técnica es necesaria, pero no suficiente. El ecosistema también necesita resiliencia cultural: documentación offline, protocolos de comunicación redundantes entre miembros, y la capacidad de operar sin depender de herramientas externas.

Por eso toda la documentación técnica existe en formato Markdown dentro del repositorio. Por eso los miembros tienen copias locales de los procedimientos críticos. Por eso no usamos Slack, Notion ni Google Docs.

Si mañana desaparecen todas las plataformas SaaS del mundo, TroncoCorp sigue funcionando. Esa es la promesa.

Compartir

EN