📝 Postmortem Report – NGINX Upstream DNS Resolution Failure

1. Summary

Incident ID/Name: NGINX-Upstream-DNS-20250924
Date & Time: 2025-09-24, 10:12 – 10:30 IRST
Duration: \~18 minutes
Severity Level: SEV1 (Critical)
Systems Affected: NGINX upstream services (srv190), DNS resolution layer
Impact on Users/Business: 100% outage. All panels and web services returned 502 Bad Gateway errors. Users could not access the platform during the incident.

../assets/postmortem-dns.png

10:12 – DNS resolution failures began for upstream defined in NGINX.
10:13 – Panels and web services returned 502 errors.
10:15 – Alerts fired, on-call engineer acknowledged incident.
10:18 – Suspected DNS resolution issue from FAVA side.
10:22 – Confirmed upstream had only srv190 and configured resolver (FAVA) failed to resolve.
10:26 – Engineers added alternative resolvers + three backup upstream servers.
10:30 – NGINX restarted successfully, all services restored.

Immediate Cause: NGINX runtime error due to DNS resolution failure → caused process stop and 502 responses.
Underlying Causes:
Only a single upstream server (srv190) defined.
Resolver was configured, but FAVA DNS resolvers failed, preventing proper resolution.
Lack of redundancy and failover handling for upstreams.
Why It Wasn’t Prevented/Detected Earlier:
Monitoring didn’t cover DNS resolution failures.
No resilience or chaos testing for DNS outages.

User Impact: 100% of requests failed (\~18 minutes full downtime).
Internal Impact: High urgency; on-call engineers required immediate troubleshooting.
Customer Communication: Internal-only escalation; no external comms sent (platform fully down but recovered quickly).

Single upstream created a fragile single point of failure.
Resolver was configured, but FAVA DNS resolvers failed, causing NGINX crash instead of graceful fallback.
No upstream redundancy.
Monitoring blind spot: DNS issues went undetected until total outage.

[x] Ensure minimum 3 upstreams per service (Owner: DevOps, Due: Sept 30)
[x] Add alternative DNS resolvers in NGINX configs (Owner: DevOps, Due: Sept 28)
[ ] Add DNS resolution + upstream health monitoring (Owner: SRE, Due: Oct 5)

DNS must be treated as a critical dependency.
Single upstream setups create unacceptable fragility.
Resolver configuration alone is insufficient — multiple resolvers or fallback mechanisms are necessary.
Chaos/resilience testing is essential to validate platform stability under external dependency failures.