1 postmortems/2023-12-12-netwerk
kiara edited this page 2023-12-19 14:43:38 +00:00

Samenvatting

kiara verwijderde 2023-12-12 een server die het interne netwerk regelde en daarmee een central point of failure was voor de database clusters, en daarmee ook voor de cache proxy.

Impact

zelf-hosted diensten down voor 5 dagen, staging 7 dagen, helios langer. impact deels even opgevangen door nginx cache.

Tijdlijn

2023-12-12

  • 12:18 applicaties stemmen/ingang reported down door uptimerobot
  • 13:16 kiara stelt in ICT signal voor om minder gebruikte servers te prunen i.v.m. kostenbesparingen na verlies van zetel
  • 13:38 kiara prunet minder gebruikte servers en disks, zonder erg erin dat server controller DHCP server dnsmasq draait die het interne netwerk regelt en daarmee central point of failure is (gekeken bij server files en greenhost labels maar niet in ansible)

2023-12-13

  • ochtend: wordpress servers reported down door uptimerobot
  • 11:54 kiara noemt in ICT chat 'infra' dat het mariadb cluster het interne netwerk niet meer kan vinden
  • middag: arjan tipt dat het db cluster wellicht dnsmasq niet meer kan vinden die op controller draaide
  • ??? kiara en arjan bellen over dnsmasq
  • 17:46 kiara poogt server controller te herstellen van disk, wacht ivm DNS update
  • 23:08 tabe herstart de wordpress VPS waarop die ook niet meer bereikbaar lijkt

2023-12-14

  • 00:10 tabe rapporteert dat onze servers ook geen werkende DNS meer hebben, en weet dit handmatig voor een server hieruit te herstellen
  • 01:49 nginx proxy blijkt wordpress niet meer te zien dus start ook niet meer, waardoor ook de gecachte versie van de website niet langer bereikbaar is
  • 13:04 kiara rapporteert dat de nieuwe controller een volle disk /boot heeft (door greenhost van ons afgeschermd), en hierdoor blijft deze reincarnatie vast met broken packages.
  • 13:27 op advies van tabe tracht kiara controller vanuit ansible een nieuwe reincarnatie masqer (oorspronkelijk: dnsmasq) te geven, en wacht weer op DNS update in de hoop deze zo ook weer per domein te kunnen bereiken voor ansible.
  • 18:33 masqer blijkt niet ssh-toegankelijk per domein nog, enkel nog per IP

2023-12-15

  • 19:15 lid meldt bij1.org down

2023-12-16

  • 14:52 kiara rapporteert dat zonder werkende DNS het ook niet langer lukt om (tbv ansible scripts) packages te installeren op de servers
  • avond: kiara + arjan bellen over fix
  • 20:22 kiara voegt masqer aan ansible toe direct via IP
  • kiara probeert deze op advies van arjan een IP te geven om deze weer vindbaar te maken voor het db cluster

2023-12-17

2023-12-19

  • 13:20 tijdens onderzoek voor post-mortem vindt kiara dat de helios/staging servers nog down zijn. herstart hierop de gecrashte haproxy op wp-staging.

Andere pogingen tot herstel

  • 2023-12-16 15:40 paul upgradet forgejo om open CVE (+ DoS attack?)

Open vragen

Oorzaken

  • kiara verwijderde een benodigde server
  • kostenbesparing op minder gebruikte servers
  • gebrekkige documentatie over interne diensten waaronder het interne netwerk
  • /boot niet bereikbaar
  • issues met per domein over ssh bereiken van nieuwe servers
    • onbegrip hierover
  • proxy nginx herstart afhankelijk van website server status
  • interne netwerk afhankelijk van centrale node
  • DNS (benodigd voor installaties) op servers afhankelijk gemaakt van centrale node
  • matige garantie/documentatie over reproduceerbaarheid

Lessen

  • voorzichtiger handelen bij verwijderen van servers
    • team vragen per server
    • ook ansible checken
  • ansible af laten runnen voor nieuwe servers

Actiepunten

  • DNS op servers onafhankelijk maken van centrale node
  • beter documenteren van setup
  • beter documenteren over reproduceerbaarheid
  • proxy onafhankelijk maken van website server status?
  • reproduceerbaarheid
  • af van greenhost VPS'en ivm /boot toegang restricties tbv bv
  • website statisch
  • vermijden van central points of failure?