postmortems/2023-12-12-netwerk - bij1/wiki

Table of Contents

Samenvatting
Impact
Tijdlijn

2023-12-12
2023-12-13
2023-12-14
2023-12-15
2023-12-16
2023-12-17
2023-12-19

Andere pogingen tot herstel
Open vragen
Oorzaken
Lessen
Actiepunten

Samenvatting

kiara verwijderde 2023-12-12 een server die het interne netwerk regelde en daarmee een central point of failure was voor de database clusters, en daarmee ook voor de cache proxy.

Impact

zelf-hosted diensten down voor 5 dagen, staging 7 dagen, helios langer. impact deels even opgevangen door nginx cache.

Tijdlijn

2023-12-12

12:18 applicaties stemmen/ingang reported down door uptimerobot
13:16 kiara stelt in ICT signal voor om minder gebruikte servers te prunen i.v.m. kostenbesparingen na verlies van zetel
13:38 kiara prunet minder gebruikte servers en disks, zonder erg erin dat server controller DHCP server dnsmasq draait die het interne netwerk regelt en daarmee central point of failure is (gekeken bij server files en greenhost labels maar niet in ansible)

2023-12-13

ochtend: wordpress servers reported down door uptimerobot
11:54 kiara noemt in ICT chat 'infra' dat het mariadb cluster het interne netwerk niet meer kan vinden
middag: arjan tipt dat het db cluster wellicht dnsmasq niet meer kan vinden die op controller draaide
??? kiara en arjan bellen over dnsmasq
17:46 kiara poogt server controller te herstellen van disk, wacht ivm DNS update
23:08 tabe herstart de wordpress VPS waarop die ook niet meer bereikbaar lijkt

2023-12-14

00:10 tabe rapporteert dat onze servers ook geen werkende DNS meer hebben, en weet dit handmatig voor een server hieruit te herstellen
01:49 nginx proxy blijkt wordpress niet meer te zien dus start ook niet meer, waardoor ook de gecachte versie van de website niet langer bereikbaar is
13:04 kiara rapporteert dat de nieuwe controller een volle disk /boot heeft (door greenhost van ons afgeschermd), en hierdoor blijft deze reincarnatie vast met broken packages.
13:27 op advies van tabe tracht kiara controller vanuit ansible een nieuwe reincarnatie masqer (oorspronkelijk: dnsmasq) te geven, en wacht weer op DNS update in de hoop deze zo ook weer per domein te kunnen bereiken voor ansible.
18:33 masqer blijkt niet ssh-toegankelijk per domein nog, enkel nog per IP

2023-12-15

19:15 lid meldt bij1.org down

2023-12-16

14:52 kiara rapporteert dat zonder werkende DNS het ook niet langer lukt om (tbv ansible scripts) packages te installeren op de servers
avond: kiara + arjan bellen over fix
20:22 kiara voegt masqer aan ansible toe direct via IP
kiara probeert deze op advies van arjan een IP te geven om deze weer vindbaar te maken voor het db cluster

2023-12-17

12:44 masqer bereikbaar per domein naast IP
17:19 kiara voegt nameservers toe aan overige servers, probeert intern netwerk aan de praat te krijgen
avond: kiara + arjan bellen over de problemen, waarbij arjan het interne netwerkt fixt via nieuwe server ns die hij (itt masqer) wel kan bereiken.

2023-12-19

13:20 tijdens onderzoek voor post-mortem vindt kiara dat de helios/staging servers nog down zijn. herstart hierop de gecrashte haproxy op wp-staging.

Andere pogingen tot herstel

2023-12-16 15:40 paul upgradet forgejo om open CVE (+ DoS attack?)

Open vragen

Oorzaken

kiara verwijderde een benodigde server
kostenbesparing op minder gebruikte servers
gebrekkige documentatie over interne diensten waaronder het interne netwerk
/boot niet bereikbaar
issues met per domein over ssh bereiken van nieuwe servers
- onbegrip hierover
proxy nginx herstart afhankelijk van website server status
interne netwerk afhankelijk van centrale node
DNS (benodigd voor installaties) op servers afhankelijk gemaakt van centrale node
matige garantie/documentatie over reproduceerbaarheid

Lessen

voorzichtiger handelen bij verwijderen van servers
- team vragen per server
- ook ansible checken
ansible af laten runnen voor nieuwe servers

Actiepunten

DNS op servers onafhankelijk maken van centrale node
beter documenteren van setup
beter documenteren over reproduceerbaarheid
proxy onafhankelijk maken van website server status?
reproduceerbaarheid
af van greenhost VPS'en ivm /boot toegang restricties tbv bv
- elders e.g. hetzner?
- application-/container-level hosting?)
website statisch
vermijden van central points of failure?