Page:
postmortems/2023-12-12-netwerk
Pages
APIs
CLIs
Helios gebruiker aanmaken
ICT
IT kosten algemeen
Mastodon
accounts
administratie
afspraken
alv
backups
bestanden
civicrm
config
correspondentie
data
deployment
development setup
diensten
email/invite
forgejo
git mirroring
github
hardening
hertalen
home
kubernetes
life cycle management
linkbee
linken
logs
mollie_mandaten_intrekken
monitoring
nextcloud/gebruiker aanmaken
nextcloud/invite
nextcloud
nieuwe environment maken voor bestaande wordpress site
nieuwsbrieven
opzeggingen
partijbureau
partijraad
petities
postmortems/2022 11 08 nextcloud
postmortems/2022 12 14 nextcloud
postmortems/2023-12-12-netwerk
postmortems
preferred tech stack
restarting
roadmap
scaling
schrijven
sites
sysadmin
tips
toegankelijke communicatie
tolken
troubleshooting
vergadering
website hosting
wordpress setup
1
postmortems/2023-12-12-netwerk
kiara edited this page 2023-12-19 14:43:38 +00:00
Samenvatting
kiara verwijderde 2023-12-12 een server die het interne netwerk regelde en daarmee een central point of failure was voor de database clusters, en daarmee ook voor de cache proxy.
Impact
zelf-hosted diensten down voor 5 dagen, staging 7 dagen, helios langer. impact deels even opgevangen door nginx cache.
Tijdlijn
2023-12-12
- 12:18 applicaties stemmen/ingang reported down door uptimerobot
- 13:16 kiara stelt in ICT signal voor om minder gebruikte servers te prunen i.v.m. kostenbesparingen na verlies van zetel
- 13:38 kiara prunet minder gebruikte servers en disks, zonder erg erin dat server
controller
DHCP serverdnsmasq
draait die het interne netwerk regelt en daarmee central point of failure is (gekeken bij server files en greenhost labels maar niet in ansible)
2023-12-13
- ochtend: wordpress servers reported down door uptimerobot
- 11:54 kiara noemt in ICT chat 'infra' dat het mariadb cluster het interne netwerk niet meer kan vinden
- middag: arjan tipt dat het db cluster wellicht dnsmasq niet meer kan vinden die op controller draaide
- ??? kiara en arjan bellen over dnsmasq
- 17:46 kiara poogt server
controller
te herstellen van disk, wacht ivm DNS update - 23:08 tabe herstart de wordpress VPS waarop die ook niet meer bereikbaar lijkt
2023-12-14
- 00:10 tabe rapporteert dat onze servers ook geen werkende DNS meer hebben, en weet dit handmatig voor een server hieruit te herstellen
- 01:49 nginx proxy blijkt wordpress niet meer te zien dus start ook niet meer, waardoor ook de gecachte versie van de website niet langer bereikbaar is
- 13:04 kiara rapporteert dat de nieuwe
controller
een volle disk/boot
heeft (door greenhost van ons afgeschermd), en hierdoor blijft deze reincarnatie vast met broken packages. - 13:27 op advies van tabe tracht kiara
controller
vanuit ansible een nieuwe reincarnatiemasqer
(oorspronkelijk:dnsmasq
) te geven, en wacht weer op DNS update in de hoop deze zo ook weer per domein te kunnen bereiken voor ansible. - 18:33
masqer
blijkt niet ssh-toegankelijk per domein nog, enkel nog per IP
2023-12-15
- 19:15 lid meldt bij1.org down
2023-12-16
- 14:52 kiara rapporteert dat zonder werkende DNS het ook niet langer lukt om (tbv ansible scripts) packages te installeren op de servers
- avond: kiara + arjan bellen over fix
- 20:22 kiara voegt
masqer
aan ansible toe direct via IP - kiara probeert deze op advies van arjan een IP te geven om deze weer vindbaar te maken voor het db cluster
2023-12-17
- 12:44
masqer
bereikbaar per domein naast IP - 17:19 kiara voegt nameservers toe aan overige servers, probeert intern netwerk aan de praat te krijgen
- avond: kiara + arjan bellen over de problemen, waarbij arjan het interne netwerkt fixt via nieuwe server
ns
die hij (ittmasqer
) wel kan bereiken.
2023-12-19
- 13:20 tijdens onderzoek voor post-mortem vindt kiara dat de helios/staging servers nog down zijn. herstart hierop de gecrashte
haproxy
opwp-staging
.
Andere pogingen tot herstel
- 2023-12-16 15:40 paul upgradet forgejo om open CVE (+ DoS attack?)
Open vragen
Oorzaken
- kiara verwijderde een benodigde server
- kostenbesparing op minder gebruikte servers
- gebrekkige documentatie over interne diensten waaronder het interne netwerk
/boot
niet bereikbaar- issues met per domein over ssh bereiken van nieuwe servers
- onbegrip hierover
- proxy nginx herstart afhankelijk van website server status
- interne netwerk afhankelijk van centrale node
- DNS (benodigd voor installaties) op servers afhankelijk gemaakt van centrale node
- matige garantie/documentatie over reproduceerbaarheid
Lessen
- voorzichtiger handelen bij verwijderen van servers
- team vragen per server
- ook ansible checken
- ansible af laten runnen voor nieuwe servers
Actiepunten
- DNS op servers onafhankelijk maken van centrale node
- beter documenteren van setup
- beter documenteren over reproduceerbaarheid
- proxy onafhankelijk maken van website server status?
- reproduceerbaarheid
- af van greenhost VPS'en ivm
/boot
toegang restricties tbv bv- elders e.g. hetzner?
- application-/container-level hosting?)
- website statisch
- vermijden van central points of failure?