Oppgradering krasjet Azure
Mange tjenester verden over nede i nesten et halvt døgn. Microsoft har begynt ryddejobben.
Rett før klokken to natt norsk tid til onsdag begynte en rekke av tjenestene i Microsofts offentlige skytjeneste Azure å bli utilgjengelige i mesteparten av verden. Ifølge Azure-bloggen til selskapet var tjenestene tilbake i drift klokken kvart på ett onsdag – et driftsavbrudd på nesten 11 timer, som rammet svært mange brukere av tjenestene.
Det gjorde ikke saken bedre at feilen satt i en av de grunnleggende komponentene i arkitekturen – Azure Storage. Dermed sluttet svært mange tjenester å fungere, fordi de bruker den underliggende lagringstjenesten.
Dette er ikke første gang Microsoft har problemer med stabiliteten til tjenestene sine, forrige gang var i august i år, og da var også mange av tjenestene utilgjengelige i mange deler av verden. Den gangen tok det bortimot en uke før alle tjenester var i normal drift igjen.
Ytelsesoppgradering
Ifølge bloggen skyldtes sammenbruddet en oppgradering som skulle gi lagringskomponenten en stor ytelsesforbedring . Til tross for at den oppgraderte programvaren hadde kjørt i «ukesvis» i en begrenset del av infrastrukturen, ble ikke feilen i koden oppdaget.
Selve feilen sendte frontend-maskinene for lagringen av ustrukturerte data - «Blob storage» - inn i en uendelig løkke. Resultatet av dette var at frontend-maskinene ikke klarte å håndtere ny trafikk, noe som i sin tur førte til at alle overliggende tjenester som bruker lagringssystemene ikke lenger fungerte normalt.
Feilen ble distribuert ut til flesteparten av Microsofts datasentre, noe som selskapet tilskriver en «operasjonell feil». Standardprosedyren for utrulling er å oppgradere produksjonssystemene gradvis.
Bot og bedring
I bloggen beklager Jason Zander, direktør for Microsofts Azure-team, denne hendelsen. Han legger seg imidlertid ikke fullstendig flat, og dermed er kommentarkjeden under bloggposten full av sinte meldinger fra brukerne av tjenesten.
Det er særlig ett av resultatene av denne hendelsen som får kundene til å rette harmdirrende kritikk mot Microsoft: Administrasjonsportalen indikerte ingen feil på tjenestene i flere timer etter at feilen inntraff. Den viste at alt var i orden, til tross for at mange kunder allerede var i kontakt med Microsoft Azure support, og diskuterte feilen med disse. Forklaringen på feilindikasjonen var at også administrasjonsportalen bruker lagringstjenestene i Azure, og dermed feilet også denne programvaren.
Tiltakene som Microsoft planlegger for å unngå lignende hendelser i framtiden listes opp i bloggen. Flere av disse ser ganske selvinnlysende ut, som for eksempel at utrulling av oppgraderinger skal skje gradvis og kontrollert. I tillegg skal selskapet reparere programfeilen som gikk i uendelig løkke, og reparere dashbordet som viser tjenestenes tilstand og status.
Ifølge bloggen ble følgende tjenester berørt av denne feilen: Azure Storage, Virtual Machines, SQL Geo-Restore, SQL Import/export, Websites, Azure Search, Azure Cache, Management Portal, Service Bus, Event Hubs, Visual Studio, Machine Learning, HDInsights, Automation, Virtual Network, Stream Analytics, Active Directory, StorSimple og Azure Backup Services.