Ovidiu D. Popica

”Mi-au ars serverele”. Cum și-a revenit afacerea unui antreprenor din Romania după incendiul catastrofal la un data center din Franța. La Podcastul Antreprenorilor Ep.8

Thumbnail

Afacerea unui antreprenor român care furnizează clienților informații și analize de business a fost aproape 2 zile oprită din cauza unui incendiu catastrofal, la un centru de data servere din Franța. 

Termene.ro, unul dintre cele mai utilizate site-uri pentru verificarea datelor firmelor înregistrate în România și-a putut relua activitatea cu clienții după 41 de ore de muncă pentru refacerea infrastructurii și configurațiilor pentru servere și baze de date.

Fondatorul afacerii, Adrian Dragomir spune că este cel mai grav incident cu care Termene.ro s-a confruntat în cei 7 ani de existență. 

”Lebăda Neagră apare. Indiferent cât de improbabil este un astfel de eveniment, apare!”

Discutăm, așadar, la Podcastul Antreprenorilor, Episodul 8, cu Adrian Dragomir, fondator Termene.ro despre:

  • Cum activat echipa Termene.ro planul de intervenție în caz de dezastru

  • Cum arata arhitectura infrastructurii de servere înainte de incendiul de la OVH

  • Cum arăta planul de urgență - disaster recovery plan - la Termene.ro.

    • Care sunt primele lucruri pe care le faci când trebuie să activezi un plan de dezastru. Ce oameni din echipă suni prima dată (09:00)

    • Cum comunici cu clienții în cazul unui incident care îți oprește complet site-ul și serverele

  • Cum măsori pierderile când nu îți mai funcționează site-ul

  • De unde a venit surprizele neplăcute dar și salvarea? 

    • Câte backup-uri a avut Termene.ro și cum au fost organizate

  • Ce ar fi putut face mai bine și ce învățături pot trage alți antreprenori din acest incident

Ard servere la Strasbourg, plânge un antreprenor la Ploiești

Contextul acestei întâmplări recente (noaptea de 10 martie 2021) arată cam așa:

  • În miez de noapte, pompierii de la Departamentul de Incendii și Siguranță Rinul Inferior din Strasbourg demarează cu toate sirenele pornite spre clădirile unuia dintre cei mai mari furnizori de data centere din Europa

  • Peste 100 pompieri francezi cu 44 de utilaje, șase furtunuri de incendiu, două scări, o dronă și o barca cu pompă, plus pompieri germani veniți ca întăriri de pe celălalt mal al Rinului se luptă șase ore cu ceea ce ei au numit ”un incendiu de proporții”.

  • Pe măsură ce clienții primeau alerte că le cad site-urile și sunau disperați că nu se mai pot conecta la servere, se apropia ora bilanțului: la unul din cele patru data centere e daună totală, la altul distrugerile sunt parțiale.

  • Serverele distruse ori avariate în urma incendiului găzduiau sute mii de website-uri, Franța, Marea Britanie sau Polonia, unele dintre ele aparținând și unor instituții guvernamentale. 

  • Compania se numește OVH și este unul dintre cei mai importanți furnizori europeni pentru astfel de servicii. Are 17 data centere în Franța și 32 la nivel Global. Cu o zi înaintea incendiului, compania informa că începuse pregătirile pentru IPO (vânzare de acțiuni prin Ofertă Publică Inițială)

Alertele de la miezul nopții

Pentru afacerea lui Adrian Dragomir coșmarul a început cu primele alerte automate care anunțau că site-ul nu mai funcționează.   

”M-am trezit pe la 2.30, mi-a bipăit telefonul, am intrat pe Slack, canalul nostru de comunicare și am primit acolo alerta ”website is down” (n.r. - site-ul este nefuncțional). Am sunat imediat inginerul nostru de sistem, ne-am uitat împreună ….și pe măsură ce noi discutam dispăreau server-ele. Noi aveam 9 servere în Franța”.

 Firma avea următoarea infrastructură hardware, software:

  • servere în Strasbourg, în data centere ale companiei OVH; 

  • un mic data-room de backup, la o locație în Ploiești;

  • la sediul principal din Ploiești, un data center terminat acum o lună de zile, în care firma a investit 1 milion de euro, cu un proiect european;

  • data-center-ul din sediul principal care era însă, la data incidentului, în teste și configurări, înaintea punerii în producție;

  • baze de date cu zeci de TB de informații; 

  • sisteme de monitorizare și actualizare în timp real a surselor de informații.

Pași în planul de recuperare în caz de dezastru

  1. Convocarea urgentă a echipei de ingineri IT la sediul firmei

  2.  Afișarea unei pagini pe domeniul principal termene.ro prin care clienții sunt anunțați că site-ul este nefuncțional

  3. Comunicare internă cu toate departamentele, informare despre situația de urgență și planificarea activităților imediate ale fiecărui departament implicat

  4. Comunicare cu terți implicați: avocați, relații publice

  5. Anunț către public

  6. Contactarea telefonică și informarea directă a clienților

”Am avut două priorități: prima a fost cea tehnică a cărei implementare a început instantaneu. Colegii au știut foarte bine ce au de făcut și s-au mișcat foarte repede.

A doua componentă, extrem de importantă, a fost cea de comunicare. În companie am comunicat cu toată lumea pe Slack, ca să știe ce se întâmplă; am anunțat și PR-ul,  avocații cu care am discutat ce avem de făcut pe componentele GDPR, ce obligații de notificare avem.

Am ieșit public foarte, foarte repede și am anunțat pe toate canalele disponibile, iar la ora 9.00 (dimineața) am început să ne sunăm clienții.

Până la ora 16.00 am sunat toți clienții plătitori, peste 2000 de companii. Toate departamentele, ne-am pus pe telefoane și ne-am anunțat clienții, pentru că era clar că nu putea rezolva în câteva ore.”

Mai important decât prejudiciul pe care îl avem noi este potențialul prejudiciu pentru clienți. Acolo, din punctul meu de vedere este miza, cu adevărat”.

Salvarea: propriul data center, al patrulea back-up, Romania, Ploiești

  • Trei dintre locațiile unde se aflau date esențiale și backup-uri (în Franța) au fost pierdute.

  • Backup-ul salvator a fost cel din propriul data room, de la o locație din Ploiești, oraș în care se află sediul de reședință principal al firmei.

  • Cele 41 de ore de repunere în funcțiune a sistemelor esențiale pentru repornirea site-ului au fost necesare pentru decriptarea bazei de date.

  • Aproape 20 de ore a durat importul bazei de date

”Ne-am protejat datele, la date am avut pierdere zero dar, pe partea de configurare servere, ne-a bușit rău de tot. Nu datele au fost provocarea noastră, ci reconfigurarea întregului sistem termene.ro: monitorizări, alerte, configurări pe site.”

3 sfaturi de la un antreprenor cu afacerea trecută prin foc. La propriu! 

  1. Email-urile și documentele în cloud;

”Ne-a ajutat foarte mult că toată infrastructura de email și documente a fost pe cloud, la Microsoft. Colegii noștri nu țin nimic pe laptop-uri. 

Nu a existat down-time la email-uri și am putut comunica. În astfel de situații comunicarea este extrem de importantă.”

  1. Back-up pentru date, în locuri diferite

”Nu vă bazați că furnizorul vostru de hosting sau de orice spune că are back-up. Trebuie să faceți back-up la un alt furnizor. Asta s-a întâmplat la noi cu OVH: ne-a anunțat pe toți că există back-up în cloud și nu a fost așa. Când a căzut s-a dus și cloud și back-up, s-a dus tot! ”

  1. Back-up pentru tot sistemul, în altă parte

”Există la companiile mari din IT ”disaster recovery plan” (n.r. - planul de recuperare în caz de dezastru), o replicare a întregii infrastructuri - sisteme, programe, setări, configurări - astfel încât să poți reporni într-o nouă locație, în câteva minute.

Asta e lecția pe care am învățat-o noi: trebuie găsită o soluție să nu mai stăm opriți 41 de ore”.

 

Parallax

Vizualizari
1293
Conţinut
Parerea ta despre articol
Adauga comentariu

- Ultimele știri -

 

  Ultimele știri