Kiedy ludzie popełniają błędy technologiczne

Kiedy ludzie popełniają błędy technologiczne

Często myślimy, że sprzedawcy są doskonali. Mają kopie zapasowe. Mają redundancję. Mają ekspertów, którzy dokładnie wiedzą, jak wdrożyć doskonałe rozwiązania. A potem widzimy, że nie są lepsi od nas.

Rozważ kilka niedawnych przykładów.

W małych i średnich firmach (SMB) firma StorageCraft od dawna jest zaufanym dostawcą oprogramowania do tworzenia kopii zapasowych. Jest jednym z pierwszych rozwiązań ułatwiających tworzenie kopii zapasowych obrazów. Jest używany i polecany przez wielu dostawców usług zarządzanych. Po przejęciu firmy StorageCraft przez firmę Arcserve w marcu 2021 r. nie nastąpiły natychmiastowe większe zmiany w sposobie działania firmy.

W zeszłym miesiącu wiele zapisów w chmurze zostało trwale utraconych. Jak donosi firma Blocks and Files: „Podczas niedawnej zaplanowanej konserwacji nadmiarowy zestaw serwerów zawierających krytyczne metadane został przedwcześnie wyłączony z eksploatacji. W rezultacie niektóre metadane zostały naruszone, a krytyczne połączenia między środowiskiem pamięci masowej a naszą chmurą DRaaS (usługi w chmurze) zostały rozłączone. Inżynierowie nie byli w stanie ponownie ustanowić wymaganych powiązań między metadanymi a systemem przechowywania, przez co dane stały się bezużyteczne. Oznacza to, że partnerzy nie mogą replikować ani przełączać maszyn w trybie awaryjnym w naszym centrum danych. »

Według stanu na 16 kwietnia raport o stanie głosił: „Wszystkie komputery, których dotyczy problem, są teraz włączone i trwa gromadzenie punktów przywracania. Wszystkie ograniczenia zostały wyłączone, a pobieranie działa normalnie. Czas replikacji danych będzie zależał od przepustowości pobierania i ilości danych każdego klienta.

Nie pomaga, jeśli istniała wcześniejsza kopia zapasowa, którą chciałeś zachować w repozytorium w chmurze.

Następnie Atlassian, który 4 kwietnia poinformował, że około 400 klientów Atlassian Cloud doświadczyło całkowitej awarii produktów Atlassian. Jak podaje firma na swojej stronie internetowej:

„Jedna z naszych samodzielnych aplikacji dla Jira Service Management i Jira Software, o nazwie „Insight – Asset Management”, została w pełni zintegrowana z naszymi produktami jako funkcja natywna. Z tego powodu musieliśmy wyłączyć starą samodzielną aplikację w witrynach klientów. klienci, którzy ją zainstalowali. Nasze zespoły inżynieryjne planowały użyć istniejącego skryptu w celu wyłączenia instancji tej samodzielnej aplikacji. Pojawiły się jednak dwa krytyczne problemy:

„Brak komunikacji. Po pierwsze, brakowało komunikacji pomiędzy zespołem, który wnioskował o dezaktywację, a zespołem, który dokonał dezaktywacji. Zamiast podać dane uwierzytelniające aplikacji, która ma zostać oznaczona do dezaktywacji, zespół podał dane uwierzytelniające dla aplikacji całą witrynę w chmurze, w której aplikacje musiały zostać wyłączone.

Wadliwy skrypt. Po drugie, używany przez nas skrypt zapewniał zarówno funkcję „oznaczenia do usunięcia” używaną w normalnych codziennych operacjach (gdzie pożądane jest przywrócenie danych), jak i opcję „trwałego usuwania” potrzebną do trwałego usunięcia danych, gdy zajdzie taka potrzeba. ze względów zgodności. . Skrypt został uruchomiony z niewłaściwym trybem wykonania i błędną listą identyfikatorów. W rezultacie około 400 witryn klientów zostało niewłaściwie usuniętych.

Chociaż te zdarzenia mogły nie mieć na Ciebie bezpośredniego wpływu, mądrze jest wykorzystać je jako wnioski.

Przede wszystkim zawsze sprawdzaj (w umowie z dostawcą lub w warunkach licencji), jakie są jego obowiązki i jakie masz możliwości w razie problemu. W każdym przypadku firmy StorageCraft i Atlassian będą honorować uzgodnione warunki. Jeśli jesteś większym klientem, możesz kontrolować warunki umowy i zasoby na wyciągnięcie ręki. Jeśli jesteś małym klientem, Umowa licencyjna użytkownika końcowego i warunki Umowy licencyjnej użytkownika końcowego kontrolują działania dostawcy. Jeśli ufasz dostawcy i jego usługom, spodziewaj się, że w pewnym momencie coś pójdzie nie tak. Kluczem jest obserwowanie, jak dostawcy traktują swoje błędy, a nie sukcesy.

Czy zwrócą Ci wartość straty? Czy dokonają niezwykłych czynów, aby uczynić cię całym lub prawie całym? Często to, jak szybko rozpoznają, co się stało, może być ważniejsze niż sposób, w jaki przetwarzają Twoje dane.

W obu przypadkach winny był błąd ludzki. Wciąż pamiętam czas, gdy pracowałem na komputerze z systemem DOS i przypadkowo wpisałem *.* do katalogu głównego dysku C zamiast do żądanego podkatalogu. Oczywiście jest to lekcja, która pozostaje we mnie do dziś. Za każdym razem, gdy robię coś związanego z usuwaniem, zatrzymuję się i pytam, czy mam kopię zapasową na wypadek, gdybym popełnił błąd. Zatrzymuję się i sprawdzam, gdzie wykonuję czynność. Zastanawiam się, czy usuwam właściwy element.

Niezależnie od tego, czy jesteś pojedynczym użytkownikiem, czy zarządzasz siecią komputerów (lokalnie lub w chmurze), zawsze miej pełną kopię zapasową. Rozważ możliwość odzyskania danych na wiele sposobów po wystąpieniu problemu. Niezależnie od tego, czy tworzysz pełne kopie zapasowe, czy proste kopie katalogów, bądź elastyczny, mając sposoby odzyskiwania danych.

Następnie, jeśli jesteś MSP, poproś swoich pracowników, aby dokładnie sprawdzili swoje skrypty. Często ponownie używamy skryptów i nie sprawdzamy ich, aby upewnić się, że nadal robią to, co zamierzamy. Czytanie szczegółów porażki Atlassiana jest bolesne. Oczywiście zespoły nie komunikowały się dobrze i przypadkowo usunęły informacje, których nie miały zamiaru usuwać. Komunikacja podczas planowania poważnych zmian w infrastrukturze jest kluczem do sukcesu.

Dotyczy to również komunikacji z dostawcami. Jestem użytkownikiem Microsoft 365 i często korzystam z dwóch różnych platform do śledzenia problemów. Konto Microsoft 365 na Twitterze pozwala mi otrzymywać powiadomienia w przypadku problemów. (Możesz pobrać aplikację Twitter i ustawić ją tak, aby otrzymywać automatyczne powiadomienia o zmianach statusu.) Możesz także skonfigurować powiadomienia z centrum wiadomości, aby mieć pewność, że jesteś na bieżąco. W przypadku dostawców, z których regularnie korzystasz, sprawdź, czy mają kanały komunikacji, dzięki którym będziesz na bieżąco informowany.

Pamiętaj, że technologią napędzają ludzkie decyzje, a ludzie popełniają błędy. Nie zakładaj, że błędy nie będą się zdarzać. Zaplanuj, co zrobisz, gdy dostawcy popełnią błędy. W końcu to tylko ludzie.

Prawa autorskie © 2022 IDG Communications, Inc.