Infra - Hardware

Plano de Recuperação de Desastre

Descrição de um ambiente de recuperação de desastre. Tem-se uma breve explicação sobre tipos de Sites de backup. E uma abordagem do que deverá consobre o que deve costar em um Plano de Recuperação de Desastre (Disaster Recovery).

por Mauro Roberto Pelliciotti



Introdução

Imagine que após um desastre (natural, acidental ou intencional), a empresa envolvida em tal desastre deverá restaurar seu ambiente de trabalho executando a maior parte das tarefas que eram executadas no Site principal, em outro Site, o mais rápido possível. Como isso é possível? É justamente neste momento que entra em cena, um plano de recuperação de desastre.

Plano de Recuperação de Desastres

A recuperação de desastres é a habilidade de recuperar a empresa vitima de um de um evento que impactou o funcionamento do seu centro de dados o mais competente e rapidamente possível. Ao elaborar um plano, foi tomado o primeiro passo da recuperação de desastres. O tipo de desastre pode variar, mas o objetivo final será sempre o mesmo. Restabelecer as atividades da empresa!

Um local de backup é vital, mas será inútil sem um plano de recuperação. O plano de recuperação de desastres ou plano de continuidade dos negócios irá determinar cada faceta do processo de recuperação de desastres, incluindo, mas não limitado a:
  • Quais eventos denotam possíveis desastres
  • Quais pessoas na empresa têm autorização para declarar um desastre e, conseqüentemente, colocar o plano em ação
  • A seqüência de eventos necessária para preparar o local de backup, uma vez declarado o desastre
  • As funções e responsabilidades de todo o pessoal envolvido na execução do plano
  • Um inventário do hardware e software necessários para restaurar a produção
  • Um cronograma listando os membros da equipe que compõem o local de backup, incluindo um cronograma de rotação para suportar a continuação das operações sem estressar os membros da equipe
  • A seqüência de eventos necessária para mover as operações do local de backup para o centro de dados novo/restaurado

Os planos de recuperação de desastres freqüentemente servem o propósito de juntar todos os detalhes. Este nível de detalhe é vital porque, no caso de uma emergência, o plano pode ser a única coisa que restou do seu centro de dados anterior (obviamente, além dos backups externos) para ajudá-lo na reconstrução e restauração das operações.

Dica

Os planos de recuperação de desastres devem estar prontamente disponíveis no seu ambiente de trabalho, mas também é necessário ter cópias externas do Plano. Desta maneira, um desastre que destrua seu ambiente de trabalho não atingirá as cópias do Plano de recuperação de desastres. Um bom lugar para guardar esta cópia é o local de armazenamento dos backups externos quando houver. Se não for violar as normas de segurança da sua empresa, as cópias também podem ser guardadas nas casas de membros-chave da equipe, prontas para uso imediato.

Um dos aspectos mais importantes para recuperação de um desastre (disaster recovery) é ter o local a partir do qual a recuperação possa ser feita. Este local também é conhecido como um site de backup ou site alternativo e será neste local que o ambiente será restaurado e o centro de dados recriado, e onde estará operacional durante o período critico.

Planos de Contingência de Espaço de Trabalho Alternativo

Segundo a Agência Estadual de Gerenciamento de Riscos do Texas (SORM), há seis tipos de planos de contingência, para o caso de:
  1. Instalações do cliente (In-House). Construir instalações nos moldes da instalação principal, que podem ser ocupadas em caso de emergência é uma opção cara, mas que rapidamente deixara o ambiente disponível para a empresa.
  2. Contratos com terceiros. Envolve o uso temporário das instalações de outra empresa.
  3. Local vazio (Cold Site). Este plano requer apenas uma sala vazia sem equipamentos de computador ou conexões para realizar o trabalho. Tudo deverá ser levado posteriormente e deverá haver no plano, um tempo calculado para restaurar o ambiente.
  4. Local parcialmente equipado (Warm Site). Um local parcialmente vazio é uma sala com o mínimo em equipamento, mesas, cadeiras e telefones, mas sem todos os computadores, software e dados necessários para a realização do trabalho.
  5. Local equipado (Hot Site). Um local equipado, ou Hot Site, é uma instalação substituta, com especificações que atendam a demanda da empresa, alimentada 24 horas por dia, 7 dias da semana, com sistemas, aplicativos e dados necessários à realização do trabalho. Indicado para empresas com grande volume de dados.
  6. Local recíproco. Este plano requer um contrato assinado com outra filial da mesma empresa ou com outra empresa, para compartilhar o espaço do escritório e recursos em uma emergência.

Cold Site ou Hot Site, não fazem referência à temperatura do site de backup. Mas sim ao tipo de ambiente necessário para iniciar as operações no site de backup.

Um site de backup frio é um pouco mais do que um espaço configurado apropriadamente num prédio. Tudo o que é necessário para restaurar o serviço para seus usuários deve ser obtido e entregue ao site antes de começar o processo de recuperação. Como você pode imaginar, a demora na transformação de um site de backup frio numa operação completa pode ser substancial. Sites de backup frios são os mais baratos e indicados a empresas que podem suportar um tempo fora de operação.

Um site de backup morno (Warm Site) já é estocado com hardware parecido com o que você tem no seu centro de dados. Para recuperar o serviço, os últimos backups do seu local de armazenamento externo devem ser entregues e uma restauração do zero deve ser completa, antes de realmente iniciar a recuperação.

Sites de backup quentes possuem uma imagem espelho, para que seja possível entrar em produção quando necessário. Seus dados recebidos são replicados em tempo real ou em intervalos planejados. Como você pode imaginar, um site de backup quente pode ser transformado num local de produção completo em apenas algumas horas. Um site de backup quente é a tática mais cara e mais eficiente de recuperação de desastres. Indicados principalmente para grandes corporações.

Os sites de backup podem ser:
  • Empresas especializadas em oferecer serviços de recuperação de desastres
  • Outros locais de propriedade de sua empresa e operados pela mesma
  • Um acordo com outra empresa para compartilhar as instalações do centro de dados

Existem diversas táticas e cada uma tem seus pontos fortes e fracos no que diz respeito a contratação de funcionários. Contratar uma empresa de recuperação de desastres frequentemente lhe dá acesso a profissionais qualificados para direcionar as empresas através do processo de criação, implementações e testes de um plano de recuperação de desastres. A contratação de seus próprios funcionários tendo o suporte de fornecedores para eventuais duvidas, é uma opção com um bom custo-benefício. Desenvolver um acordo para compartilhar centros de dados com outra empresa pode ser mais atrativo, mas geralmente não é possível tocar operações a longo prazo sob estes termos, já que o proprietário do centro de dados ainda deve manter sua produção normal. Manter um Site quente e manter sua prontidão é uma opção cara porem a mais funcional.

No final das contas, a escolha do site de backup é um balanço entre os custos e a necessidade de sua empresa na produção contínua.

Disponibilidade de Hardware e Software

Seu plano de recuperação de desastres deverá ser elaborado levando em conta a utilização do tipo de Site. Independente do tipo de Site ou da estrutura já disponível ou não, os Sites deverão estar a uma considerável distancia um do outro e deve haver no mínimo dois. Deve estar incluso no plano, a rápida disponibilidade necessária ao ambiente, seja ela física ou lógica.

Disponibilidade de Backups

Quando um desastre é declarado, é necessário que sejam seguidos os procedimentos elaborados no planejamento, que constituem diversos passo a passo que se não forem executados como descrito podem comprometer a alta disponibilidade do ambiente.

Exemplo de alguns procedimentos:
  • Levar os últimos backups ao site de backup, caso não seja um Site Hot
  • Organizar a retirada e entrega dos backups ao site de backup (como suporte aos backups normais do site de backup)
  • Alocar os funcionários necessários para a restauração do ambiente

Dica

No caso de um desastre, os últimos backups de seu antigo centro de dados que você tiver serão de extrema importância. Considere a possibilidade de efetuar cópias antes do transporte até o local de destino.

Conectividade ao Site de Backup

Um centro de dados não tem muita utilidade se estiver totalmente desconectado do que restou da empresa. Dependendo do plano de recuperação de desastres e da natureza do desastre, sua comunidade de usuários pode estar localizada há quilômetros de distância do site de backup. Nestes casos, uma boa conectividade é essencial para restaurar a produção. O Site alternativo deverá ser capaz de entrar em produção mesmo que o Site principal estava indisponível.

Outro tipo de conectividade para ter em mente é a telefônica. Você deve assegurar que há linhas telefônicas ou qualquer outro meio de comunicação, disponível suficiente para suportar toda a comunicação verbal com seus usuários. O que pode ter sido um simples grito por cima de uma divisória pode ser agora uma conversa a longas distâncias. Portanto, deve ser planejada mais conectividade com o exterior do que pareça necessário numa primeira instância.

Funcionários do Site de Backup

A questão dos funcionários do site de backup tem diversas dimensões. Um dos aspectos é determinar os funcionários necessários para rodar o centro de dados backup pelo tempo necessário. Apesar de um número pequeno de funcionários, poder manter as coisas funcionando por um curto período, conforme o desastre se desenrolar, serão necessárias mais pessoas para tocar as operações sob as circunstâncias extraordinárias que permeam um desastre. Isto inclui garantir que os funcionários tenham tempo livre suficiente para descansar e voltar para seus lares. Se as conseqüências do desastre foram abrangentes de modo a afetaram os lares e famílias das pessoas, é necessário alocar tempo para que elas possam lidar com suas recuperações particulares do desastre. Também é necessária acomodação próxima ao site de backup, assim como transporte para trazer as pessoas para o site de backup e levá-las de volta.

Freqüentemente, um plano de recuperação de desastres inclui representantes de todas as partes da comunidade de usuários da empresa. Isto depende da habilidade da sua empresa em operar com um centro de dados remoto. Se os representantes dos usuários devem trabalhar no site de backup, também será necessário prover-lhes acomodação.

Voltando à Normalidade

Eventualmente, todos os desastres terminam. O plano de recuperação de desastres também deve abordar esta fase. O novo centro de dados deve estar equipado com todo o hardware e software necessário. Apesar desta fase não ter a mesma natureza crítica de tempo dos preparativos quando o desastre foi declarado, os sites de backup custam dinheiro todos os dias em que estão em uso. Portanto, devido às questões econômicas, deve-se retornar à normalidade o mais rápido possível.

Devem-se fazer os últimos backups do site de backup e enviá-los ao novo centro de dados. Após os dados serem restaurados no ambiente principal, a produção poderá ser iniciada no novo centro de dados. Neste ponto, o centro de dados backup pode ser descomissionado, com a disposição de todo o hardware temporário determinada pela seção final do plano.

Simulação de um desastre

Na elaboração de um plano de contingência, deverá estar incluso o teste da eficácia do mesmo. Deve-se simular um desastre onde deverão ser executados os procedimentos elaborados e realmente utilizados os recursos tentando esgotar todas as possibilidades possíveis eventos.

Ao termino do simulado, deverá ser realizada uma avaliação dos resultados obtidos para que o Plano seja aprovado ou não pelo comitê responsável, como também integrar as alterações recomendadas pelo comitê revisor numa versão atualizada do plano.

Conclusão

Embora tais simulados tenham um custo considerável, deve-se levar em conta que pode haver falhas que seriam descobertas somente no momento critico podendo gerar problemas de enormes proporções para a empresa, ou até mesmo levar ao encerramento de suas atividades.
Mauro Roberto Pelliciotti

Mauro Roberto Pelliciotti - Formado em Ciência da Computação no ano de 2006 e certificado em MCP 70290.
Área de atuação: Storage em ambiente Open há 3 anos.
Participação ativa em Fóruns de TI.