Gerência - Metodologias e Processos

MOF: Gerenciamento de Problemas - SMF (Problem Management)

Neste artigo iremos abordar as atividades sugeridas pela SMF Problem Management do MOF entendendo os passos necessários para minimizar o impacto causado por incidentes e problemas no ambiente de uma organização.

por Cleber Farias Marques



Objetivo

Neste artigo iremos abordar as atividades sugeridas pela SMF Problem Management do MOF entendendo os passos necessários para minimizar o impacto causado por incidentes e problemas no ambiente de uma organização, boa leitura para todos.

Introdução

Obs.: Achei melhor deixar alguns termos em inglês mesmo porque na maioria das vezes iremos trabalhar com eles desta forma no mercado.

A SMF Problem Management - Gerenciamento de Problemas, é responsável por minimizar o impacto causado no ambiente da organização por incidentes e problemas decorrentes de erros na infra-estrutura, prevenindo o retorno destes incidentes relacionados com tais erros. Para que isso seja possível o Gerenciamento de Problemas busca identificar a causa raiz destes incidentes e começar ações que melhorem ou corrijam a situação. Ao identificar e tomar posse dos problemas que afetam a infra-estrutura e os serviços nós deveremos executar ações para reduzir o impacto sofrido e identificar o que poderá ter causado tais anomalias para assim estabelecer uma solução permanente aos problemas identificados.

Ao analisar a tendência de ocorrências nós registraremos informações sobre os incidentes com o pensamento de que poderemos prevenir a organização de problemas futuros priorizando as atividades da equipe. O ponto chave aqui é a identificação pró-ativa de potenciais problemas evitando incidentes antes que eles aconteçam. Deveremos criar Workaround (meios possíveis identificados de se resolver um incidente em particular que permite o serviço voltar ao normal, porém não solucionando o problema de fato) e ter em mente que o objetivo do Incident Management é restaurar um serviço o mais rápido possível e o objetivo do Problem Management é identificar a causa raiz dos incidentes com foco na sua solução permanente durante o ciclo de vida de Problemas/Erros.

Definições Importantes

Para entendermos melhor este artigo e a documentação oficial para esta SMF vamos conhecer algumas definições importantes que também são recomendadas pela Microsoft na própria documentação do MOF, lembrando também que mesmo algumas definições sendo as mesmas encontradas no mercado muitas delas são feitas com base nesta SMF.

Incident: Um evento que foge do padrão no ambiente de operações de serviço, que pode causar uma interrupção ou redução na qualidade do serviço prestado.

Known Error: Um incidente ou problema que já tem a causa raiz conhecida e possui um Workaround temporário ou uma alternativa de correção permanente identificada. Deverá permanecer como um Erro Conhecido até que alguma mudança no ambiente acabe com sua probabilidade de acontecer.

Major Incident: Um incidente que oferece um alto grau de impacto para o ambiente necessitando uma resposta mais rápida que o normal. Geralmente este tipo de incidente precisa de uma coordenação conjunta, escalonamento da gerência, mobilização de recursos adicionais e aumenta da comunicação.

Major Problem: Um problema que oferece um alto grau de impacto para o ambiente necessitando uma resposta mais rápida que o normal, uma resposta imediata. Geralmente este tipo de problema precisará de um acompanhamento conjunto, escalonamento da gerência, mobilização de recursos adicionais e um aumento na comunicação, pois pode levar muito tempo para ser resolvido, logo o ideal é tratar esta situação sempre com pró-atividade buscando diminuir a probabilidade de que isso aconteça e gere algum impacto muito grande.

Priority: É o resultado de uma análise feita entre o impacto e a urgência de um incidente ou problema.

Problem: A causa desconhecida de um ou mais incidentes. Um problema é identificado como uma causa raiz não solucionada.

Resolution: É a ação que deve ser tomada para solucionar a causa de um incidente ou problema.

Root Cause Analysis: Atividade de análise feita com o intuito de se descobrir a causa raiz de um determinado problema.

Service Desk: Um ponto único de contato para os clientes e usuários que precisam de um apoio técnico, o Service Desk coordena a maioria dos processos relacionados ao Incident Management e se relaciona com muitas outras SMFs.

Solution/Permanent Fix: São os meios possíveis identificados de se resolver um incidente ou problema que fornecem uma resolução permanente.

Trend Analysis: É o estudo feito através de um histórico de incidentes, problemas e base de erros conhecidos com o objetivo de prevenir ou reduzir a probabilidade de que um incidente acontecer.

Urgency: É o tempo definido dentro qual o incidente ou problema deve ser resolvido.

Workaround: São os meios possíveis identificados de se resolver um incidente em particular que permite o serviço voltar ao normal, porém não soluciona o problema de fato, não acabando com sua causa raiz.

Atividades do Processo

As atividades da SMF Problem Management podem ser representadas por um fluxo de processos que aborda as tarefas fundamentais necessárias para gerenciarmos problemas com excelência, a seguir iremos conhecer as fases deste processo.

Problem Recording and Classification

Nesta primeira etapa deveremos registrar e classificar os problemas, que na maioria das vezes são identificados pelos processos da incident management ou através das análises de dados feitas pela equipe do problem management. Outras SMFs como Availability Management e Capacity Management podem também durante suas tarefas identificarem problemas e estes deverão ser reportados para a equipe de Problem Management. É importante que os problemas e os incidentes sejam registrados para facilitar o processo de dar prioridade e resolver os problemas, onde a classificação é definida pelo grau do impacto causado pelo problema no ambiente da organização e a urgência da solução exigida.


Logo abaixo podemos ver o diagrama que representa o fluxo citado acima, os processos neste caso seguem um ciclo iterativo, veja:

Figura 1 – Fluxo de processos da SMF Problem Management.

Com as novas tecnologias desenvolvidas pela Microsoft temos muito mais alternativas do que antes para nos apoiar na resolução dos passos descritos acima, um bom exemplo é o System Center, uma família de soluções de gerenciamento de TI que nos ajuda planejar, implantar, gerenciar e otimizar de forma pró-ativa nosso ambiente, temos também o SMS, MOM, ISA, Windows Server 2003 o 2008 entre outros, mas este é assunto para um próximo artigo.

Conclusão

Fechamos então mais um quadrante e ao concluirmos este artigo nós também completamos o triângulo de SMF necessárias para oferecermos um excelente suporte para nossa organização, desde o Service Desk, passando pelo Gerenciamento de Incidentes e terminando nas tarefas do Gerenciamento de Problemas. Para o próximo artigo iniciaremos mais um quadrante, o de Otimização, começaremos falando sobre como gerenciar os níveis de serviços, até lá aguardo um contato de vocês, muito obrigado.

Cleber Farias Marques

Cleber Farias Marques - Atua na área de TI desde 1997, é graduado em Análise e Desenvolvimento de Sistemas e Pós-graduando em Gestão de TI Aplicada aos Negócios. Possui certificações em ambiente de Infra-Estrutura Microsoft como MCP, MCDST, MCSA, MSFE e também ITIL Foundation, sendo o primeiro certificado MOF Foundation do Brasil. Idealista do projeto MOF Brasil (www.clebermarques.com) que tem como objetivo compartilhar as melhores práticas de ITSM.