CASE
SRE

Monitoramento SRE para maior eficiência operacional:

como nosso cliente aumentou a produtividade da squad em 75%

À medida que o mundo se transforma digitalmente, a confiabilidade de sites, aplicativos em nuvem e infraestrutura cloud tornou-se um ponto crítico para o sucesso dos negócios. Além disso, a maneira como gerenciamos sistemas e suas cargas de trabalho também mudou. Servidores básicos são reunidos por meio da virtualização, com arquitetura de software distribuída, impedindo que interrupções causem tempo de inatividade e prejuízos. O foco agora é a infraestrutura digital e eficiência.

Em busca de melhorias estratégias em suas operações, um de nossos clientes, considerado a maior instituição financeira da América Latina e uma das maiores do mundo, procurou o time de especialistas da Inmetrics. O banco possuía um ecossistema digital com várias tecnologias integradas e, por isso, apresentamos a metodologia SRE como a solução ideal para que a squad da Instituição responsável pelo projeto do PIX pudesse focar em áreas estratégicas, alcançando o time to market estipulado, sem comprometer a qualidade da entrega. Assim, o time de especialistas da Inmetrics foi alocado em nosso cliente para estruturar e implementar o modelo ideal de monitoramento SRE nas operações da squad em questão.

Implementando SRE

Site Reliability Engineering (SRE) é uma abordagem para operações que garante que aplicações contínuas sejam executadas de forma eficiente e confiável, através de soluções de automação e engenharia de software. O conceito-chave é a engenharia, que inclui uma abordagem orientada a dados para operações, uma cultura de automação para aumentar a eficiência e reduzir riscos e uma metodologia orientada por hipóteses em tarefas de incidente, desempenho e capacidade.

Desafios e oportunidades

A metodologia SRE é adaptável e pode ser incluída em qualquer squad de uma empresa, de acordo com a demanda, a maturidade ou a necessidade dessas equipes. Por isso, a fase inicial do nosso projeto de monitoramento nesta Instituição financeira se desenvolveu da seguinte forma:

Identificamos as oportunidades de melhorias e entendemos qual era o cenário específico daquele ambiente de tecnologia ao lado da squad responsável pelo projeto do PIX.
A partir disso, fizemos o levantamento de suas principais necessidades.
Estruturamos um plano de ação a partir de reuniões de brainstorm, em que constatamos as possibilidades de evolução, e definimos as estratégias para aquele ambiente de produção.
Iniciamos a fase de implementação das disciplinas de engenharia de confiabilidade de sites (SRE) de acordo com a maturidade e o foco da squad em questão.

Desafios e Oportunidades

A partir daí, definimos nossa metodologia de implementação e os principais objetivos que trilharíamos junto com o time do nosso cliente. Da base ao topo da pirâmide, temos os direcionamentos dos especialistas da Inmetrics:

USER EXPERIENCE E CONFIABILIDADE

Comprovação final da experiência do usuário em relação aos produtos e serviços do nosso cliente via monitoração inteligente

PLANEJAMENTO DE CAPACIDADE

Correlação de dados, geração e validação dos modelos matemáticos, projeção de consumo, análise de limitantes e relatório de melhorias com SLA garantida

INJEÇÃO DE FALHAS

Inserção de falhas coordenadas, monitoria de resultado e criação de gates de resiliência sistêmica na solução da aplicação

ENGENHARIA DE LANÇAMENTO

Concentrar e estruturar logs de eventos e relatórios. Definir, melhorar e integrar dashboards de infra, negócios e APM

EVOLUÇÃO DO MONITORAMENTO

Concentrar e estruturar logs de eventos e relatórios. Definir, melhorar e integrar dashboards de infra, negócios e APM

INSTRUMENTAR E AUTOMATIZAR

Definição de SLIs & SLOs, instrumentação de serviços críticos, criação de alertas e automação no processo de resposta a falhas

IDENTIFICAR E MAPEAR

Brainstorm inicial com equipes envolvidas, refinamentos de processos e mapeamento total do sistema

Impactos do nosso trabalho

Nossos especialistas trouxeram às operações da squad responsável pelo projeto PIX os princípios de SRE para lidar com problemas de infraestrutura e automatização de processos. Fomos responsáveis por desenvolver planos de desempenho, estratégia e otimização para essas operações.

Logo nas etapas iniciais de implementação da metodologia SRE, os seguintes ganhos puderam ser observados:

Mapeamento
Visibilidade de todos os microsserviços que devem ser instrumentados no ambiente de monitoração
Colaboração
Equipe disposta e pronta para novas ideias e processos, facilitando colaboração e parcerias
Quebra de Silos
Melhoria na comunicação e no compartilhamento de informações entre os recursos operacionais e de desenvolvimento
Diminuição de TOIL
Melhoria após refinamento de processos operacionais repetitivos
Automação
Resposta a incidentes através de alarmes de anomalia e criação de tickets com múltiplas severidades
Novo pensamento
Mudança na forma de trabalho das equipes, Ownership dos serviços de TI e maior garantia de qualidade para o usuário final.
Previous
Next

Além disso, com a implementação do monitoramento SRE nas operações da squad, conferimos maior observabilidade aos sistemas e diminuímos consideravelmente o tempo gasto com a execução de tarefas diárias, como troubleshootings pontuais e war rooms, pois trouxemos insights e informações precisas, que efetivamente agregaram valor aos processos do nosso cliente.

RESOLUÇÃO DE TICKETS COMPLETOS
Tempo de esforço reduzido durante o processo de troubleshooting na tratativa de tickets

WAR ROOMS
Tempo médio gasto em war rooms reduzido de forma exponencial

Somos especialistas em qualidade de software, reconhecidos como uma empresa líder em Continuous Testing no ISG Provider Lens ™️ Next-Gen ADM Services Brazil 2022 e destaque em mais dois quadrantes do estudo, como Product Challenger em Application Quality Assurance e Contender em Agile Application Development Projects.