Início Tecnologia Como a Dedue AI economizou 1.000 horas de engenharia para o DoorDash...

Como a Dedue AI economizou 1.000 horas de engenharia para o DoorDash ao automatizar a depuração de software program

15
0

À medida que os sistemas de software program se tornam mais complexos e as ferramentas de IA geram código mais rápido do que nunca, um problema basic está piorando: Engenheiros estão se afogando em trabalho de depuraçãogastando até metade do tempo procurando as causas das falhas de software program em vez de criar novos produtos. O desafio tornou-se tão grave que está a criar uma nova categoria de ferramentas: agentes de IA que podem diagnosticar falhas de produção em minutos, em vez de horas.

IA dedutivauma startup que emergiu do modo furtivo na terça-feira, acredita ter encontrado uma solução ao aplicar o aprendizado por reforço – a mesma tecnologia que alimenta os sistemas de IA de jogos – ao mundo confuso e de alto risco dos incidentes de software program de produção. A empresa anunciou que levantou US$ 7,5 milhões em financiamento inicial liderado por CRVcom participação de Empreendimentos de tijolos de dados, Thomvest Venturese PrimeSetpara comercializar o que chama "Agentes AI SRE" que pode diagnosticar e ajudar a corrigir falhas de software program na velocidade da máquina.

A proposta ressoa com uma crescente frustração dentro das organizações de engenharia: ferramentas modernas de observabilidade podem mostrar que algo quebrou, mas raramente explicam o porquê. Quando um sistema de produção falha às 3 da manhã, os engenheiros ainda enfrentam horas de trabalho handbook de detecção, referência cruzada de logs, métricas, históricos de implantação e alterações de código em dezenas de serviços interconectados para identificar a causa raiz.

"As complexidades e interdependências da infraestrutura moderna significam que investigar a causa raiz de uma interrupção ou incidente pode parecer como procurar uma agulha em um palheiro, exceto que o palheiro é do tamanho de um campo de futebol, é feito de um milhão de outras agulhas, está constantemente se reorganizando e está pegando fogo – e cada segundo que você não encontra é igual a perda de receita," disse Sameer Agarwal, cofundador e diretor de tecnologia da Dedue, em entrevista exclusiva à VentureBeat.

O sistema da Dedutiva constrói o que a empresa chama de "gráfico de conhecimento" que mapeia relacionamentos entre bases de código, dados de telemetria, discussões de engenharia e documentação interna. Quando ocorre um incidente, vários agentes de IA trabalham juntos para formar hipóteses, testá-las em relação às evidências do sistema em tempo actual e convergir para uma causa raiz – imitando o fluxo de trabalho investigativo de engenheiros experientes de confiabilidade do native, mas concluindo o processo em minutos, em vez de horas.

A tecnologia já demonstrou impacto mensurável em alguns dos ambientes de produção mais exigentes do mundo. Plataforma de publicidade do DoorDashque realiza leilões em tempo actual que devem ser concluídos em menos de 100 milissegundos, integrou o Deductor em seu fluxo de trabalho de resposta a incidentes. A empresa estabeleceu uma meta ambiciosa para 2026 de resolver incidentes de produção em 10 minutos.

"Nossa plataforma de anúncios opera em um ritmo em que investigações manuais e lentas não são mais viáveis. Cada minuto de inatividade afeta diretamente a receita da empresa," disse Shahrooz Ansari, Diretor Sênior de Engenharia da DoorDash, em entrevista ao VentureBeat. "A Dedutiva se tornou uma extensão crítica de nossa equipe, sintetizando rapidamente sinais em dezenas de serviços e trazendo à tona os insights que importam – em minutos."

Porta Dash estima que a Deductive causou aproximadamente 100 incidentes de produção nos últimos meses, traduzindo-se em mais de 1.000 horas de produtividade anual de engenharia e um impacto na receita "em milhões de dólares," de acordo com Ansari. Na empresa de inteligência de localização Quadrangularo Dedue reduziu em 90% o tempo para diagnosticar falhas de trabalho do Apache Spark, transformando um processo que antes levava horas ou dias em um que period concluído em menos de 10 minutos, gerando mais de US$ 275.000 em economia anual.

Por que o código gerado por IA está criando uma crise de depuração

O momento do lançamento do Dedue reflete uma tensão crescente no desenvolvimento de software program: os assistentes de codificação de IA estão permitindo que os engenheiros gerem código mais rápido do que nunca, mas o software program resultante é muitas vezes mais difícil de entender e manter.

"Codificação de vibração," um termo popularizado pelo pesquisador de IA Andrej Karpatiarefere-se ao uso de prompts em linguagem pure para gerar código por meio de assistentes de IA. Embora essas ferramentas acelerem o desenvolvimento, elas podem introduzir o que Agarwal descreve como "redundâncias, quebras nos limites arquitetônicos, suposições ou padrões de projeto ignorados" que se acumulam ao longo do tempo.

"A maior parte do código gerado por IA ainda introduz redundâncias, quebra limites arquitetônicos, faz suposições ou ignora padrões de design estabelecidos." Agarwal disse ao Venturebeat. "De muitas maneiras, agora precisamos da IA ​​para ajudar a limpar a bagunça que a própria IA está criando."

A afirmação de que os engenheiros gastam cerca de metade do seu tempo em depuração não é um exagero. A Affiliation for Computing Equipment relata que os desenvolvedores gastam 35% a 50% do seu tempo validando e depurando software. Mais recentemente, Estado da entrega de software da Harness em 2025 relatório descobriu que 67% dos desenvolvedores estão gastando mais tempo depurando código gerado por IA.

"Vimos engenheiros de classe mundial gastando metade do tempo depurando em vez de construir," disse Rakesh Kothari, cofundador e CEO da Dedue. "E à medida que a codificação vibe gera novo código em uma taxa nunca vista, esse problema só vai piorar."

Como os agentes de IA da Dedue realmente investigam falhas de produção

A abordagem técnica da Dedutiva difere substancialmente dos recursos de IA adicionados às plataformas de observabilidade existentes, como Cão de dados ou Nova Relíquia. A maioria desses sistemas utiliza grandes modelos de linguagem para resumir dados ou identificar correlações, mas falta-lhes o que Agarwal chama "raciocínio com reconhecimento de código"— a capacidade de entender não apenas que algo quebrou, mas por que o código se comporta daquela maneira.

"A maioria das empresas usa múltiplas ferramentas de observabilidade em diferentes equipes e serviços, portanto, nenhum fornecedor tem uma visão holística única de como seus sistemas se comportam, falham e se recuperam – nem são capazes de combinar isso com uma compreensão do código que outline o comportamento do sistema." Agarwal explicou. "Esses são ingredientes essenciais para resolver incidentes de software program e é exatamente a lacuna que o Dedutivo preenche."

O sistema se conecta à infraestrutura existente usando acesso API somente leitura a plataformas de observabilidade, repositórios de código, ferramentas de gerenciamento de incidentes e sistemas de chat. Em seguida, ele cria e atualiza continuamente seu gráfico de conhecimento, mapeando dependências entre serviços e rastreando históricos de implantação.

Quando um alerta é disparado, a Dedue inicia o que a empresa descreve como uma investigação multiagente. Diferentes agentes se especializam em diferentes aspectos do problema: um pode analisar alterações recentes no código, outro examina dados de rastreamento, enquanto um terceiro correlaciona o momento do incidente com implantações recentes. Os agentes compartilham descobertas e refinam iterativamente suas hipóteses.

A diferença crítica da automação baseada em regras é o uso do aprendizado por reforço pelo Dedutivo. O sistema aprende com cada incidente quais etapas investigativas levaram a diagnósticos corretos e quais foram becos sem saída. Quando os engenheiros fornecem suggestions, o sistema incorpora esse sinal em seu modelo de aprendizagem.

"Cada vez que observa uma investigação, aprende quais etapas, fontes de dados e decisões levaram ao resultado certo," Agarwal disse. "Aprende a pensar nos problemas e não apenas apontá-los."

No DoorDash, um recente aumento de latência em uma API inicialmente parecia ser um problema de serviço isolado. A investigação da Dedue revelou que a causa raiz eram, na verdade, erros de tempo limite de uma plataforma de aprendizado de máquina downstream em implantação. O sistema conectou esses pontos analisando volumes de log, rastreamentos e metadados de implantação em vários serviços.

"Sem o Dedutivo, nossa equipe teria que correlacionar manualmente o pico de latência em todos os logs, rastreamentos e históricos de implantação," Ansari disse. "A Dedutiva foi capaz de explicar não apenas o que mudou, mas como e por que isso impactou o comportamento da produção."

A empresa mantém os humanos informados – por enquanto

Embora a tecnologia da Dedue pudesse, teoricamente, enviar correções diretamente para os sistemas de produção, a empresa optou deliberadamente por manter os humanos informados – pelo menos por enquanto.

"Embora nosso sistema seja capaz de uma automação mais profunda e possa enviar correções para a produção, atualmente recomendamos correções e mitigações precisas que os engenheiros podem revisar, validar e aplicar," Agarwal disse. "Acreditamos que manter um ser humano informado é essencial para a confiança, transparência e segurança operacional."

No entanto, ele reconheceu que "com o tempo, acreditamos que surgirá uma automação mais profunda e que a forma como os humanos operam no circuito evoluirá."

Veteranos do Databricks e ThoughtSpot apostam no raciocínio em vez da observabilidade

A equipe fundadora traz profundo conhecimento na construção de algumas das plataformas de infraestrutura de dados de maior sucesso do Vale do Silício. Agarwal obteve seu Ph.D. na UC Berkeley, onde criou BlinkDBum sistema influente para processamento aproximado de consultas. Ele foi um dos primeiros engenheiros da Blocos de dadosonde ajudou a construir Apache Faísca. Kothari foi um dos primeiros engenheiros da Ponto de pensamentoonde liderou equipes focadas no processamento distribuído de consultas e na otimização de sistemas em larga escala.

O sindicato de investidores reflete tanto a credibilidade técnica quanto a oportunidade de mercado. Além dos CRVs Max Gazora rodada contou com a participação de Íon Estóicafundador do Databricks e Anyscale; Ajeet Singhfundador da Nutanix e ThoughtSpot; e Ben Sigelmanfundador da Lightstep.

Em vez de competir com plataformas como Cão de dados ou PagerDutyO Dedutivo se posiciona como uma camada complementar que se sobrepõe às ferramentas existentes. O modelo de preços reflete isso: em vez de cobrar com base no quantity de dados, o Dedutivo cobra com base no número de incidentes investigados, mais uma taxa básica de plataforma.

A empresa oferece opções de implantação hospedadas na nuvem e auto-hospedadas e enfatiza que não armazena dados de clientes em seus servidores nem os utiliza para treinar modelos para outros clientes – uma garantia crítica dada a natureza proprietária do código e do comportamento do sistema de produção.

Com capital novo e atração antecipada de clientes em empresas como Porta Dash, Quadrangulare IA KumoA Dedue planeja expandir sua equipe e aprofundar as capacidades de raciocínio do sistema, desde a análise reativa de incidentes até a prevenção proativa. A visão de curto prazo: ajudar as equipes a prever problemas antes que eles ocorram.

Ansari do DoorDash oferece um endosso pragmático de onde a tecnologia está hoje: "As investigações que antes eram manuais e demoradas agora são automatizadas, permitindo que os engenheiros direcionem sua energia para a prevenção, o impacto nos negócios e a inovação."

Numa indústria onde cada segundo de inatividade se traduz em perda de receitas, essa mudança do combate a incêndios para a construção parece cada vez menos um luxo e mais uma aposta de mesa.

avots