Parceria entre Bark.com e AWS para revolucionar a criação de vídeos
\n
A Bark.com, plataforma que conecta milhares de pessoas a serviços profissionais em diversas categorias, enfrentava um desafio comum no marketing digital: a necessidade de criar grandes volumes de conteúdo personalizado para campanhas de mídia social, mantendo alta qualidade e reduzindo o tempo de produção. Tradicionalmente, esse processo manual podia levar semanas para cada campanha, tornando inviável a experimentação rápida em múltiplos segmentos de clientes.
\n
Para superar essa barreira, Bark.com uniu forças com o AWS Generative AI Innovation Center, criando uma solução baseada em inteligência artificial que automatiza e acelera a geração de vídeos personalizados. O resultado foi uma redução drástica no tempo de produção, de semanas para horas, com melhoria nos índices de qualidade do conteúdo.
\n\n
Arquitetura técnica da solução
\n
A solução desenvolvida integra diversos serviços da AWS para formar uma arquitetura robusta e escalável:
\n
- \n
- Camada de dados e armazenamento: Amazon Simple Storage Service (Amazon S3) para guardar dados de treinamento, segmentos de vídeo, imagens de referência e resultados finais. Amazon Elastic Container Registry (Amazon ECR) armazena artefatos dos modelos e containers personalizados.
- Camada de processamento: AWS Lambda com AWS Step Functions para orquestrar o pipeline de geração de vídeo em sete etapas. Amazon Bedrock com o modelo Claude Sonnet 3.7 da Anthropic é responsável pela geração de texto, incluindo segmentação de clientes, criação de roteiros e avaliação de qualidade.
- Camada de computação GPU: Instância SageMaker ml.p4d.24xlarge com múltiplas GPUs para executar o modelo Wan 2.1 Text2Video-14B via paralelismo tensorial, garantindo desempenho e eficiência. Amazon Elastic Container Service (Amazon ECS) em instâncias g5.2xlarge cuida da síntese de voz para narração, escalando automaticamente conforme a demanda.
- Interface do usuário: Frontend React com autenticação via Amazon Cognito, oferecendo um estúdio de vídeo onde a equipe de marketing pode revisar, editar e aprovar conteúdos gerados por comandos em linguagem natural.
\n
\n
\n
\n
\n\n
Pipeline criativo para ideação e produção
\n
O processo de criação de vídeos personalizados ocorre em três etapas principais:
\n
- \n
- Geração de segmentos de clientes: O modelo de linguagem analisa dados de questionários para identificar personas específicas com atributos detalhados, como demografia, motivações e pontos de dor. Exemplos incluem o “Cuidador Familiar Sobrecarregado” e o “Idoso Focado em Independência”.
- Criação de briefs criativos: Para cada segmento, são gerados entre 4 e 6 conceitos criativos, variando entre abordagens literais e metafóricas, incentivando diversidade e inovação nos roteiros.
- Refinamento do storyboard: Os briefs são convertidos em storyboards detalhados com especificações audiovisuais completas, incluindo descrições de cena, direção de câmera, texto de narração e temporização. A revisão humana garante alinhamento com a identidade da marca antes da produção.
\n
\n
\n
\n\n
Garantindo consistência visual e narrativa
\n
Um desafio crucial na geração automática de vídeos é manter a consistência semântica e visual entre as múltiplas cenas de um anúncio. Para isso, a solução adota um framework em duas camadas:
\n
- \n
- Consistência semântica: Um modelo de linguagem extrai elementos recorrentes (atores, objetos, cenários) e gera especificações detalhadas para cada um, que são incorporadas nos prompts de geração de vídeo para manter a coerência narrativa.
- Consistência visual: Utiliza-se o Amazon Nova Premier para identificar os melhores quadros de cada cena, seguido pela segmentação dos elementos-chave com o Segment Anything Model. As imagens extraídas são usadas como referências em chamadas subsequentes ao modelo de vídeo, evitando derivações visuais indesejadas.
\n
\n
\n\n
Pipeline de geração e avaliação de vídeos
\n
A geração do vídeo envolve múltiplas modalidades (texto, imagem, vídeo, áudio e gráficos) coordenadas por um fluxo de trabalho em AWS Step Functions:
\n
- \n
- Síntese de vídeo: Cenas que exigem continuidade visual utilizam o modelo Wan 2.1 VACE-14B com imagens de referência, enquanto cenas novas são geradas com Wan 2.1 Text2Video-14B.
- Síntese de fala: O modelo de fala conversacional da Sesame AI Lab é executado em contêineres ECS com GPUs, permitindo clonagem de voz a partir de amostras curtas do narrador da marca.
- Elementos gráficos: Sobreposições de texto e chamadas para ação seguem templates padronizados para manter a identidade visual da marca.
\n
\n
\n
\n
Além disso, um loop de avaliação automatizado usa um modelo de linguagem para julgar cada cena em termos de aderência ao roteiro, qualidade visual e conformidade com a marca. Cenas que não atingem os critérios são automaticamente regeneradas, garantindo alto padrão final.
\n\n
Resultados concretos e aprendizado prático
\n
Comparado ao acervo de campanhas anteriores da Bark.com, os vídeos gerados por IA apresentaram:
\n
- \n
- Melhor coerência narrativa (nota média 6,9 contra 6,4 em escala de 10)
- Maior originalidade e engajamento (6,5 contra 5,2)
- Consistência visual aprimorada (6,9 contra 6,6)
\n
\n
\n
\n
O pipeline produz anúncios de 15 a 30 segundos em cerca de 12 a 15 minutos, incluindo orquestração, verificações de qualidade e regeneração, um ganho significativo frente às semanas do processo manual.
\n
Estudos ablatórios confirmaram a importância da propagação de imagens de referência e da extração de elementos narrativos para manter engajamento e qualidade visual.
\n\n
Recomendações para quem deseja replicar a solução
\n
- \n
- Inclua avaliação humana: Revisões em pontos-chave garantem alinhamento com a identidade da marca.
- Priorize qualidade das imagens de referência: Referências visuais ruins comprometem toda a sequência.
- Use modelos de linguagem para avaliação rápida: Automatiza testes e acelera iterações.
- Planeje para consistência composta: Considere múltiplos elementos visuais coexistindo em uma cena.
- Gerencie recursos AWS cuidadosamente: Apague endpoints, buckets e serviços ao final para evitar custos desnecessários.
\n
\n
\n
\n
\n
\n\n
Links úteis para aprofundamento
\n
