Recursos Humanos

Checklist técnico de LGPD para produtos com IA: dados mínimos, retenção e rastreabilidade

Checklist técnico e decisões de arquitetura para adequação à LGPD em produtos que usam IA — foco em dados mínimos, retenção e rastreabilidade.

Por · · 8 min de leitura

Checklist técnico de LGPD para produtos com IA: dados mínimos, retenção e rastreabilidade

Desenvolver um produto com inteligência artificial no Brasil exige mais do que um botão de "Concordo" na política de privacidade. A Lei Geral de Proteção de Dados (LGPD) está em vigor desde 2020, mas a aplicação prática de seus princípios em sistemas que aprendem com dados textuais ricos apresenta desafios de arquitetura que vão além do compliance tradicional. A distância entre "ter uma política" e "ter um produto que respeita a privacidade por design" é onde a maioria dos produtos falha, não por má intenção, mas por falta de decisão técnica estruturada.

Produtos com IA coletam inputs que frequentemente contêm informações sensíveis de forma implícita — um currículo, um e-mail corporativo, um histórico médico — e esses dados trafegam por múltiplas camadas, incluindo provedores externos de modelos. Além disso, logs de operação, muitas vezes esquecidos, são verdadeiros repositórios de dados pessoais. Este artigo apresenta um checklist técnico autoral, baseado em decisões reais de arquitetura, para ajudar equipes a coletar menos, proteger mais e demonstrar conformidade de forma tangível.

O foco aqui é prático: como tomar decisões de design que minimizem o risco desde o início, como lidar com o ciclo de vida dos dados em um ecossistema com terceiros e como garantir que os direitos do titular sejam exercitáveis não apenas no papel, mas no código. Veremos que privacidade por design é uma decisão de engenharia, não apenas de jurídico, e que a rastreabilidade é o alicerce para uma conformidade demonstrável.

Contexto técnico ou de negócio

Em um SaaS convencional, o fluxo de dado pessoal é mapeável: usuário se cadastra, fornecendo e-mail e nome, e esses dados residem no banco de dados principal. O ciclo de vida é direto. Em um produto com IA, surgem camadas de complexidade que expandem a superfície de exposição. O input do usuário, que pode ser um texto longo, carrega dados pessoais implícitos que não são estruturados como campos de formulário, mas que transitam, são processados e potencialmente armazenados.

Um exemplo prático é a geração de documentos. Quando um usuário fornece um texto para criar um currículo, o input pode conter nome, localização, histórico profissional e até dados sensíveis de saúde. Esse dado trafega para o provedor do modelo de linguagem, e a política de tratamento dele passa a ser parte da sua cadeia de responsabilidade. A LGPD trata o provedor como um operador, e você precisa de contrato e transparência para respaldar essa transferência internacional ou para terceiros.

Adicionalmente, logs de depuração e melhoria de produto, que registram input e output das operações de IA, são frequentemente negligenciados. Eles são dados pessoais por natureza, mas são armazenados com a mentalidade de "só para debug". Sem política de retenção e pseudonimização, esses logs se tornam um repositório de dados pessoais desgovernado, com alto risco em caso de incidente.

O desafio específico de dados implícitos e terceiros

O problema central é que os dados pessoais em produtos de IA não estão apenas nos campos de cadastro; estão no conteúdo gerado e processado. Isso exige um mapeamento de dados mais sofisticado, que considere não apenas "o que coletamos", mas "o que é processado em nosso nome". A decisão de usar um modelo externo não transfere a responsabilidade; ela exige uma governança ativa sobre como os dados são tratados nessa camada.

Desenvolvimento

O checklist técnico de adequação começa com a coleta e minimização de dados, o pilar da LGPD. O princípio é claro: coletar apenas o estritamente necessário para a operação. Em um produto de geração de documentos, se a operação não exige o CPF do usuário, esse campo não deve ser coletado. Essa decisão parece óbvia, mas em muitos produtos campos opcionais são criados e acabam acumulando dados sem uso claro, aumentando o escopo de exposição em um incidente.

Para cada dado coletado, é essencial documentar a finalidade, a base legal e o tempo de retenção. Esse registro de atividades de tratamento é exigido pela LGPD para empresas de médio e grande porte, mas é uma boa prática para todos. No contexto de IA, isso inclui mapear dados de input, logs de operação e dados gerados, além de definir claramente a base legal para cada um — seja execução de contrato, legítimo interesse ou consentimento.

Uma decisão técnica crucial é a separação de dados de conta e dados de operação. Dados de conta (e-mail, nome, plano) e dados de operação (inputs de documentos gerados) têm finalidades, ciclos de vida e requisitos de acesso distintos. Armazená-los em bancos ou tabelas separadas, com controles de acesso diferenciados, simplifica a adequação, a portabilidade e a exclusão de dados.

Minimização e documentação de dados

A minimização vai além de não coletar campos desnecessários; envolve repensar o fluxo de produto. Se um documento gerado pode ser baixado e não há necessidade de armazená-lo para uso futuro, a decisão de não persisti-lo elimina um vetor de exposição inteiro. A documentação deve ser viva, atualizada sempre que o produto mudar, e acessível para demonstração à ANPD.

A coleta de dados sensíveis exige atenção redobrada. Em IA, um input aparentemente neutro pode conter informações sensíveis. A estratégia aqui é combinar minimização técnica (não pedir o dado se não for essencial) com pseudonimização em logs e armazenamento, reduzindo o impacto de um vazamento.

Tratamento de logs e armazenamento

Logs de operação de IA são um caso especial. Eles são necessários para depuração e melhoria, mas não precisam ser permanentes. Uma política de retenção clara, por exemplo, 30 dias para logs de input/output, com deleção automática, é essencial. Sempre que possível, logs devem ser pseudonimizados; substituir identificadores pessoais por hashes mantém a utilidade para análise sem expor dados diretamente.

  • Definir política de retenção de logs de input/output com período específico e deleção automática.
  • Anonimizar ou pseudonimizar logs sempre que possível para fins de análise de padrões.
  • Separar logs de aplicação (erros, latência) de logs de operação de IA, com controles de acesso distintos.
  • Garantir que backups de banco incluam a política de retenção, evitando que dados excluídos persistam anos em backups.

Além disso, é fundamental garantir que backups respeitem a política de retenção. Dados excluídos do banco principal que persistem em backups por anos criam um passivo de adequação real. A arquitetura deve prever rotação e exclusão de backups alinhada ao ciclo de vida dos dados.

Outro ponto é o controle de acesso. Logs devem ser acessíveis apenas a quem tem necessidade operacional, e o acesso deve ser logado. Isso não apenas apoia a conformidade, mas também fortalece a segurança, reduzindo o risco de vazamento interno.

Decisões técnicas ou editoriais tomadas

A primeira decisão editorial é tratar a LGPD não como um checklist jurídico, mas como um requisito de arquitetura. Isso significa que a adequação começa no design do banco de dados, na definição de APIs e na escolha de provedores. Por exemplo, ao integrar um modelo de linguagem, a decisão de habilitar o opt-out de treinamento nos parâmetros da API é uma ação técnica que diretamente apoia a conformidade.

Outra decisão é priorizar bases legais mais robustas que o consentimento, quando aplicável. Para muitos produtos B2C, a execução de contrato ou o legítimo interesse são bases mais adequadas e sustentáveis, pois não dependem de um opt-in revogável a qualquer momento. Isso simplifica a operação e reduz o risco de perda de dados por revogação.

Por fim, a decisão de separar dados de conta de dados de operação é uma escolha de arquitetura com impacto direto na adequação. Ela permite implementar ciclos de vida diferentes, controles de acesso distintos e facilita a resposta a solicitações de titulares, como portabilidade e exclusão. [INSERIR DIAGRAMA DE ARQUITETURA]

Erros, limitações ou riscos encontrados

Um erro comum é acreditar que "a API não armazena dados" dispensa o tratamento. Mesmo que o provedor não use os dados para treinamento, o dado trafegou para sistemas de terceiros, o que precisa ser transparente no aviso de privacidade e amparado por contrato. A limitação aqui é que a governança depende das políticas do provedor, que podem mudar, exigindo monitoramento contínuo.

Outro risco é confundir a existência de uma política de privacidade com a conformidade real. A ANPD pode solicitar demonstração de processos implementados, não apenas do documento. Isso implica que a adequação é verificável no código e nos logs, não apenas no texto publicado.

Um risco operacional crítico é permitir que dados de usuários desativados persistam indefinidamente. Usuários que cancelam a conta têm direito à exclusão, e manter esses dados sem base legal é violação. Isso é agravado em backups não rotacionados, que podem reter dados por anos sem que a equipe perceba.

Aprendizados práticos

Privacidade por design é mais barata que adequação retroativa. Corrigir a arquitetura de dados depois que o produto está em produção, com usuários reais, é muito mais caro do que pensar nesses requisitos durante o design. A inclusão de revisões de privacidade no ciclo de desenvolvimento, similar a revisões de segurança, é uma prática que reduz custos a longo prazo.

Coletar menos dado é também uma decisão de engenharia, não apenas legal. Menos dado significa menos superfície de ataque, menor custo de armazenamento e menor complexidade de gerenciamento. Isso se traduz em products mais eficientes e com menor risco de incidente.

O registro de atividades de tratamento precisa ser mantido atualizado. Um documento criado no lançamento e nunca atualizado não reflete o produto real. Isso exige um processo contínuo, integrado ao ciclo de vida do produto, para garantir que o mapeamento de dados esteja sempre alinhado com a operação.

Conformidade com LGPD é um processo contínuo, não um projeto com data de conclusão. Produtos de IA evoluem rapidamente, e as decisões técnicas devem ser reavaliadas periodicamente para garantir que a adequação se mantenha.

Conclusão

Produtos com IA têm uma superfície de exposição de dados maior que produtos convencionais, devido ao conteúdo rico dos inputs e ao envolvimento de terceiros no processamento. Isso não inviabiliza o produto, mas exige atenção estruturada desde o design. O checklist técnico apresentado — de minimização a tratamento de logs — oferece um ponto de partida para sair do "temos uma política" para o "nosso produto trata dados com responsabilidade demonstrável."

O próximo passo é revisar o mapeamento de dados do produto com esse checklist em mãos, identificando lacunas prioritárias. Especialmente, é crucial auditorar onde estão os logs de operação de IA, quem tem acesso a eles e por quanto tempo são retidos. Com decisões técnicas sólidas, a adequação à LGPD vira um diferencial de engenharia, não apenas um requisito legal.

Autoria

Sobre o autor

Alexandre Satochi Yamamoto — Conteúdo revisado por equipe editorial do GeraDocumentos, com foco em IA, produtividade e criação de documentos profissionais.