Pular para o conteúdo

FAQ

Respostas para perguntas comuns sobre o Douto, organizadas por publico.


Execute o pipeline completo de forma sequencial. Coloque o PDF no diretorio de entrada de staging e execute cada etapa:

Terminal window
# 1. Coloque o PDF no diretorio de entrada
cp livro.pdf $VAULT_PATH/Knowledge/_staging/input/
# 2. Extraia o PDF para markdown
python3 pipeline/process_books.py livro.pdf
# 3. Faça o chunking do markdown
python3 pipeline/rechunk_v3.py slug-do-livro
# 4. Enriqueça os chunks com metadados
python3 pipeline/enrich_chunks.py slug-do-livro
# 5. Gere os embeddings
python3 pipeline/embed_doutrina.py
# 6. Verifique com uma busca
python3 pipeline/search_doutrina_v2.py "consulta sobre o livro" --area contratos

A causa mais comum sao paths hardcoded. Dois dos cinco scripts (process_books.py e rechunk_v3.py) tem caminhos absolutos da maquina do criador embutidos no codigo-fonte:

  • process_books.py linha 27: /home/sensd/.openclaw/workspace/vault
  • rechunk_v3.py linha 29: /mnt/c/Users/sensd/vault

Solucao temporaria: Edite a linha VAULT_PATH em cada script para apontar para seu path local da vault.

Correcao permanente: F22 (v0.2) vai padronizar todos os scripts para usar os.environ.get("VAULT_PATH").

Veja Variaveis de Ambiente para a referencia completa de variaveis.

O Douto armazena embeddings e indices de busca como arquivos JSON puros. Essa foi a abordagem mais simples para um prototipo de maquina unica. Os trade-offs:

JSON puro (atual)Banco vetorial (planejado)
Sem infraestrutura necessariaRequer setup de Qdrant/FAISS
Simples de debugar (legivel por humanos)Armazenamento binario/opaco
Carga completa em memoria por consultaIndexado, consultas sub-segundo
~2 GB para 31.500 chunksArmazenamento compacto e escalavel
Nao escala alem de ~100 livrosEscala para milhoes de vetores

A migracao para um banco vetorial (provavelmente Qdrant, ja que o Valter o utiliza) esta planejada para o v0.4 (mitigacao M12).

Por que MiniMax M2.5 ao inves de Claude para enriquecimento?

Seção intitulada “Por que MiniMax M2.5 ao inves de Claude para enriquecimento?”

Custo. Enriquecer 31.500 chunks com um prompt de classificacao exige throughput significativo de tokens. O MiniMax M2.5 e substancialmente mais barato que o Claude para essa carga de trabalho em lote. O trade-off e qualidade — MiniMax e um modelo generico, nao ajustado para direito brasileiro.

Esta e uma decisao em aberto (D06). Opcoes em avaliacao:

OpcaoCustoQualidadeDependencia
MiniMax M2.5 (atual)BaixoDesconhecida (nao validada)Hack fragil no SDK
ClaudeMais altoProvavelmente melhorConsistente com ecossistema
Modelo localZeroDesconhecidaComplexidade de setup

Tecnicamente sim, mas requer re-embedding do corpus inteiro (~31.500 chunks). O modelo esta hardcoded em embed_doutrina.py (linha 24) e search_doutrina_v2.py (linha 24) como rufimelo/Legal-BERTimbau-sts-base.

Consideracoes importantes:

  • Todos os embeddings existentes se tornam incompativeis (espaco vetorial diferente)
  • A qualidade da busca pode melhorar ou piorar — nao existe benchmark comparativo ainda (planejado em F40)
  • O modelo atual foi treinado em texto juridico portugues (PT-PT), o que pode nao ser ideal para terminologia juridica brasileira

Esta e a contribuicao de maior impacto que voce pode fazer. O Douto tem 0% de cobertura de testes.

  1. Crie a estrutura de diretorio tests/ (veja Testes)
  2. Adicione pytest as dependencias de desenvolvimento
  3. Comece pelas funcoes do rechunk_v3.py: detect_section(), classify_title(), smart_split()
  4. Use trechos reais de markdown de livros juridicos como fixtures
  5. Faca mock de todas as chamadas a APIs externas (MiniMax, LlamaParse, HuggingFace)

Veja a pagina de Testes para a estrategia completa planejada e exemplos de testes.


Atualmente, tres areas possuem conteudo populado:

AreaLivrosChunksCobertura
Direito Civil35~9.365Contratos, obrigacoes, responsabilidade civil, direitos reais
Direito Processual Civil8~22.182Comentarios ao CPC, teoria geral, procedimentos
Direito Empresarial7Venture capital, smart contracts, litigios comerciais

Lacunas: Direito do Consumidor tem um MOC placeholder. Tributario, Constitucional, Compliance e Sucessoes nao possuem conteudo algum. Se voce buscar um topico em um dominio nao coberto, recebera resultados vazios.

Resposta honesta: nao sabemos. Nao existe eval set, benchmark de precisao ou validacao humana da qualidade da busca.

O que sabemos:

  • A busca hibrida combina similaridade semantica (significado) com correspondencia de palavras-chave (termos exatos)
  • Resultados sao ranqueados por um score combinado (70% semantico, 30% palavras-chave por padrao)
  • Filtros de metadados (por instituto, ramo, tipo) dependem da qualidade do enriquecimento, que nao foi validada

A medicao de qualidade esta planejada para o v0.2.5 (validacao de 200 chunks) e v0.5 (eval set formal com 30+ consultas).

Com cautela. As citacoes incluem titulo do livro, autor e capitulo, mas nao numeros de pagina. Existem riscos conhecidos:

  • Erros de chunking — o limite do chunk pode nao coincidir com o limite do capitulo no livro original, levando a atribuicao errada (ex.: citar Capitulo 5 quando o conteudo e do Capitulo 4)
  • Aninhamento de citacoes — autores juridicos frequentemente citam outros autores extensamente. Um chunk pode ser atribuido ao autor do livro quando o conteudo e na verdade uma citacao de outro jurista
  • Sem rastreamento de edicao — se uma edicao mais recente de um livro for processada, chunks antigos permanecem no indice. Voce pode receber citacoes de uma edicao desatualizada

Recomendacao: Sempre verifique citacoes doutrinarias na fonte original antes de usa-las em pecas juridicas.

Nao. O Douto e uma ferramenta de busca e recuperacao de informacao, nao um substituto para analise juridica. Ele ajuda a encontrar trechos doutrinarios relevantes mais rapidamente, mas:

  • O corpus e limitado (~50 livros, nao e exaustivo)
  • Metadados podem conter erros
  • Nenhum sistema substitui o julgamento do advogado sobre relevancia e aplicabilidade
  • A ferramenta nao compreende as nuances do seu caso especifico

O diferencial do Douto sao metadados estruturados sobre doutrina juridica brasileira. Cada um dos ~31.500 chunks e classificado com seu instituto juridico, tipo de conteudo, fase processual, ramo do direito e referencias normativas. Isso possibilita busca semantica filtrada que motores de busca juridica genericos nao conseguem fazer.

Nenhum concorrente oferece atualmente esse nivel de acesso estruturado a livros doutrinarios brasileiros.

Com base no roadmap atual:

MilestoneMetaO que possibilita
v0.2~Marco 2026Pipeline roda em qualquer maquina
v0.3~Maio 2026Testes, docs, lint — projeto e contribuivel
v0.4~Agosto 2026Servidor MCP — Valter pode consultar doutrina

Ressalvas:

  • O roadmap e mantido por um desenvolvedor solo gerenciando 5 repositorios
  • 7 decisoes arquiteturais estao em aberto, 2 das quais bloqueiam o v0.4
  • Nenhum usuario externo testou o sistema
  • Prazos sao estimativas, nao compromissos
ComponenteTipo de custoEstimativa
LlamaParsePor PDF, unica vez~$0.01-0.10 por livro (tier cost_effective)
MiniMax M2.5Por chunk no enriquecimentoBaixo (preco exato varia)
Legal-BERTimbauGratuito (modelo open source)$0
ComputacaoCPU/GPU para embeddingsMaquina local, sem custo de cloud
ArmazenamentoArquivos JSON~2 GB para o corpus atual

O que acontece se o desenvolvedor solo ficar indisponivel?

Seção intitulada “O que acontece se o desenvolvedor solo ficar indisponivel?”

Isso e identificado como risco RE01 (maior probabilidade no PREMORTEM). Atualmente:

  • O pipeline roda apenas na maquina do desenvolvedor
  • O prompt de enriquecimento nao esta no repositorio
  • Dependencias nao estao pinadas
  • Nao existem testes nem CI/CD
  • Documentacao esta em andamento (estes docs)

Os milestones v0.2 e v0.3 abordam especificamente esse risco de bus-factor, tornando o projeto portavel e contribuivel. Ate que esses milestones sejam concluidos, outro desenvolvedor enfrentaria friccao significativa de onboarding.