Introducao
Introducao
Seção intitulada “Introducao”Douto e o agente de conhecimento doutrinario da plataforma sens.legal. Ele processa livros juridicos e os transforma em conhecimento estruturado e pesquisavel, pronto para ser consultado por advogados e agentes de IA em tempo real.
O Problema
Seção intitulada “O Problema”A pesquisa juridica no Brasil exige consultar multiplos autores sobre o mesmo conceito. Um advogado pesquisando exceptio non adimpleti contractus pode precisar comparar as posicoes de Orlando Gomes, Caio Mario e Pontes de Miranda — cada um em um livro diferente, capitulo diferente, edicao diferente. Esse cruzamento manual costuma levar de 2 a 4 horas por conceito.
As plataformas de legal tech atuais (Jusbrasil, Turivius, Vlex, LexisNexis) fazem busca — devolvem documentos que correspondem a uma consulta. Nenhuma delas faz sintese — agregar e comparar posicoes doutrinarias entre autores.
O Douto preenche essa lacuna transformando livros juridicos brutos em conhecimento estruturado, classificado e pesquisavel, com metadados que permitem filtrar por instituto juridico, tipo de conteudo, ramo do direito e fase processual.
O que o Douto Faz
Seção intitulada “O que o Douto Faz”O Douto opera em dois modos complementares:
Pipeline de Processamento em Batch
Seção intitulada “Pipeline de Processamento em Batch”Cinco scripts Python executados sequencialmente transformam PDFs juridicos em dados pesquisaveis:
PDF → process_books.py → rechunk_v3.py → enrich_chunks.py → embed_doutrina.py → search_doutrina_v2.pyCada estagio adiciona estrutura: o PDF bruto vira markdown, o markdown vira chunks inteligentes, os chunks sao classificados com metadados juridicos, o texto enriquecido gera embeddings, e os embeddings habilitam busca semantica.
Base de Conhecimento Navegavel
Seção intitulada “Base de Conhecimento Navegavel”Uma hierarquia de arquivos markdown no estilo Obsidian, organizada por ramo do direito:
INDEX_DOUTO.md (raiz — 8 ramos do direito) └── MOC_CIVIL.md (35 livros, ~9.365 chunks) └── MOC_PROCESSUAL.md (8 livros, ~22.182 chunks) └── MOC_EMPRESARIAL.md (7 livros) └── nodes/ (notas atomicas — planejado)Quem Usa o Douto
Seção intitulada “Quem Usa o Douto”O Douto atende tres publicos:
| Publico | Como usa o Douto | Disponivel hoje? |
|---|---|---|
| Advogados | Buscam doutrina via frontend Juca durante pesquisa de casos | Ainda nao — requer integracao v0.4 |
| Agentes de IA | Consultam doutrina via MCP/API durante briefings e analises | Ainda nao — MCP planejado para v0.4 |
| Desenvolvedores | Estendem o pipeline, adicionam livros, melhoram a base de conhecimento | Sim — via CLI |
Onde o Douto se Encaixa
Seção intitulada “Onde o Douto se Encaixa”No ecossistema sens.legal, cada agente cuida de um pilar diferente do conhecimento juridico:
| Agente | Pilar | Corpus atual |
|---|---|---|
| Valter | Jurisprudencia | 23.400+ decisoes do STJ |
| Leci | Legislacao | Leis federais |
| Douto | Doutrina | ~50 livros, ~31.500 chunks |
| Joseph | Orquestracao | Coordena todos os agentes |
| Juca | Frontend | Apresenta resultados para advogados |
Quando totalmente integrado, um advogado que pergunte ao Juca sobre um conceito juridico recebera uma visao unificada combinando jurisprudencia do Valter, legislacao da Leci e doutrina do Douto.
Conceitos Fundamentais
Seção intitulada “Conceitos Fundamentais”Estes termos aparecem ao longo de toda a documentacao:
| Termo | Definicao |
|---|---|
| Chunk | Um fragmento semanticamente coerente de um livro juridico (200-1.000 tokens), produzido pelo rechunk_v3.py, com metadados em frontmatter YAML |
| Instituto juridico | Um conceito ou instituto do direito — ex.: exceptio non adimpleti contractus, boa-fe objetiva. A unidade fundamental de classificacao. |
| Enriquecimento | O processo de classificar chunks com metadados estruturados usando um LLM (atualmente MiniMax M2.5) |
| Embedding | Um vetor de 768 dimensoes representando o conteudo semantico de um chunk, gerado pelo Legal-BERTimbau |
| MOC | Map of Content — arquivo indice que lista todos os livros de um ramo do direito |
| Skill graph | A estrutura hierarquica de conhecimento: INDEX → MOCs → Chunks → Notas Atomicas |
| Busca hibrida | Combinacao de busca semantica (similaridade cosseno) e BM25 (busca por palavras-chave) com pontuacao ponderada |
Para definicoes completas, veja o Glossario.
O que o Douto NAO Faz
Seção intitulada “O que o Douto NAO Faz”Limites claros definidos no AGENTS.md:
- Nao gerencia casos — isso e do Joseph (orquestrador)
- Nao busca jurisprudencia — isso e do Valter (23.400+ decisoes do STJ)
- Nao busca legislacao — isso e da Leci (leis federais)
- Nao gerencia infraestrutura — isso e do Valter (backend FastAPI)
- Nao serve interface web — isso e do Juca (frontend Next.js)