DeepSeek entrou no hospital: o modelo open-source que iguala o GPT-4o onde importa
O GPT-4o é um dos modelos mais capazes que existem. Hospitais do mundo inteiro sabem disso. E ainda assim, a maioria deles não pode usá-lo para nada que envolva dados de pacientes.
O problema não é técnico. É jurídico: GDPR na Europa, HIPAA nos Estados Unidos, AI Act da UE em vigor. Todos eles exigem que dados clínicos permaneçam sob controle direto da instituição — e APIs proprietárias como a da OpenAI simplesmente não atendem esse requisito. Enquanto isso, o DeepSeek, modelo chinês open-source, chegou silenciosamente com desempenho equivalente ao GPT-4o em decisão clínica — e pode rodar dentro do próprio servidor do hospital.
O que está acontecendo
Em abril de 2025, pesquisadores da Universidade de Münster e do Berlin Institute of Health publicaram na Nature Medicine o benchmark mais rigoroso já feito comparando modelos open-source com proprietários em decisão clínica.
O protocolo: 125 casos clínicos reais, cobrindo doenças frequentes e raras, avaliados em escala Likert de cinco pontos. Modelos testados: DeepSeek-R1, DeepSeek-V3, GPT-4o e Gemini-2.0 Flash Thinking Experimental.
Resultado: DeepSeek-R1 vs GPT-4o — sem diferença estatisticamente significativa (p ajustado = 0.3085). Em alguns subconjuntos de casos, o DeepSeek superou o modelo da OpenAI. O Gemini, por outro lado, ficou atrás do GPT-4o de forma expressiva (p = 7.89×10⁻⁶).
Esse resultado não apareceu do nada. Uma revisão narrativa publicada no BMC Medical Informatics analisou 108 estudos sobre LLMs em medicina publicados entre dezembro de 2022 e abril de 2024. O padrão encontrado: GPT-3.5, GPT-4 e Bard dominam os estudos, os critérios de avaliação mais usados são accuracy, completeness e appropriateness, mas não existe um framework padronizado de avaliação. Cada estudo inventa o seu método.
Isso é relevante porque significa que o campo está acelerando sem saber direito como medir o que está construindo.
Por que você deveria prestar atenção
O estudo do Yale publicado no CHI 2024 revela algo que os benchmarks de performance não capturam: como médicos realmente se comportam quando têm IA do lado.
O grupo de Yale montou um RCT (ensaio clínico randomizado) com médicos e estudantes de medicina gerenciando casos de sangramento gastrointestinal superior — com e sem uma interface de LLM integrada ao sistema de suporte à decisão. Os resultados:
A presença de LLM melhorou usabilidade percebida. Respostas com citações de fontes aumentaram a confiança dos clínicos no sistema. E a forma de usar variou com expertise: médicos experientes usam a IA para confirmar o que já pensam; estudantes usam para explorar opções que ainda não consideram.
A descrição qualitativa mais interessante veio das entrevistas pós-experimento. Os participantes descreveram o LLM não como “a ferramenta” ou “o sistema” — mas como um membro da equipe a consultar. Um colega que ajuda a avaliar decisões em casos limítrofes.
Essa distinção importa porque define o tipo de confiança que um sistema médico precisa construir. Não é confiança cega. É confiança contextual — você consulta, pondera, decide. O sistema fornece raciocínio, não respostas finais.
O gargalo que permanece é o que o paper da PLOS Digital Health mapeia em uma revisão sistemática de 70 estudos: LLMs ainda alucinam. E em medicina, alucinação tem outro peso.
A solução mais estudada é RAG — Retrieval Augmented Generation. Em vez de confiar só no que o modelo aprendeu no treinamento, você conecta o modelo a uma base de conhecimento atualizada: prontuários, protocolos clínicos, literatura científica recente. O modelo consulta antes de responder.
O problema: 78.9% dos datasets estudados estão em inglês. A cobertura para outras línguas é precária. E a maioria dos estudos não avalia considerações éticas da abordagem. RAG funciona, mas a infraestrutura em torno dele ainda é imatura.
Como aplicar isso amanhã
Se você trabalha em healthtech ou gestão hospitalar:
O primeiro movimento é separar dois problemas que costumam ser tratados como um. Performance do modelo (qual LLM acerta mais diagnósticos) é diferente de viabilidade de implantação (qual LLM pode legalmente processar dados dos seus pacientes).
O paper da Nature Medicine resolve a primeira dúvida: DeepSeek-R1 tem performance equivalente ao GPT-4o em decisão clínica. Isso significa que a barreira técnica para adoção de IA on-premise caiu.
O segundo passo é avaliar infraestrutura. DeepSeek pode ser rodado localmente com GPUs A100 ou equivalentes. O custo de setup é alto, mas é custo único — e elimina o risco regulatório de enviar dados para APIs externas.
Se você é médico ou estudante de medicina:
O estudo do Yale tem uma implicação direta para como você pode usar IA hoje, mesmo em sistemas básicos. A diferença entre médicos experientes e estudantes não estava em quem confiava mais na IA — estava em quem tinha um modelo mental claro do que estava pedindo para ela fazer.
Usar IA para “confirmar intuição” é diferente de usar para “descobrir o diagnóstico”. O primeiro é uso de alta qualidade; o segundo é delegação que pode induzir erro.
Se você é desenvolvedor de sistemas clínicos:
O paper do Yale mostrou que citações de fontes aumentam confiança do clínico. Isso é um requisito de design, não um detalhe. Qualquer CDSS que não mostre de onde veio a informação está perdendo confiança desnecessariamente.
Vibe Coding: construindo na prática
O cenário aqui é concreto: um sistema simples de suporte à decisão clínica usando DeepSeek local com RAG em protocolos clínicos. Duas abordagens — uma usando API do DeepSeek (para quem quer testar rápido) e outra com modelo local via Ollama (para quem precisa de privacidade total).
Abordagem 1: DeepSeek via API com RAG básico
Você é um assistente clínico de suporte à decisão. Use apenas as informações fornecidas no contexto abaixo para responder. Se a resposta não estiver no contexto, diga explicitamente que não há informação suficiente — nunca especule.
Protocolo clínico relevante:
{CONTEXTO_RECUPERADO}
Caso clínico:
{DESCRICAO_DO_CASO}
Pergunta: {PERGUNTA_DO_CLINICO}
Formato da resposta:
1. Avaliação baseada no protocolo (com citação direta da seção relevante)
2. Pontos de atenção específicos para este caso
3. O que o protocolo não cobre e requer julgamento clínico
Funciona para: triagem inicial, validação de conduta, consulta de protocolo. Custo: ~$0.002 por consulta via API do DeepSeek. Problema: dados saem do ambiente controlado.
Abordagem 2: DeepSeek local com Ollama (privacidade total)
# Instalar Ollama e baixar DeepSeek-R1 7B (versão local viável)
ollama pull deepseek-r1:7b
# Estrutura do sistema RAG local
pip install llama-index chromadb ollamafrom llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms.ollama import Ollama
from llama_index.embeddings.ollama import OllamaEmbedding
# Indexar protocolos clínicos locais
documents = SimpleDirectoryReader("./protocolos/").load_data()
llm = Ollama(model="deepseek-r1:7b", request_timeout=120.0)
embed_model = OllamaEmbedding(model_name="nomic-embed-text")
index = VectorStoreIndex.from_documents(
documents, embed_model=embed_model
)
query_engine = index.as_query_engine(llm=llm)
# Consulta
response = query_engine.query(
"Paciente 67 anos, PA 90/60, sangramento gastrointestinal ativo. "
"Conduta inicial segundo protocolo?"
)
print(response)Zero dados saem do servidor. Latência maior (~3-8s), performance menor que a versão full do DeepSeek-R1, mas suficiente para consulta de protocolo.
Comparativo de eficiência
| Abordagem | Tokens | Custo | Qualidade | Tempo |
|---|---|---|---|---|
| DeepSeek API + RAG | ~800 | $0.002 | 2s | |
| DeepSeek local 7B + RAG | ~800 | $0.00 | 6s | |
| GPT-4o API + RAG | ~800 | $0.024 | 3s |
Glossário
- LLM (Large Language Model): modelo de IA treinado em grandes volumes de texto, capaz de gerar e interpretar linguagem natural. GPT-4, Claude e DeepSeek são exemplos.
- CDSS (Clinical Decision Support System): sistema computacional que apoia decisões clínicas fornecendo informações, alertas ou recomendações baseadas em dados do paciente.
- RAG (Retrieval Augmented Generation): técnica que conecta um LLM a uma base de conhecimento externa. O modelo consulta documentos relevantes antes de responder, reduzindo alucinações.
- On-site deployment: implantação do modelo dentro da infraestrutura da própria instituição, sem enviar dados para servidores externos. Exigido por GDPR e HIPAA para dados clínicos.
- GDPR / HIPAA: regulações de privacidade de dados — GDPR na Europa, HIPAA nos EUA. Ambas restringem como dados de saúde podem ser processados e onde podem ser armazenados.
- Fine-tuning: processo de ajuste de um modelo pré-treinado usando dados específicos de um domínio, como prontuários de um hospital.
- Hallucination (alucinação): quando um LLM gera informação falsa com aparência de verdade. Em medicina, isso é um risco clínico direto.
- Open-source LLM: modelo cujos pesos estão publicamente disponíveis, permitindo que qualquer instituição o rode, modifique e ajuste localmente.
Sua próxima ação
Se você trabalha com tecnologia em saúde: teste o DeepSeek-R1 via API (gratuito com limites) em um conjunto de casos clínicos do seu domínio específico. Compare a resposta com o GPT-4o. Documente as diferenças. Esse experimento leva menos de duas horas e vai te dar dados reais — não benchmark — para a conversa sobre adoção.
Fontes
- Benchmark evaluation of DeepSeek LLMs in clinical decision-making — Nature Medicine
- Human-Algorithmic Interaction Using a LLM-Augmented AI Clinical Decision Support System — CHI 2024
- Qualitative metrics for evaluating LLMs in clinical decision-making — BMC Medical Informatics
- Retrieval Augmented Generation for LLMs in Healthcare — PLOS Digital Health