DeepSeek entrou no hospital: o modelo open-source que iguala o GPT-4o onde importa

O GPT-4o é um dos modelos mais capazes que existem. Hospitais do mundo inteiro sabem disso. E ainda assim, a maioria deles não pode usá-lo para nada que envolva dados de pacientes.

O problema não é técnico. É jurídico: GDPR na Europa, HIPAA nos Estados Unidos, AI Act da UE em vigor. Todos eles exigem que dados clínicos permaneçam sob controle direto da instituição — e APIs proprietárias como a da OpenAI simplesmente não atendem esse requisito. Enquanto isso, o DeepSeek, modelo chinês open-source, chegou silenciosamente com desempenho equivalente ao GPT-4o em decisão clínica — e pode rodar dentro do próprio servidor do hospital.

O que está acontecendo

Em abril de 2025, pesquisadores da Universidade de Münster e do Berlin Institute of Health publicaram na Nature Medicine o benchmark mais rigoroso já feito comparando modelos open-source com proprietários em decisão clínica.

O protocolo: 125 casos clínicos reais, cobrindo doenças frequentes e raras, avaliados em escala Likert de cinco pontos. Modelos testados: DeepSeek-R1, DeepSeek-V3, GPT-4o e Gemini-2.0 Flash Thinking Experimental.

Resultado: DeepSeek-R1 vs GPT-4o — sem diferença estatisticamente significativa (p ajustado = 0.3085). Em alguns subconjuntos de casos, o DeepSeek superou o modelo da OpenAI. O Gemini, por outro lado, ficou atrás do GPT-4o de forma expressiva (p = 7.89×10⁻⁶).

Esse resultado não apareceu do nada. Uma revisão narrativa publicada no BMC Medical Informatics analisou 108 estudos sobre LLMs em medicina publicados entre dezembro de 2022 e abril de 2024. O padrão encontrado: GPT-3.5, GPT-4 e Bard dominam os estudos, os critérios de avaliação mais usados são accuracy, completeness e appropriateness, mas não existe um framework padronizado de avaliação. Cada estudo inventa o seu método.

Isso é relevante porque significa que o campo está acelerando sem saber direito como medir o que está construindo.

Por que você deveria prestar atenção

O estudo do Yale publicado no CHI 2024 revela algo que os benchmarks de performance não capturam: como médicos realmente se comportam quando têm IA do lado.

O grupo de Yale montou um RCT (ensaio clínico randomizado) com médicos e estudantes de medicina gerenciando casos de sangramento gastrointestinal superior — com e sem uma interface de LLM integrada ao sistema de suporte à decisão. Os resultados:

A presença de LLM melhorou usabilidade percebida. Respostas com citações de fontes aumentaram a confiança dos clínicos no sistema. E a forma de usar variou com expertise: médicos experientes usam a IA para confirmar o que já pensam; estudantes usam para explorar opções que ainda não consideram.

A descrição qualitativa mais interessante veio das entrevistas pós-experimento. Os participantes descreveram o LLM não como “a ferramenta” ou “o sistema” — mas como um membro da equipe a consultar. Um colega que ajuda a avaliar decisões em casos limítrofes.

Essa distinção importa porque define o tipo de confiança que um sistema médico precisa construir. Não é confiança cega. É confiança contextual — você consulta, pondera, decide. O sistema fornece raciocínio, não respostas finais.

O gargalo que permanece é o que o paper da PLOS Digital Health mapeia em uma revisão sistemática de 70 estudos: LLMs ainda alucinam. E em medicina, alucinação tem outro peso.

A solução mais estudada é RAG — Retrieval Augmented Generation. Em vez de confiar só no que o modelo aprendeu no treinamento, você conecta o modelo a uma base de conhecimento atualizada: prontuários, protocolos clínicos, literatura científica recente. O modelo consulta antes de responder.

O problema: 78.9% dos datasets estudados estão em inglês. A cobertura para outras línguas é precária. E a maioria dos estudos não avalia considerações éticas da abordagem. RAG funciona, mas a infraestrutura em torno dele ainda é imatura.

Como aplicar isso amanhã

Se você trabalha em healthtech ou gestão hospitalar:

O primeiro movimento é separar dois problemas que costumam ser tratados como um. Performance do modelo (qual LLM acerta mais diagnósticos) é diferente de viabilidade de implantação (qual LLM pode legalmente processar dados dos seus pacientes).

O paper da Nature Medicine resolve a primeira dúvida: DeepSeek-R1 tem performance equivalente ao GPT-4o em decisão clínica. Isso significa que a barreira técnica para adoção de IA on-premise caiu.

O segundo passo é avaliar infraestrutura. DeepSeek pode ser rodado localmente com GPUs A100 ou equivalentes. O custo de setup é alto, mas é custo único — e elimina o risco regulatório de enviar dados para APIs externas.

Se você é médico ou estudante de medicina:

O estudo do Yale tem uma implicação direta para como você pode usar IA hoje, mesmo em sistemas básicos. A diferença entre médicos experientes e estudantes não estava em quem confiava mais na IA — estava em quem tinha um modelo mental claro do que estava pedindo para ela fazer.

Usar IA para “confirmar intuição” é diferente de usar para “descobrir o diagnóstico”. O primeiro é uso de alta qualidade; o segundo é delegação que pode induzir erro.

Se você é desenvolvedor de sistemas clínicos:

O paper do Yale mostrou que citações de fontes aumentam confiança do clínico. Isso é um requisito de design, não um detalhe. Qualquer CDSS que não mostre de onde veio a informação está perdendo confiança desnecessariamente.

Vibe Coding: construindo na prática

O cenário aqui é concreto: um sistema simples de suporte à decisão clínica usando DeepSeek local com RAG em protocolos clínicos. Duas abordagens — uma usando API do DeepSeek (para quem quer testar rápido) e outra com modelo local via Ollama (para quem precisa de privacidade total).

Abordagem 1: DeepSeek via API com RAG básico

Você é um assistente clínico de suporte à decisão. Use apenas as informações fornecidas no contexto abaixo para responder. Se a resposta não estiver no contexto, diga explicitamente que não há informação suficiente — nunca especule.

Protocolo clínico relevante:
{CONTEXTO_RECUPERADO}

Caso clínico:
{DESCRICAO_DO_CASO}

Pergunta: {PERGUNTA_DO_CLINICO}

Formato da resposta:
1. Avaliação baseada no protocolo (com citação direta da seção relevante)
2. Pontos de atenção específicos para este caso
3. O que o protocolo não cobre e requer julgamento clínico

Funciona para: triagem inicial, validação de conduta, consulta de protocolo. Custo: ~$0.002 por consulta via API do DeepSeek. Problema: dados saem do ambiente controlado.

Abordagem 2: DeepSeek local com Ollama (privacidade total)

# Instalar Ollama e baixar DeepSeek-R1 7B (versão local viável)
ollama pull deepseek-r1:7b
 
# Estrutura do sistema RAG local
pip install llama-index chromadb ollama

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms.ollama import Ollama
from llama_index.embeddings.ollama import OllamaEmbedding
 
# Indexar protocolos clínicos locais
documents = SimpleDirectoryReader("./protocolos/").load_data()
llm = Ollama(model="deepseek-r1:7b", request_timeout=120.0)
embed_model = OllamaEmbedding(model_name="nomic-embed-text")
 
index = VectorStoreIndex.from_documents(
    documents, embed_model=embed_model
)
query_engine = index.as_query_engine(llm=llm)
 
# Consulta
response = query_engine.query(
    "Paciente 67 anos, PA 90/60, sangramento gastrointestinal ativo. "
    "Conduta inicial segundo protocolo?"
)
print(response)

Zero dados saem do servidor. Latência maior (~3-8s), performance menor que a versão full do DeepSeek-R1, mas suficiente para consulta de protocolo.

Comparativo de eficiência

Abordagem	Tokens	Custo	Tempo
DeepSeek API + RAG	~800	$0.002	2s
DeepSeek local 7B + RAG	~800	$0.00	6s
GPT-4o API + RAG	~800	$0.024	3s

Glossário

LLM (Large Language Model): modelo de IA treinado em grandes volumes de texto, capaz de gerar e interpretar linguagem natural. GPT-4, Claude e DeepSeek são exemplos.
CDSS (Clinical Decision Support System): sistema computacional que apoia decisões clínicas fornecendo informações, alertas ou recomendações baseadas em dados do paciente.
RAG (Retrieval Augmented Generation): técnica que conecta um LLM a uma base de conhecimento externa. O modelo consulta documentos relevantes antes de responder, reduzindo alucinações.
On-site deployment: implantação do modelo dentro da infraestrutura da própria instituição, sem enviar dados para servidores externos. Exigido por GDPR e HIPAA para dados clínicos.
GDPR / HIPAA: regulações de privacidade de dados — GDPR na Europa, HIPAA nos EUA. Ambas restringem como dados de saúde podem ser processados e onde podem ser armazenados.
Fine-tuning: processo de ajuste de um modelo pré-treinado usando dados específicos de um domínio, como prontuários de um hospital.
Hallucination (alucinação): quando um LLM gera informação falsa com aparência de verdade. Em medicina, isso é um risco clínico direto.
Open-source LLM: modelo cujos pesos estão publicamente disponíveis, permitindo que qualquer instituição o rode, modifique e ajuste localmente.

Sua próxima ação

Se você trabalha com tecnologia em saúde: teste o DeepSeek-R1 via API (gratuito com limites) em um conjunto de casos clínicos do seu domínio específico. Compare a resposta com o GPT-4o. Documente as diferenças. Esse experimento leva menos de duas horas e vai te dar dados reais — não benchmark — para a conversa sobre adoção.