视觉语言模型 关键字列表
基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

基于放射影像的临床诊断中,AI模型尚未达到实际应用水平

新研究通过 DeepTumorVQA 基准测试表明,尽管 AI 在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。

Hugging Face 开源全球最小视觉语言模型

Hugging Face 开源全球最小视觉语言模型

Hugging Face 公司开源了 SmolVLM-256M,这是一个参数量最少的视觉语言模型。它能在普通笔记本电脑上运行,支持多种视觉数据处理任务。该模型采用新的编码器,在多项基准测试中表现出色,展现了小型模型的巨大潜力。

幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

幻方发布超强多模态LLM DeepSeek-VL!支持代码,文档OCR等!

DeepSeek-VL是一个为现实世界设计的开源视觉语言模型,它通过数据构建、模型架构和训练策略三个维度来实现对高分辨率图像的高效处理和丰富语义理解。