新研究通过 DeepTumorVQA 基准测试表明,尽管 AI 在基本识别和测量任务上有一定表现,但在复杂医学推理上仍远落后于临床要求,难以取代医生的诊断判断。
Hugging Face 公司开源了 SmolVLM-256M,这是一个参数量最少的视觉语言模型。它能在普通笔记本电脑上运行,支持多种视觉数据处理任务。该模型采用新的编码器,在多项基准测试中表现出色,展现了小型模型的巨大潜力。
DeepSeek-VL是一个为现实世界设计的开源视觉语言模型,它通过数据构建、模型架构和训练策略三个维度来实现对高分辨率图像的高效处理和丰富语义理解。