微软,这个在科技领域引领潮流的巨头, 以其创新性的技术为医疗影像诊断领域带来了前所未有的变革。LLaVA-Med,这个由微软推出的AI模型,能够在CT和X光片上“读懂”患者的病理状况,为医疗诊断提供了强大的技术支持。
LLaVA-Med模型的核心技术是基于Vision Transformer和Vicuna语言模型。微软利用八个英伟达A100 GPU,对模型进行了深入的训练。在这个过程中,模型学习了“每个图像的所有预分析信息”,从而能够生成有关图像的问答。
在训练过程中,LLaVA-Med模型主要围绕“描述此类图像的内容”以及“阐述生物医学概念”展开。据微软介绍,该模型最终具备“出色的多模式对话能力”,在用于回答视觉问题的三个标准生物医学数据集上,LLaVA-Med在部分指标上领先于业界其他先进模型。
为了训练LLaVA-Med模型,微软的研究人员与一批医院进行了紧密合作,获得了使用生物医学图像文本对应大型数据集的机会。这个数据集涵盖了胸部X光、MRI、组织学、病理学和CT图像等多种类型,为模型的训练提供了丰富的素材。