searchusermenu
  • 发布文章
  • 消息中心
论文笔记
5 文章3902 阅读1 订阅
全部 AI 5
论文笔记
5 文章3.902k 阅读1 订阅
全部
  • 介绍了InternVL 1.5,一种开源的多模态大型语言模型(MLLM),旨在缩小开源与专有商业模型在多模态理解能力上的差距。通过集成强大的视觉编码器、采用动态高分辨率策略以及利用高质量的双语数据集,InternVL 1.5在各种基准测试中展示了强大的性能。
    9****m
    2024-08-30
    0
    49
    0
  • 在人工智能的浪潮中,大语言模型如GPT-3正变得越来越强大,它们能做的事情让人惊叹。但这些模型的规模也让人望而却步——高达数十亿甚至数千亿的参数量,让每一次的微调都显得既昂贵又耗时。不过,好消息是,LoRA技术的出现,让我们看到了解决这一问题的希望。
    9****m
    2024-05-07
    0
    113
    0
  • transformer大家都知道,在nlp领域已经用的很成熟了,基于此发展出了GPT和BERT两种方式的预训练语言模型,为NLP各项下游任务带来了显著的性能提升。那transformer这么有效好用的方法是否适用于cv领域呢?答案是肯定的,ViT将标准的transformer结构运用到图像识别任务上取得了很好的性能,并证明了在大量数据进行预训练后,再迁移到中小型数据集(ImageNet, CIFAR-100, VTAB等),ViT能够取得和最高水平卷积神经网络类似的结果,同时大幅减少训练中的计算资源消耗。
    9****m
    2023-10-07
    0
    104
    0
  • 生成模型在自然语言处理、图像生成等领域中得到了广泛应用。然而,由于其基于概率模型,难以保持客观性,因此需要使用一些技术来弥补不足。生成模型的评估是一个复杂的问题,需要综合考虑多个因素。虽然目前尚未就应使用哪些指标达成共识。Borji (2018)进行了广泛比较,下面是当前研究中最广泛使用的几种方法。
    9****m
    2023-06-30
    0
    1452
    0
  • CLIP是一种新的机器学习方法,它可以同时理解图像和文本。CLIP是用对比学习的方式来预训练一个能够同时处理图像和文本的模型。CLIP可以用自然语言来分类图像,用图像来生成文本描述,用文本来检索图像等等。CLIP只需要一个简单的线性分类器或者最近邻搜索就可以完成这些任务,不需要任何额外的训练或者微调。 下面将介绍CLIP的方法,以及优势和局限性,并给出一些后续有意思的应用工作。
    9****m
    2023-05-12
    0
    2184
    0
全部
  • 介绍了InternVL 1.5,一种开源的多模态大型语言模型(MLLM),旨在缩小开源与专有商业模型在多模态理解能力上的差距。通过集成强大的视觉编码器、采用动态高分辨率策略以及利用高质量的双语数据集,InternVL 1.5在各种基准测试中展示了强大的性能。
    0
    49
    0
  • 在人工智能的浪潮中,大语言模型如GPT-3正变得越来越强大,它们能做的事情让人惊叹。但这些模型的规模也让人望而却步——高达数十亿甚至数千亿的参数量,让每一次的微调都显得既昂贵又耗时。不过,好消息是,LoRA技术的出现,让我们看到了解决这一问题的希望。
    0
    113
    0
  • transformer大家都知道,在nlp领域已经用的很成熟了,基于此发展出了GPT和BERT两种方式的预训练语言模型,为NLP各项下游任务带来了显著的性能提升。那transformer这么有效好用的方法是否适用于cv领域呢?答案是肯定的,ViT将标准的transformer结构运用到图像识别任务上取得了很好的性能,并证明了在大量数据进行预训练后,再迁移到中小型数据集(ImageNet, CIFAR-100, VTAB等),ViT能够取得和最高水平卷积神经网络类似的结果,同时大幅减少训练中的计算资源消耗。
    0
    104
    0
  • 生成模型在自然语言处理、图像生成等领域中得到了广泛应用。然而,由于其基于概率模型,难以保持客观性,因此需要使用一些技术来弥补不足。生成模型的评估是一个复杂的问题,需要综合考虑多个因素。虽然目前尚未就应使用哪些指标达成共识。Borji (2018)进行了广泛比较,下面是当前研究中最广泛使用的几种方法。
    0
    1452
    0
  • CLIP是一种新的机器学习方法,它可以同时理解图像和文本。CLIP是用对比学习的方式来预训练一个能够同时处理图像和文本的模型。CLIP可以用自然语言来分类图像,用图像来生成文本描述,用文本来检索图像等等。CLIP只需要一个简单的线性分类器或者最近邻搜索就可以完成这些任务,不需要任何额外的训练或者微调。 下面将介绍CLIP的方法,以及优势和局限性,并给出一些后续有意思的应用工作。
    0
    2184
    0
  • 没有更多了