论文笔记全部内容-天翼云开发者社区

论文笔记

5 文章

3902 阅读

1 订阅

全部 AI 5

论文笔记

5 文章

3.902k 阅读

1 订阅

全部

InternVL 1.5 论文解读
介绍了InternVL 1.5，一种开源的多模态大型语言模型（MLLM），旨在缩小开源与专有商业模型在多模态理解能力上的差距。通过集成强大的视觉编码器、采用动态高分辨率策略以及利用高质量的双语数据集，InternVL 1.5在各种基准测试中展示了强大的性能。
AI
9****m
2024-08-30
0
49
0
LoRA技术解析：大语言模型的高效微调之道
在人工智能的浪潮中，大语言模型如GPT-3正变得越来越强大，它们能做的事情让人惊叹。但这些模型的规模也让人望而却步——高达数十亿甚至数千亿的参数量，让每一次的微调都显得既昂贵又耗时。不过，好消息是，LoRA技术的出现，让我们看到了解决这一问题的希望。
AI
9****m
2024-05-07
0
113
0
ViT:用transformer做大规模的图像识别
transformer大家都知道，在nlp领域已经用的很成熟了，基于此发展出了GPT和BERT两种方式的预训练语言模型，为NLP各项下游任务带来了显著的性能提升。那transformer这么有效好用的方法是否适用于cv领域呢？答案是肯定的，ViT将标准的transformer结构运用到图像识别任务上取得了很好的性能，并证明了在大量数据进行预训练后，再迁移到中小型数据集（ImageNet, CIFAR-100, VTAB等），ViT能够取得和最高水平卷积神经网络类似的结果，同时大幅减少训练中的计算资源消耗。
AI
9****m
2023-10-07
0
104
0
多模态文生图算法：模型评价指标
生成模型在自然语言处理、图像生成等领域中得到了广泛应用。然而，由于其基于概率模型，难以保持客观性，因此需要使用一些技术来弥补不足。生成模型的评估是一个复杂的问题，需要综合考虑多个因素。虽然目前尚未就应使用哪些指标达成共识。Borji (2018)进行了广泛比较，下面是当前研究中最广泛使用的几种方法。
AI
9****m
2023-06-30
0
1452
0
CLIP:一种基于对比学习的图像-文本多模态模型
CLIP是一种新的机器学习方法，它可以同时理解图像和文本。CLIP是用对比学习的方式来预训练一个能够同时处理图像和文本的模型。CLIP可以用自然语言来分类图像，用图像来生成文本描述，用文本来检索图像等等。CLIP只需要一个简单的线性分类器或者最近邻搜索就可以完成这些任务，不需要任何额外的训练或者微调。下面将介绍CLIP的方法，以及优势和局限性，并给出一些后续有意思的应用工作。
AI
9****m
2023-05-12
0
2184
0

共 5 条前往

页

全部

InternVL 1.5 论文解读
介绍了InternVL 1.5，一种开源的多模态大型语言模型（MLLM），旨在缩小开源与专有商业模型在多模态理解能力上的差距。通过集成强大的视觉编码器、采用动态高分辨率策略以及利用高质量的双语数据集，InternVL 1.5在各种基准测试中展示了强大的性能。
AI
9****m
0
49
0
LoRA技术解析：大语言模型的高效微调之道
在人工智能的浪潮中，大语言模型如GPT-3正变得越来越强大，它们能做的事情让人惊叹。但这些模型的规模也让人望而却步——高达数十亿甚至数千亿的参数量，让每一次的微调都显得既昂贵又耗时。不过，好消息是，LoRA技术的出现，让我们看到了解决这一问题的希望。
AI
9****m
0
113
0
ViT:用transformer做大规模的图像识别
transformer大家都知道，在nlp领域已经用的很成熟了，基于此发展出了GPT和BERT两种方式的预训练语言模型，为NLP各项下游任务带来了显著的性能提升。那transformer这么有效好用的方法是否适用于cv领域呢？答案是肯定的，ViT将标准的transformer结构运用到图像识别任务上取得了很好的性能，并证明了在大量数据进行预训练后，再迁移到中小型数据集（ImageNet, CIFAR-100, VTAB等），ViT能够取得和最高水平卷积神经网络类似的结果，同时大幅减少训练中的计算资源消耗。
AI
9****m
0
104
0
多模态文生图算法：模型评价指标
生成模型在自然语言处理、图像生成等领域中得到了广泛应用。然而，由于其基于概率模型，难以保持客观性，因此需要使用一些技术来弥补不足。生成模型的评估是一个复杂的问题，需要综合考虑多个因素。虽然目前尚未就应使用哪些指标达成共识。Borji (2018)进行了广泛比较，下面是当前研究中最广泛使用的几种方法。
AI
9****m
0
1452
0
CLIP:一种基于对比学习的图像-文本多模态模型
CLIP是一种新的机器学习方法，它可以同时理解图像和文本。CLIP是用对比学习的方式来预训练一个能够同时处理图像和文本的模型。CLIP可以用自然语言来分类图像，用图像来生成文本描述，用文本来检索图像等等。CLIP只需要一个简单的线性分类器或者最近邻搜索就可以完成这些任务，不需要任何额外的训练或者微调。下面将介绍CLIP的方法，以及优势和局限性，并给出一些后续有意思的应用工作。
AI
9****m
0
2184
0

没有更多了

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云