精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了快问ai

智源社区2年前 (2024)发布智源社区

959 0 0

丰色发自凹非寺
量子位 | 公众号 QbitAI

字节&复旦大学多模态理解大模型ima是什么软件来了：

可以精确定位到视频中特定事件的发生时间。

比如在下面这个视频中：做al视频怎么赚钱

狗子转身看镜头时的时间戳是多少？ai是什么东西?

什么时候用爪子推开滑板？快问ai

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

在这里，视频中的宝宝什么时候推起眼镜、舒展了一下身体？又是什么时候翻的书？al一键脱装入口

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

对于这样的问题，这个叫做LEGO的模型全都读得懂，并毫不犹豫给出正确答案。猫箱下载安装

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

看起来，有了这些研究成果，以后我们看视频查资料都要方便一大截咯？有戏ai

可精确识别局部信息的多模态LLM来了人工智能ai哪个好

LEGO全称是一个语言增强的多模态grounding模型。ai是什么东西?

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

它主要解决的是多模态LLM跨多种模态进行细粒度理解ai分析软件的能力，此前业内的成果主要强调全局信息。

为了实现该目标，作者主要先从数据集下手，打造了一套用于模型训练的多模式、多粒度问答形式数据集（即将开源）。

该数据集的构建涉及两个关键流程。免费的ai工具

一是数据集转换（Dataset Conversion）。

在这个阶段，作者的目的是构建用于模态对齐和细粒度对齐的基础多模态数据集。做al视频怎么赚钱

由于数据集质量相对较低，主要通过转换公开数据集获得。下载官方即梦a1

如下图上部分所示，他们向GPT-3.5提供任务描述以生成特定于任务的问题库，最终生成单轮对话格式的问答对。下载官方即梦a1

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

生成的数据集会进行过滤以确保其质量。元宝大模型

其中对于图像模态，作者利用LLaVA-pretrain595K数据集进行模态对齐，细粒度对齐则使用特定数据集如RefCOCO。百度ai智能云

视频模态用Valley-Pretrain-703K进行模态对齐，Charades-STA数据集用于细粒度对齐。猫箱下载安装

二是指令调整数据集生成（Instruction-tuning Dataset Generation）。

这个数据集的目的是让模型更好地理解和遵循人类指令。下载官方即梦a1

如上图下部分所示，作者也选择了公开可用的数据集（Flickr30K Entities、VCR、DiDeMo等）的子集进行人工注释，以创建上下文示例。它用于指导GPT-3.5在生成指令调整数据集时遵循类似的模式。

随后，特定任务的系统提示和随机选择的示例被输入到GPT-3.5中，以生成单轮或多轮对话。最后，进行数据过滤以确保数据集质量。免费的ai工具

下面是经过三阶段训练产生的最终数据样本示例：ai软件哪个比较好

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

下面是LEGO模型的架构：

每个模态的输入通过独立的编码器进行处理，提取特征，然后使用适配器将这些特征映射到LLM的嵌入空间。制作ai的软件

图中演示的是视频和图像模式的两个示例，蓝色方框表示视频作为输入，而黄色方框表示图像作为输入。即梦下载官方

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

由于其基于模块化设计和适配器的架构，LEGO可以无缝集成新的编码器，处理额外的模态，如点云和语音，主打一个好扩展。免费的ai工具

最后，LEGO使用Vicuna1.5-7B作为基础语言模型，训练由三个阶段完成：多模态预训练，细粒度对齐调整和跨模式指令调整。grok中文版下载

下面是实验评估：百度ai智能云

图像任务中，LEGO模型和其他模型在REC任务中的性能如下表所示，可以看到它在所有数据集上都表现出了比较有竞争力的性能。ai分析软件

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

视频任务中，由于LEGO侧重对于整个视频的理解，相比VideoLLaMA、VideoChat和Valley这三个模型，性能表现相当优异：元宝大模型

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

作者介绍百度流畅ai制作

本文一共12位作者。百度ai智能云

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

除了一作Zhaowei Li来自复旦大学，还有一位叫做的Dong Zhang的也来自这里。ima是什么软件

其余均为字节跳动员工，通讯作者为Tao Wang。ai是什么东西?

论文地址：
https://arxiv.org/abs/2401.06071

— 完有戏ai —

点这里?关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」即梦下载官方

科技前沿进展日日相见 ~ 做al视频怎么赚钱

# 智源社区猫箱下载安装 # 自然语言处理人工智能ai哪个好 # 大模型制作ai的软件 # 机器学习免费的ai工具 # 自然语言处理百度ai智能云

文章版权归作者所有，未经允许请勿转载。ai是什么东西?

CCKS2023-PromptCBLUE中文医疗大模型评测比赛开放报名啦！百度aiapp

智源社区做al视频怎么赚钱

1,189

Nat. Comput. Sci.｜KarmaDock:针对超大规模虚拟筛选的基于深度学习的分子对接方法猫箱下载安装

智源社区猫箱下载安装

908

爱可可AI前沿推介(7.6)即梦下载官方

智源社区grok中文版下载

1,254

The Shaped Transformer：无限深度和宽度限制下的注意力模型即梦al

智源社区制作ai的软件

1,004

编程教育中的生成式人工智能：ChatGPT、GPT-4和人类导师的基准测试百度流畅ai制作

智源社区制作ai的软件

996

ChatGPT机器人应用：设计原则和模型能力人工智能ai哪个好

智源社区做al视频怎么赚钱

891

暂无评论ai是什么东西?

暂无评论...ai分析软件

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了快问ai

丰色发自凹非寺
量子位 | 公众号 QbitAI

可精确识别局部信息的多模态LLM来了人工智能ai哪个好

更多能力展示即梦下载官方

作者介绍百度流畅ai制作

AI机器人席卷CES！OpenAI暗自解除ChatGPT军事应用限制，天网来了？有戏ai

新加坡国立大学提出Fus-MAE | 解决跨模态问题百度ai智能云

相关文章

暂无评论ai是什么东西?

相关文章

热门标签

热门网址

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了快问ai

丰色 发自 凹非寺量子位 | 公众号 QbitAI

可精确识别局部信息的多模态LLM来了人工智能ai哪个好

更多能力展示即梦下载官方

作者介绍百度流畅ai制作

AI机器人席卷CES！OpenAI暗自解除ChatGPT军事应用限制，天网来了？有戏ai

新加坡国立大学提出Fus-MAE | 解决跨模态问题百度ai智能云

相关文章

暂无评论ai是什么东西?

相关文章

热门标签

热门网址

丰色发自凹非寺
量子位 | 公众号 QbitAI