行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /
在人工智能领域取得了新的进展。

可以理解视频内容

MiniGPT4-Video发布

人工智能领域取得了新的进展。随着MiniGPT4-Video的出现,视频理解问题取得了显著突破。

据报道,4月4日,KAUST和哈佛大学研究团队发表的论文提出了MiniGPT4-Video框架——专门为视频理解设计的多模态大模型。该模型可以处理时间视觉和文本数据,使其能够熟练理解视频的复杂性。MiniGPT4-video不仅考虑视觉内容,还集成了文本对话,允许模型有效地回答涉及视觉和文本组件的查询。

例如,MiniGPT4-Video可以为宣传视频提供标题和口号;你也可以理解视频的处理过程。MiniGPT4-Video甚至可以根据视频内容进行诗歌创作和内容解释。这意味着MiniGPT4-Video在处理复杂的视频内容时表现出色,并提供高质量的输出。

据报道,在MSVD中,该模型优于现有最先进的方法、MSRVTT、TGIF和TVQA基准分别提高了4.22%、1.13%、20.82%和13.1%,模型和代码已经公开。但目前的缺点是上下文窗口的限制。下一步,团队将研究模型的能力扩展到处理更长视频的能力。

多模态概念股出炉

人工智能视频已成为多模态LLM发展的总体趋势。总的来说,MiniGPT4-Video的出现是人工智能在视频理解领域的一大步。随着未来研究的深入,一些研究人员认为,MiniGPT4-Video将在多模态人工智能领域发挥更重要的作用。

据《证券时报》·数据宝不完全统计,a股市场共有13只多模式大型概念股。从净利润变化来看,2023年大华股份和万兴科技净利润同比翻倍,增长率为217.1%、112.1%。还有拓息、佳都科技、北信源等。

最近,大华股份在互动平台上表示,公司在通信能力方面,围绕网络连接技术、数据交换技术和前沿网络技术三个方面,建立了集成连接能力系统。通信和连接技术的持续进步有助于支持物联网向视觉网络的升级。公司发布了星汉大模型,整合了图像、点云、文本、语音等多模态数据,实现了准确性和泛化性的飞跃,大大提高了视觉分析能力。

万兴科技的“天幕”大模型以音视频生成人工智能技术为基础,由视频、音频、图片、语言大模型组成,涵盖近100个音视频原子能力,如文生视频、文生3D视频、视频人工智能配乐、数字人广播等,同时支持全球不同语言。相关能力已在世界各地发挥作用 Filmora、Wondershare Virbo等海外产品大规模商用。数据宝

MiniGPT4

相关阅读

本文MiniGPT4由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻