行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

事件-最近,OpenAI发布了文生视频模型Sora,可以根据用户的指示生成一分钟的视频,并保持视觉质量;谷歌发布了Gemini 1.5 Pro大模型可以支持超长文本的上下文推理,具有优异的多模态性能,可以准确捕捉电影和视频的细节。我们认为在OpenAI、在谷歌的带领下,预计将开启多模态大模型的新一轮浪潮。

点评

1、OpenAI发布Sora文生视频模型,可生成最长一分钟的视频

2024年2月16日,北京时间,OpenAI发布了文生视频模型Sora,可根据用户的指示生成长达一分钟的视频,并保持视觉质量。Sora可以生成复杂的场景,包括多个角色、特定类型的动作和主体和背景的准确细节。在OpenAI官方网站上,可以看到许多由Sora模型生成的视频案例,如时尚女性在东京街头行走、猛犸象在雪原上行走、在艺术博物馆行走时欣赏艺术品等;

2、根据DALL-E和GPT模型的研究成果,Sora模型可以实现视频加工、拼接等功能

Sora模型除了基于文本生成视频的能力外,还可以接受其他输入,如预先存在的图像或视频。Sora可以执行创建循环视频、添加静态图像动画、向前或向后延伸视频、拼接两个视频等多种图像和视频编辑任务。

OpenAI官方技术文件指出,研究人员在文本条件下,探索了生成模型在视频数据上的大规模培训,并在时间、分辨率和宽度比可变的视频和图像上共同培训了扩散模型。与使用文本Token的大语言模型不同,Sora模型使用视觉补丁(Visual Patches)OpenAI证明了这种视觉补丁方法在视频/图像生成模型中非常有用。

3、谷歌发布Geminini 1.5 Pro大模型,优秀的长文本和多模态推理能力

2024年2月15日,谷歌发布了基于Moe架构的Geminini 1.5 大型Pro模型, 基于早期发布的Gemini 1.0 更新版Pro。大型模型处理530,000 当token文本处理时,可以实现100%的搜索完整性,在处理10000000000。 token的文本也可以达到99.7%的检索完整性。

在多模态能力方面,Gemini 1.5 Pro可以在11小时左右的音频数据和3小时左右的视频内容中成功检索到各种隐藏的音频片段或视觉元素。根据谷歌官网的信息,Gemini 1.5 Pro可以在402页或44分钟内实现阿波罗11号的飞行记录 准确推理无声电影内容。

4、看好2024年3D建模和视频领域的多模式大模型和大模型爆发

我们在2023年11月15日发布的《2024年度战略》中提出,国内外厂商有望在2024年发布更复杂的多模态大模型,实现文本、语音、图像、音视频等多模态数据的复杂处理和交互。我们认为,OpenAI发布Sora模型有望开启多模态大模型的新一轮浪潮。[浙商计算机]

标的

(1)大模型厂商:科大讯飞、云从科技、微软、谷歌;(2)多模态应用厂商:万兴科技、虹软科技、焦点科技Adobe;

相关阅读

本文OpenAI发布Sora模型有望开启多模态大模型的新一轮浪潮由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻