事件-最近,OpenAI发布了文生视频模型Sora,可以根据用户的指示生成一分钟的视频,并保持视觉质量;谷歌发布了Gemini 1.5 Pro大模型可以支持超长文本的上下文推理,具有优异的多模态性能,可以准确捕捉电影和视频的细节。我们认为在OpenAI、在谷歌的带领下,预计将开启多模态大模型的新一轮浪潮。
点评
1、OpenAI发布Sora文生视频模型,可生成最长一分钟的视频
2024年2月16日,北京时间,OpenAI发布了文生视频模型Sora,可根据用户的指示生成长达一分钟的视频,并保持视觉质量。Sora可以生成复杂的场景,包括多个角色、特定类型的动作和主体和背景的准确细节。在OpenAI官方网站上,可以看到许多由Sora模型生成的视频案例,如时尚女性在东京街头行走、猛犸象在雪原上行走、在艺术博物馆行走时欣赏艺术品等;
2、根据DALL-E和GPT模型的研究成果,Sora模型可以实现视频加工、拼接等功能
Sora模型除了基于文本生成视频的能力外,还可以接受其他输入,如预先存在的图像或视频。Sora可以执行创建循环视频、添加静态图像动画、向前或向后延伸视频、拼接两个视频等多种图像和视频编辑任务。
OpenAI官方技术文件指出,研究人员在文本条件下,探索了生成模型在视频数据上的大规模培训,并在时间、分辨率和宽度比可变的视频和图像上共同培训了扩散模型。与使用文本Token的大语言模型不同,Sora模型使用视觉补丁(Visual Patches)OpenAI证明了这种视觉补丁方法在视频/图像生成模型中非常有用。
3、谷歌发布Geminini 1.5 Pro大模型,优秀的长文本和多模态推理能力
2024年2月15日,谷歌发布了基于Moe架构的Geminini 1.5 大型Pro模型, 基于早期发布的Gemini 1.0 更新版Pro。大型模型处理530,000 当token文本处理时,可以实现100%的搜索完整性,在处理10000000000。 token的文本也可以达到99.7%的检索完整性。
在多模态能力方面,Gemini 1.5 Pro可以在11小时左右的音频数据和3小时左右的视频内容中成功检索到各种隐藏的音频片段或视觉元素。根据谷歌官网的信息,Gemini 1.5 Pro可以在402页或44分钟内实现阿波罗11号的飞行记录 准确推理无声电影内容。
4、看好2024年3D建模和视频领域的多模式大模型和大模型爆发
我们在2023年11月15日发布的《2024年度战略》中提出,国内外厂商有望在2024年发布更复杂的多模态大模型,实现文本、语音、图像、音视频等多模态数据的复杂处理和交互。我们认为,OpenAI发布Sora模型有望开启多模态大模型的新一轮浪潮。[浙商计算机]
标的
(1)大模型厂商:科大讯飞、云从科技、微软、谷歌;(2)多模态应用厂商:万兴科技、虹软科技、焦点科技Adobe;10月10日,上交所再次举行券商座谈会,现场宣讲并购重组最新政策精神,并就进一步活跃并购重组市场、打通政策落地“最后一公里”听取意见建议。中信证券、中金公司、中信建投、华泰联合、国泰君安、国信证券、东方证券、广...
来源:券商中国作者:时谦今天早盘,A股市场波动较大,但经过一段下挫之后,很快就被多头拉起。而从盘面来看,以代码601开头的大盘蓝筹股(亦是高股息板块)今天表现非常突发,红利ETF大多涨幅在4%左右水平。那么,究竟又是何逻辑呢?分析...
中字头及红利资产全天保持强势,沪深两市交易量连续第4日突破2万亿元!市场对后续政策的期待仍在升温。今日(10月10日),A股三大股指走势分化,截至收盘,上证指数涨1.32%,深证成指跌0.82%,创业板指跌2.95%。全市场个股涨多跌少,超30...
要点1通化东宝控股股东所持股份质押率高遭质疑,公司董事长李佳鸿称,系东宝集团投资项目周期长造成;要点2业绩方面,李佳鸿预计称下半年公司营收将逐季恢复;要点3公司还对新产品销售情况做了介绍。财联社10月10日讯(记者 何凡...
要点1海外市场需求持续旺盛,赛轮轮胎预计公司前三季度业绩同比增约六成;要点2天然橡胶、炭黑、合成橡胶等生产原材料均有涨价,为应对成本压力,多家轮胎公司宣布产品涨价。财联社10月10日讯(记者 肖良华)海外市场需求持续旺...
本文“OpenAI发布Sora模型有望开启多模态大模型的新一轮浪潮”由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们!