近日,OpenAI文生视频模型Sora刷屏。
2月16日,OpenAI在其官方网站上发布了文生视频模型Sora。据报道,该模型可以生成长达一分钟的视频,同时保持视觉质量,并遵循用户提示。
作为OpenAI推出的第一个文本转视频模型,索拉的出现宣告了新一轮科技革命的到来。索拉惊人的爆炸效应影响了当前的人工智能行业。索拉诞生后会带来什么样的变化?哪些上市公司将从资本市场受益?
作为OpenAI的第一个文本转换视频模型,Sora可以严格根据用户输入的提示、文本指令或静态图像生成1分钟的视频,保持高视觉质量,包括精致复杂的场景、生动的角色表达和复杂的镜头运动。它还接受现有的视频扩展或填写缺失的帧。
OpenAI表示,Sora可以生成复杂的场景,不仅包括多个角色,还包括特定的动作类型和对象和背景的准确细节。此外,Sora还可以将静态图像制作成动画。文本指令和静态图像可以生成准确反映用户提示的视频。
国泰君安研究报告指出,Sora有三个亮点。首先,它有一个60秒长的视频。Sora可以保持视频主体和背景的高度流畅性和稳定性。二是单视频多角度镜头,Sora在视频中实现多角度镜头,分镜切换合乎逻辑,非常流畅。三是了解现实世界的能力。Sora处理了光影反射、运动模式、镜头移动等细节,大大提高了现实感。
Sora每个提示60秒的视频长度远远高于Pika,与目前AI视频轨道同行相比,Sora每个提示60秒的视频长度 Labs的3秒,Meta Emu Video的4秒和RunwayGen-2的18秒视频时长。
此外,从官方演示来看,Sora的效果在视频流畅性和细节表达能力方面都相当惊人。
然而,Sora仍在开发中,OpenAI承认该模型可能会混淆提示的空间细节,如混淆,很难准确描述随着时间的推移而发生的事件,如遵循特定的相机轨迹。与此同时,OpenAI还表示,可扩展的视频生成模型是构建物理世界通用模拟器的可能途径。
Sora的推出意味着人工智能视频生成能力实现了跨越式发展。该模型可以深入模拟真实的物理世界,标志着人工智能在理解真实世界场景和与之互动的能力方面取得了重大飞跃。
应用前景广阔
近年来,OpenAI引领人工智能轨道。2021年初和2022年底,OpenAI分别推出了图像生成系统DALLE和聊天机器人ChatGPT。这也使得人工智能逐渐成为各行各业的辅助工具,并逐渐改变人们对未来工作的看法。
如今,Sora模型可以生成一分钟的高保真视频。视频格式可以是1920*1080视频、1080*1920视频和所有内容。这使得Sora能够兼容不同的视频播放设备,并根据特定的垂直和水平比生成视频内容,这也将极大地影响视频创作领域,包括电影制作、电视内容、“我们媒体”等。
国盛证券认为,文生视频大模型Sora诞生,能够理解和呈现物理定律,影视动画产业的颠覆性时刻即将到来。
据报道,Sora是基于过去对DALLE和GPT的研究基础,利用DALL·E 重述提示词技术为视觉模型训练数据生成高度描述性的标记,因此模型可以更好地遵循文本指令。
360集团创始人周鸿祎表示,Sora的技术思路完全不同。以前,我们用Diffusion制作视频和图片,这是许多真实图片的组合。这一次,OpenAI利用其大语言模型的优势,将LLM和Diffusion结合起来进行训练,使Sora实现了理解现实世界和模拟世界的两层能力。这样,视频就是真实的,我们可以跳出2D范围来模拟真实的物理世界。
“这都是大模型的功劳。OpenAI培训模型应该阅读大量视频。一张图比千言万语好,视频传递的信息量远远超过一张图,离AGI(通用人工智能)不远。这不是10年或20年的问题,可能很快就能在一两年内实现。”周鸿祎说。
周鸿祎表示,这也代表了未来的方向。以强大的大模型为基础,基于对人类语言、人类知识和世界模型的理解,加上许多其他技术,可以在生物医学、蛋白质和基因研究等各个领域创造超级工具,包括物理、化学、数学研究,大模型将发挥作用。Sora对物理世界的模拟至少会对机器人的智能和自动驾驶产生很大的影响。
国盛证券也持同样的观点。他认为文生视频大模型Sora诞生了,能够理解和呈现物理定律,影视动画产业的颠覆性时刻即将到来。
工业和信息化部信息通信经济专家委员会委员、数字经济专家刘兴亮表示,这标志着人工智能技术在内容创作领域的新时代。
“Sora可以生成一分钟左右的1080P高清视频,涵盖多个角色、不同类型的动作和背景细节,几乎达到了电影级别的逼真场景。这种能力不仅为内容创作者提供了前所未有的工具,使他们能够以更低的成本和更快的速度将创造力转化为现实,而且还为观众带来了更丰富和多样化的视觉体验。技术创新的巨大飞跃表明,人工智能将在未来人类生活的各个方面发挥更重要的作用。刘兴亮说。
对基础设施的需求旺盛
根据市场观点,2022年是影像年,2023年是声波年,2024年是视频年。
OpenAI表示,Sora是构建世界模型的基础,未来将继续实现AGI。
对Sora的发展有强烈的计算能力需求。国泰君安指出,Sora模型将促进人工智能多模态领域的飞跃发展,人工智能创建等相关领域将迎来深刻的变化,人工智能授权范围将进一步扩大,多模态相关的培训和推理应用将进一步增加对计算能力基础设施的相关需求。
巧合的是,国盛证券也持同样的观点,认为Sora仍然符合人工智能缩尺的规律(Scaling Law)OpenAI在技术文件中表示,随着训练计算量的增加,样本质量显著提高,进一步证明了计算能力需求将成为多模态时代的核心瓶颈之一。
多模态大模型带动全球计算能力需求快速增长,国内人工智能计算能力迎来机遇。据南方财富网趋势选股系统统统计,目前国内AI计算能力相关上市企业52家,如国内AI计算能力产业链包括AI服务器零部件、服务器整机、计算能力租赁、数据中心等。人工智能服务器零部件公司主要包括海光信息、寒武纪、龙芯中科、景嘉微等;服务器公司主要包括高科技发展、中国数字、扩张、广播电视运输、灯塔通信、同一股份等;计算能力租赁公司主要包括恒润、云赛智联、宏博等;数据中心公司主要包括奥飞数据、光环新网络、宝信软件、数据港等。
此外,许多巨头计划布局人工智能基础设施。例如,万兴科技,主要从事视频创意和绘图创意软件产品,最近在互动平台上表示,公司视频创意产品万兴喵/Filmora可用于各种视频的创作和编辑。“天幕”大模型是以视频创意人工智能技术为核心的多媒体大模型,涵盖音频、图像、视频等多模式能力。
昆仑万维旗下的Starar Group和Opera都有制作短视频的土壤,其中Opera在海外推出了短视频功能。此外,在腾讯优图实验室和厦门大学开展的多模态大语言模型评价中,昆仑万维天宫大模型综合得分排名第一。
当红科技是一家专业的智能视频解决方案和视频云服务提供商,拥有自主研发的AIGC工具集,并于去年上半年发布了一个以静态照片生成三维视频的解决方案。
当红科技1月5日互动平台表示,公司拥有自主开发的AIGC工具集,发布了静态照片生成三维视频的方案,通过点云模型转换和压缩算法实现视觉无损压缩高达800倍,实现不同模式之间的相互切换。
因为赛集团的InsightGPT目前可以生成20秒以上的视频,可以结合图像、大视频模型、抠图等算法,再结合音频模型,最终在整体渲染后合成完整的视频。
据不完全统计,近三个月来,万兴科技、博汇科技、易点世界、数字视频、汉王科技、当虹科技、东方国信、神思电子等10多家a股上市公司在互动平台上披露了视频生成模型领域的业务情况,因赛集团、拓尔思、国脉文化、佳都科技等。思考金融
10月10日,上交所再次举行券商座谈会,现场宣讲并购重组最新政策精神,并就进一步活跃并购重组市场、打通政策落地“最后一公里”听取意见建议。中信证券、中金公司、中信建投、华泰联合、国泰君安、国信证券、东方证券、广...
来源:券商中国作者:时谦今天早盘,A股市场波动较大,但经过一段下挫之后,很快就被多头拉起。而从盘面来看,以代码601开头的大盘蓝筹股(亦是高股息板块)今天表现非常突发,红利ETF大多涨幅在4%左右水平。那么,究竟又是何逻辑呢?分析...
中字头及红利资产全天保持强势,沪深两市交易量连续第4日突破2万亿元!市场对后续政策的期待仍在升温。今日(10月10日),A股三大股指走势分化,截至收盘,上证指数涨1.32%,深证成指跌0.82%,创业板指跌2.95%。全市场个股涨多跌少,超30...
要点1通化东宝控股股东所持股份质押率高遭质疑,公司董事长李佳鸿称,系东宝集团投资项目周期长造成;要点2业绩方面,李佳鸿预计称下半年公司营收将逐季恢复;要点3公司还对新产品销售情况做了介绍。财联社10月10日讯(记者 何凡...
要点1海外市场需求持续旺盛,赛轮轮胎预计公司前三季度业绩同比增约六成;要点2天然橡胶、炭黑、合成橡胶等生产原材料均有涨价,为应对成本压力,多家轮胎公司宣布产品涨价。财联社10月10日讯(记者 肖良华)海外市场需求持续旺...
本文“OpenAI发布文生视频模型Sora”由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们!