行情频道: 行情 / 知识 / 新股 / 要闻 / 基金 /

谷歌首席执行官桑达尔,北京时间12月7日凌晨・皮查伊和Deepmind 首席执行官戴密斯·哈萨比斯在谷歌官方网站上联合发布了一份文件,正式宣布了最新的多模式大模型Gemini 1.0(双子星)版正式上线。上线时间早于明年1月的外界猜测,保密性很高,只有少数媒体提前猜测。

Gemini在MMLU基准测试中超越人类专家

Gemini 1.0是谷歌准备了一年GPT4的真正竞争产品,也是谷歌最强大、最灵活的适应模型,包括三个不同的套件,即Gemini Ultra, Gemini Pro和Gemini Nano。其中,Ultra具有最强的能力和最高的复杂性,可以处理最困难的多模态任务;Pro能力稍弱,是一个可以扩展到多任务的模型;Nano是一个可以在移动终端侧运行的模型。这说明Gemini的触摸范围很广,可以下探到数据中心或移动设备端侧。

“Gemini在MMLU基准测试中超越了人类专家。”

虽然有了AlphaGo的经验,我们认为AI在某些领域超越人类并不新鲜。但今天与过去不同,ChatGPT带来的AGI、在强人工智能的“威慑”下,任何被称为超越人类的人工智能,或多或少都会引人注目。

大型语言模型(LLM)主流评估数据集包括:GLUE、SuperGLUE、SQuAD、CommonsenseQA、CoQA、LAMBADA等。通常用于评估模型在语言理解、推理、阅读理解和常识推理方面的能力。

MMLU(大规模多任务语言理解)是数学、物理、历史、法律、医学、伦理等57个科目的测试集。与其他测试集相比,MMLU具有更强的普遍性和深度。它测试了人工智能模型在理解自然语言方面的能力,特别是在复杂多变的现实世界场景中。这使得MMLU成为一个具有挑战性的评估框架,可以全面评估和促进大型语言模型的发展。

可以看出,对大规模多任务语言的理解(MMLU)测试中,Gemini Ultra得分率为90.0%,高于GPT-4,成为第一个超越人类专家表现的模型。MMLU 测试涵盖57门学科,包括数学、物理、历史、法律、医学和伦理,旨在评估模型在全球知识领域的理解和解决问题的能力。

其实Gemini的LLM表现并不是他最大的亮点。Gemini真正值得注意的差异化能力是“原生多模态”。

在多模态能力方面,Gemini Ultra在新的MMMU基准测试中获得了59.4%的SOTA分数,超过了OpenAIGPT-4V多模式版本的56.8%。这种基准测试跨越了许多不同的领域,需要精确推理各种任务。

在图像基准测试中,即使不使用对象字符识别(OCR)仅通过分析像素信息,系统辅助,Gemini Ultra的性能仍然超过了以前的所有模型。在音频测试方面,Gemini的自动语音识别和自动语音翻译分数高于Whisper系统,Whisper系统接入GPT-4。

Gemini最初是以原生多模态的方式设计的,从一开始就用于不同的模态 Google 设计的 TPUs v4 和 v5e芯片接受预训练。然后用更多额外的多模态数据不断微调,提高效率。这种方法使Gemini在最初阶段更自然地理解和推理各种类型的输入内容,在几乎所有领域都达到了前所未有的先进水平。

Gemini的发布被谷歌视为十年来最关键的技术创新。它能让谷歌重组,击败OpenAI,重新登上大模型赛场的王位吗?这也给了我们中国人工智能公司一个新的灵感。“本地多模式”可能成为我们中国人工智能大模型公司突破的新途径!

以下a股大模态概念股梳理:

大华股份:根据2023年12月5日的机构调查,公司发布了多模态集成行业视觉大模型——大华星汉大模型,通过集成图像、点云、文本、语音等多模态数据,大大提高了视觉分析能力。

亿佳和:根据12月7日投资者关系活动记录,公司发布了基于多模态超融合技术的大型YJH模型-LM,目前,功能测试已在公司商用清洁机器人上完成

汤姆猫:根据2023年11月22日投资者关系活动记录表,公司国内R&D团队与西湖新辰合作的多模式人工智能汤姆猫产品初步实现了拍照、英语口语启蒙、兴趣引导、科普教育、人工智能图片、人工智能图画书、情境对话等多种功能。近日,公司与西湖新辰团队合作,在多模式、降低推理成本、对话时间等方面取得了很大进展。

新华网:根据2023年11月21日公告,公司测试发布了AIGC-Safe(生成人工智能内容安全与模型安全检测平台),有利于加强对AIGC多模态深度内容的检测和预防,支持文本、图片、音频、视频等多模态AI 检测内容的生成或伪造,覆盖主流 AI 生成算法,是新华网AIGC安全治理的重要探索。

数字政治:根据2023年11月16日公告,“人”行业模式可以帮助公司政府客户提高城市管理和运营效率,实现城市治理、公共安全等关键基础设施的准确监控和管理,通过语音、视觉等模式自动检测、语义分析能力,准确感知城市事件,快速、准确的根分析,实现城市全球事件的快速发现和高效处置。

云从科技:根据2023年11月15日发布的投资者关系活动记录表,云从自主开发All-In-OneTr ansformer多模态基础大模型框架,实现视觉-语言-语音语义对齐,打造语言大模型、视觉大模型、语音大模型等特殊领域的大模型和行业大模型;其次,云在多模态人机交互中,自主研究人机协同操作系统(CWOS)具有语言、语音、视觉、3D空间等智能多模态交互能力的智能交互助手。

昆仑万伟:根据2023年10月31日投资者关系活动记录表,公司天宫大模型保持高频迭代,取得重大突破。“天宫”的逻辑推理能力、文本理解能力和多模态能力在许多世界知名评估中表现突出。

因赛集团:根据2023年半年度报告,公司实现文本、图片、视频等形式的智能内容生成,并应用于智能规划、文案、平面设计、视频制作等具体业务场景。

博辉科技:根据2023年11月23日互动,公司应用多模式人工智能识别引擎,创建新媒体综合广播控制平台内容人工智能审计方案,提高新媒体综合广播控制平台视频内容审计能力,优化内容质量,拒绝不良内容传播,净化视频内容,保持新媒体发展的最佳实践,从人工到智能。

苏州科达:KD-GPT大模型于2023年7月正式推出,包括多模态大模型、AIGC图像大模型和行业大模型。

力盛体育:通过体育行业人工智能多模态模型研发和标准体育模型库,实现基本体育数据的人工智能 识别与分析,为用户提供健身教练、心理护送、生活助手等服务。本文选自网络,不构成投资建议。

相关阅读

本文Gemini在MMLU基准测试中超越人类专家由壹米财经整理发布,欢迎转载收藏,转载请带上本文链接。
免责声明:【壹米财经】发布的所有信息,并不代表本站赞同其观点和对其真实性负责,投资者据此操作,风险请自担。部分内容文章及图片来自互联网或自媒体,版权归属于原作者,不保证该信息(包括但不限 于文字、图片、图表及数据)的准确性、真实性、完整性、有效性、及时性、原创性等,如有问题,请联系我们! 分享到: 新浪微博 微信

扫描左侧二维码
看手机移动端,随时随地看 股票 新闻