注册
账号登录
账号注册
忘记密码

“精彩大戏”拉开帷幕:谷歌推出一系列AI产品追击OpenAI

来源:蓝鲸新闻
作者:朱俊熹
发布时间:2024-05-15
摘要:分析师表示,通过展示其最新模型及如何为现有产品提供强大的消费者影响力,谷歌正在表现如何有效地将自己与竞争对手区分开来。

本周的AI竞赛注定是一场不容错过的精彩大戏。

赶在竞争对手谷歌之前,OpenAI周二发布了更快、更类似人类的ChatGPT-4o大模型,让无数人感叹是否科幻电影中的情节已渐行渐近。但谷歌也不甘落后,在北京时间周三凌晨举办的年度开发者I/O大会上推出了一系列AI产品。

从新的AI搜索功能、人工智能体到文生视频模型,谷歌的加入让新一轮AI竞争进一步白热化。

谷歌I/O大会每年5月都在其总部所在地举行,旨在介绍最新的产品和技术。AI毫无疑问是这届活动的关键词。在谷歌首席执行官Sundar Pichai的演讲过程中,“人工智能”一词就被提及了121次,这一数字是由谷歌的AI大模型Gemini统计得到的。

市场研究机构eMarketer的分析师Jacob Bourne表示,“通过展示其最新模型及如何为现有产品提供强大的消费者影响力,谷歌正在表现如何有效地将自己与竞争对手区分开来。为了保持竞争优势并让投资者满意,谷歌需要专注于将AI创新成果大规模转化为可盈利的产品和服务。”

图片来源:谷歌

具备AI功能的谷歌搜索

首先,与其等待被别人革命,谷歌这次想要自己先发动对自己的革命。

比起OpenAI前段时间一连串关于AI搜索页面的烟雾弹,谷歌这次真的将AI融入了其核心产品搜索引擎中。

在搜索页面中,谷歌向用户展示了由AI生成的答案,将其称之为“AI概述”。这是在Gemini模型驱动下得到的摘要,会与传统的基于链接的搜索结果一起出现。

据谷歌介绍,AI概述是为了响应较复杂的搜索,帮助用户寻求解决方案。例如当人们搜索素食准备或出行计划时,AI提供的答案会出现在搜索页面顶部,包括摘要及可以了解更多信息的链接。用户还可以调整AI概述的详细程度,使其更为简洁或细致。

谷歌还提升了搜索的视觉功能,支持通过视频提出问题。在I/O大会上,谷歌演示了当面对一台唱头滑落、无法正常使用的唱片机时,只需将手机镜头对准它,就能通过新搜索得到包括修理步骤和资源在内的AI概述。

谷歌搜索负责人Liz Reid表示,“我们从生成式AI中看到的是,谷歌可以为你做更多的搜索工作。它可以为你分担搜索过程中的大量繁重工作,这样你就可以专注于你想做的事情,或者是你觉得令人兴奋的探索部分。”

升级后的搜索计划于当地时间周二在美国上线,之后再扩展至其他市场。Liz Reid称,预计到今年年底,AI概述将面向超过十亿人。

谷歌是全球搜索引擎的霸主,长期占据90%以上的市场份额,但近年来面临着ChatGPT等AI产品的威胁。多家媒体此前报道称,OpenAI计划发布一款搜索产品,与谷歌展开正面竞争。但OpenAI首席执行官Sam Altman否认了将于这周发布搜索引擎的说法,并推出了GPT-4o。而AI搜索初创公司Perplexity在新一轮融资中筹集到6300万美元,推动公司估值超过10亿美元,在三个月内翻了一倍。

但谷歌的搜索基础仍不容小觑。在I/O大会上,该公司表示谷歌在过去二十年里一直是搜索的代名词,而现在借助AI模型Gemini的技术,谷歌搜索将变得更加强大。

具备视觉记忆的人工智能体

像是在回击OpenAI发布的结合文本、视觉和音频模式的GPT-4o,谷歌还预览了仍在开发中的AI助手Project Astra,称其是具有“高级视觉和说话响应的智能体”。

在视频演示中,Project Astra可以与谷歌员工进行语音交互,通过手机摄像头识别为止,并理解计算机代码。令关注者感到惊奇的是,该项目还具备视觉记忆。在带着Project Astra在房间里绕了一圈后,当用户提出“我把眼镜放在哪了”的时候,尽管之前没有被询问到这一问题,智能体还是能够回答出眼镜的位置。

谷歌DeepMind部门的首席执行官Demis Hassabis表示,他们一直希望能够开发对日常生活有帮助的通用人工智能体。为了真正发挥作用,智能体需要像人类一样理解和响应复杂且动态的世界,可以与用户自然地交谈,没有滞后或延迟。但将响应时间缩短为对话式的内容是一项艰巨的挑战。

而在前一天推出GPT-4o时,OpenAI介绍该模型响应音频输入的平均时间在320毫米,最短可达232毫秒,这与人类在谈话中的响应时间相似。用户能够与ChatGPT进行更像真人的实时对话。尽管在演示过程中,ChatGPT回复的音频会不时出现卡顿。

谷歌的Gemini模型也迎来了一系列更新。2月份公布的Gemini 1.5 Pro得到了升级,新版本的上下文长度由100万Tokens扩大到200万,能够处理更多数据。谷歌介绍称,这相当于能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词,处理量远超其他竞争对手。

此外,谷歌还推出了新的Gemini 1.5 Flash模型,称这是目前通过其API提供的最快的AI模型。Gemini 1.5 Flash专为较小的任务设计,例如快速总结对话、为图像或视频添加字幕或从文档中提取数据。

谷歌提出,Gemini最终会取代Android手机上的Google Assistant。这或许会在之后与苹果的AI助理Siri形成竞争。

但目前各大巨头的AI博弈格局仍未清晰。

苹果此前被传可能把谷歌的Gemini引入即将推出的iPhone操作系统iOS18中。但据彭博社报道,苹果已接近与OpenAI达成协议,正在敲定在iOS18中应用ChatGPT功能的具体条款。

狙击Sora的文生视频模型

OpenAI在今年2月发布文生视频模型Sora,引发市场轰动。三个月后,谷歌终于发布类似的模型Veo以正面迎战。

据谷歌介绍,Veo能够根据文本提示,创建超过一分钟、分辨率最高达1080P的高质量视频。而Sora能支持生成的视频时长为一分钟。

目前仅有一些创作者能够预览Veo。谷歌计划之后将Veo的部分功能引入到旗下的视频平台YouTube Shorts和其他产品中。

OpenAI目前仍未向公众开放Sora的使用权限,只有部分专业用户能够使用。而据媒体此前报道,一些尝试着使用Sora制作视频的团队反馈称,AI从文本一键生成理想中的视频依然只是美好的想象。在分镜、调色、特效等制作过程中,团队需要大量的人工来指导AI。

文生视频大模型这一赛道的热度还在不断攀升。4月底,生数科技联合清华大学发布了国内首个长时长文生视频大模型Vidu。生数科技首席科学家朱军介绍称,Vidu可以一次性生成16秒的视频,目前国内已有视频大模型的生成视频大多在4秒左右。在视频呈现效果上不输Sora,且更能理解中国元素。

相比起OpenAI和微软,谷歌虽然目前在AI竞赛上慢了一步,且策略相对保守,但谷歌在训练数据量方面仍有深厚积累,这或许会使谷歌有追上的机会。

I/O大会当天,谷歌收报170.34美元/股,较前一日上涨0.71%。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;

2.本站的原创文章,欢迎转载,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;

3.作者投稿可能会经我们编辑修改或补充。

  • 相关推荐
  • 1
    热度不再,“24特国02”上市首日平淡收盘,收益率为2.452%
  • 2
    字节再试AI硬件:用收购补充团队、两条产品线共发力
  • 3
    随着英伟达股价飙升 对冲基金对科技巨头的风险敞口升至纪录高位
  • 4
    工信部:1-4月份集成电路产量1354亿块 同比增长37.2%
  • 5
    乘联会:5月1-26日乘用车市场零售120.8万辆 同比下降6%
  • 6
    乘联会:5月1-26日新能源车市场零售57.4万辆 同比去年增长27%
  • 7
    首场私募运作指引解读培训,有参会机构人士:有很大帮助
  • 8
    住建部:将采取三项举措加强建筑施工特种作业操作资格证书监管
  • 9
    马斯克的脑机接口公司要再招3名患者,启动全新植入物研究
  • 10
    亚洲首艘圆筒型“海上油气加工厂”运抵作业海域
  • 11
    长三角去年GDP首次突破30万亿
  • 12
    短票利率持续下行,月末票据供求势头摇摆不定
  • 13
    生态环境部:我国初步建立生态保护修复监管体系
  • 14
    财政部今年将在香港发行550亿元人民币国债
  • 15
    6月将发行4只超长特别国债 但基本不存在资金缺口
查看更多动态