自助文字广告位,限时特惠!
立即入驻

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

新闻资讯4个月前更新 XiaoWen
3,380 00

大会开场:AI 成核心主题

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾
2024 年,在科技行业蓬勃发展且竞争日益激烈的大背景下,谷歌搜索中心大会苏黎世大会盛大召开。此次大会备受瞩目,最为关键的是,它将焦点全然聚焦在了人工智能(AI)这一前沿领域,AI 当之无愧地成为了核心主题。
如今,AI 技术正以前所未有的态势改变着各行各业,众多科技巨头都在这一赛道上你追我赶。谷歌举办此次大会,旨在通过全方位展示其在 AI 领域斩获的新成果,彰显自身强大的技术实力,进而更好地应对来自行业内其他对手的竞争压力,稳固自身在全球科技领域中的地位,同时也为全球的开发者、从业者以及科技爱好者们,搭建一个了解前沿 AI 技术、共探未来发展方向的优质平台。

重磅发布:Gemini 系列新进展

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

Gemini 1.5 Pro 进阶亮点

在 2024 年谷歌搜索中心大会苏黎世大会上,Gemini 1.5 Pro 进阶版展现出了令人瞩目的新特性。其最大支持上下文窗口从 100 万 Tokens 升级到了 200 万,这一升级意义重大,意味着它现在可以分析比以前更长的文档、代码库、视频和音频录音。例如,它能够同时处理 2 小时的视频、22 小时的音频、6 万多行代码或 140 多万字,也可以处理多个大型文档,总页数可达 1500 页,或是汇总 100 封电子邮件等。
并且,Gemini 1.5 Pro 支持的语言种类达到了 35 种,能在全球 150 多个国家更好地发挥作用,助力不同语言背景的开发者、使用者去处理各类文本相关任务。
在处理复杂指示方面,通过改进数据和算法,该模型增强了代码生成、逻辑推理和规划、多轮对话以及音频和图像理解等能力,从而能够遵循越来越复杂和细微的指示,包括指定产品级行为的指示,如角色、格式和风格等,使其在多领域应用上得到了极大拓展,无论是在搜索引擎的优化、智能问答系统的搭建,还是文本生成等场景中,都有了更出色的表现。

Gemini 1.5 Flash 特色优势

Gemini 1.5 Flash 轻量化模型同样是此次大会的一大亮点。它基于 “蒸馏” 技术,满足了用户对低延迟和低成本的需求,专为大规模服务设计,速度更快,成本更是低至 0.35 美元 / 百万 Tokens,与 Gemini 1.5 Pro 的收费(7 美元 / 百万 Tokens)相比,成本优势明显。
尽管 Gemini 1.5 Flash 体积小巧,但依然实现了 100 万个标记的长上下文窗口,开发人员还能注册尝试 200 万个标记。它具备强大的多模态推理能力,能有效执行多种需要快速处理的任务,像摘要制作、聊天应用、生成图说与影片字幕、从长篇文件与表格中撷取资讯等。比如在聊天应用场景中,能够快速响应,为用户提供流畅的交互体验;在处理长文档摘要任务时,也可以迅速提炼关键信息,输出高质量的摘要内容,为使用者节省大量时间和精力,使其在实际应用中展现出独特的优势。

AI 生成工具:多领域大放异彩

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

Imagen 3 文生图新突破

在 2024 年谷歌搜索中心大会苏黎世大会上,谷歌推出的 Imagen 3 在图像生成技术能力方面有了显著提升。相较于前代 Imagen 2,它能更精准地理解文字提示信息,并将其转化为图像,在细节清晰度、光照效果以及降低人工痕迹等方面表现卓越。而且其生成的图像更具 “创造性和细节”,模型产生的干扰元素和错误也更少,例如在处理复杂的场景描述时,能够呈现出更符合提示要求且栩栩如生的画面。
同时,Imagen 3 在将文字提示转化为图像的能力上实现了重大突破,在谷歌的评估中,它在多个方面超越了市场上如 DALL-E 3、Midjourney v6 等顶级模型,特别是在文本描述与图像匹配的精确度以及处理复杂提示的能力上,展现出了非凡的性能。
为了打消人们对 Deepfake(深度伪造技术)可能性的担忧,谷歌还表示,Imagen 3 将使用 DeepMind 开发的 SynthID 方法,在媒体上应用隐形加密水印,保障图像的安全性与真实性。
目前,用户可以在谷歌的 ImageFX 工具中注册 Imagen 3 的私人预览版,而谷歌计划不久后向使用其企业级生成式 AI 开发平台 Vertex AI 的开发者与企业客户提供 Imagen 3 模型,进一步扩大其应用范围,让更多开发人员和企业客户能够借助这一强大的文生图工具进行创作与业务拓展。

Veo 文生视频超能力

Veo 作为谷歌推出的视频生成模型,展现出了令人瞩目的超能力。它集成了谷歌旗下众多视觉模型的特性,具备对自然语言和视觉语义的深入理解能力,能够准确地捕捉提示的细微差别和基调,进而生成超过一分钟的高质量 1080p 分辨率视频,并且视频还具有多种电影和视觉风格,可以理解诸如 “延时摄影”“航拍风景” 等电影术语相关的提示,为创作者提供了前所未有的创意控制水平。
比如,创作者仅需输入一段描述特定场景或情节的文字,Veo 就能生成连贯且符合要求的视频内容,无论是打造一个富有意境的风景短片,还是制作一段具有故事性的人物视频,它都可以胜任。不仅如此,它还支持视频编辑,具备类似视频剪辑与 Ps 的功能,当给出输入视频和编辑命令时,例如将皮划艇添加到海岸线的航拍照片中,Veo 文生视频模型可以将此命令应用于初始视频并创建新的编辑视频。同时,它支持遮罩编辑与图片输入,向视频和文本提示添加遮罩区域时,可以更改视频的特定区域,还可以生成一个视频,其中包含图像作为输入以及文本提示,通过提供参考图像与文本提示相结合,使其生成遵循图像风格和用户提示说明的视频。
该模型还在保持视频帧之间的一致性方面表现出色,克服了角色、物体在帧之间闪烁、跳跃或意外变形等影响观看体验的问题。Veo 建立在多年的生成视频模型工作基础上,融合了诸如生成查询网络(GQN)、DVD-GAN、Imagen-Video 等诸多先进技术以及 Transformer 架构和 Gemini 的优势。
目前,Veo 已经对部分创作者开放,无论是经验丰富的电影制作人、有抱负的创作者,还是希望分享知识的教育家,都可以借助 Veo 文生视频模型这一有力工具,创作出更加精美的作品,开启更便捷、高效的视频创作之旅,它也有望成为每个人都可以进行视频制作的实用工具,推动视频创作领域迎来新的发展阶段。

智能搜索升级:体验大变革

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

AI Overview 功能解析

在 2024 年谷歌搜索中心大会苏黎世大会上,备受瞩目的 AI Overview 功能成为了智能搜索升级的关键亮点。它使得浏览器能够支持多轮推理,以往面对复杂问题时,我们可能需要花费大量时间去逐个查找资料、梳理分析,而现在 AI Overview 可以将这些复杂问题快速分解处理,把原本可能需要几分钟甚至几个小时的研究过程压缩至短短几秒钟内完成。并且,它还能够在顶部页面汇总搜索内容,为用户呈现出清晰且有条理的结果。
不仅如此,AI Overview 还具备强大的整合能力,可结合谷歌的其他原生应用来回答用户输入的问题。比如,当用户询问某个地点相关的信息时,它能调用谷歌地图的数据进行精准回复;当涉及视频相关的疑问时,也能够对视频输入做出响应。这一功能先是在美国推出,为美国的用户率先带来了全新的搜索体验,随后按照计划逐步向更多的国家开放,让全球更多用户可以享受到这种便捷且高效的智能搜索服务。

个性化搜索拓展

如今,谷歌的个性化搜索正在不断拓展,呈现出超越传统搜索引擎结果页面的趋势,为用户带来了更多样化、贴合实际需求的应用场景。
例如 “询问照片” 功能,它可以让用户轻松浏览照片集。假设你想要查找某次旅行中的所有美食照片,只需输入相关描述,它就能精准筛选并展示出来,就好像为你配备了一个专属的智能照片管家,帮你快速定位心仪的照片内容。在 Gmail 应用中,个性化搜索可以为你总结收件箱内容,将重要的邮件信息提炼呈现,让你无需在繁杂的邮件列表中逐一查看,节省了大量时间,能迅速聚焦关键事务。而对于教育工作者或者学生群体来说,Notebook LM 这个工具则提供了极大便利,通过个性化搜索可以构建课程,整合各类学习资料,按照教学目标和需求生成条理清晰的课程框架及内容,让知识的传授与获取更加高效有序。
这些个性化搜索在不同场景的应用示例,充分展现了谷歌搜索正在打破传统搜索引擎的局限,朝着更加智能、个性化的方向大步迈进,为人们的生活、学习和工作等诸多方面都带来了不一样的体验和价值。

设备端集成:AI 无处不在

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

Gemini Nano 融入安卓

  1. 本地运行与隐私优势
在 2024 年谷歌搜索中心大会苏黎世大会上,谷歌宣布其人工智能技术将通过 Gemini Nano(最小的 Gemini 型号)集成到安卓设备中,以便在本地运行人工智能。该模型使用从用户手机收集的上下文,并在设备上本地运行工作负载,这样做有着诸多优势。一方面,它能够最大限度地减少一些隐私问题,因为所有的推理过程都在设备端完成,无需将数据传输到云端,保障了用户数据的私密性,对于那些希望将私人数据限制在设备上的人来说,提供了一层有力的保障。另一方面,在本地运行人工智能技术还最大限度地减少了在远程服务器上运行人工智能时可能出现的延迟,能让用户快速获取到相应的智能服务,提升使用体验。并且,由于所有工作都是在设备上进行的,所以无需互联网连接即可工作,使得用户在没有网络的环境下,依然可以正常使用相关智能功能。例如在日常的一些应用场景中,像消息智能回复、文本改写、文章校对和总结内容等,Gemini Nano 都可以发挥出色的作用。目前,Gemini Nano 已在多款第一方应用中部署,例如 Pixel 截屏、Talkback 电话接听服务和 Recorder 录音服务等。此外,谷歌还计划在今年晚些时候,让 Pixel 手机通过 Gemini Nano 实现多模态人工智能功能,届时设备可以对文字、视觉和音频输入做出反应,真正做到像谷歌员工在会上解释的那样,让手机可以用用户理解的方式来理解世界。而且这一技术后续也有望应用到更多不同型号的手机上,为广大安卓用户带来更智能、便捷且隐私性强的使用体验。

AI 在移动与 Web 开发应用

  1. 开发效率提升手段
在移动开发方面,Android Studio 正在使用 Gemini 1.0 Pro 模型(现已更名为 Android Studio 中的 Gemini),为开发者带来了极大的便利,使 Android 开发变得更快、更简单。它是一个内置在 IDE 中的 AI 驱动的编码助手,能够理解自然语言,开发者可以用自己的话提出各类开发问题,比如 “如何在我的应用中添加相机支持?”“使用 Compose,我需要一个登录屏幕,包含用户名字段、密码字段、‘登录’按钮、‘忘记密码?’链接,我希望密码字段能够隐藏输入内容,该怎么实现?” 等等,它都可以给出相应的解答。不仅如此,它还可以通过生成代码、提供复杂的代码补全、找到相关资源、添加代码注释等方式,加速开发者开发高质量 Android 应用程序的能力,而且在聊天过程中它会记住对话的上下文,方便开发者提出后续问题进一步深入交流。同时,在设计时充分考虑了隐私问题,开发者可自行控制相关隐私选项。另外,开发者还能利用 Gemini API 启动模板在几分钟内入门,创建 AI 驱动的功能,其 API 是多模态的,支持图像和文本输入,可用于会话聊天、摘要生成、翻译、字幕生成等应用场景。
在 Web 开发方面,自 Chrome 126 版本起,Gemini Nano 模型被直接内置到了 Chrome 桌面客户端中,这标志着 Web 开发领域的一大飞跃。内置的 Gemini Nano 模型提供了强大的翻译功能,能够实时将网页内容翻译成用户偏好的语言,还能够为视频内容生成字幕,极大地提高了内容的可访问性,尤其是对于听力障碍用户帮助很大。其转写能力允许用户将语音输入转换为文本,方便了那些需要快速记录信息或在不便于打字的情况下进行搜索的用户。对于开发者而言,Gemini Nano 的集成意味着他们可以利用这一模型来增强自己的 Web 应用,例如创建一个能够自动生成商品描述的电子商务网站,或者是一个能够根据用户反馈自动生成改进建议的应用程序。此外,简单提示 API(Prompt API)这一实验性功能的推出,允许开发者通过发送自然语言指令与浏览器内的 Gemini Nano 模型进行交互,这种直观且便捷的交互方式为 Web AI 的发展开辟了新道路,并且它能够在本地设备上处理数据,更好地保护了用户隐私。同时,Google 也提供了相应的开发者工具和文档,帮助开发者快速上手并集成这一 API,促进 Web AI 技术的普及,为构建更加智能的 Web 应用提供了可能。总之,谷歌通过在不同的工具和平台上集成 AI 相关技术,为开发者在移动与 Web 开发等不同环境下部署 AI、提升开发效率创造了良好的条件。

开源模型升级:拓展应用边界

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

Gemma 2 模型更新亮点

在 2024 年谷歌搜索中心大会苏黎世大会上,Gemma 模型迎来了重大升级,其中最受瞩目的当属即将上线的 Gemma 2。Gemma 2 有着 90 亿(9B)和 270 亿(27B)两种参数规模可供选择,27B 模型训练了 13T tokens,9B 则是 8T tokens,并且它们都拥有 8192 上下文窗口,可在 Google AI Studio 中使用。另外,26 亿参数(2.6B)模型也将很快发布,其小巧的体积可以实现在手机本地运行。
在性能方面,Gemma 2 表现卓越。270 亿参数的 Gemma 2 指令微调模型在盲测大语言模型竞技场 LMSYS Chatbot Arena 中,击败了拥有 700 亿参数的 Llama 3,还超过了 Nemotron 4 340B、Claude 3 Sonnet、Command R+、Qwen 72B 等模型,在所有开源权重的模型中位列第一;9B 模型同样出色,是当前 15B 以下参数的模型中成绩最好的。和第一代相比,Gemma 2 涵盖从 20 亿到 270 亿参数,性能更高、推理效率也更高,还显著改进了安全性,270 亿参数的 Gemma 2 提供了与两倍以上参数的模型竞争的替代方案,提供了直到去年 12 月才可能实现的性能,而且可以在单个英伟达 A100/H100 Tensor Core GPU 或 TPU 主机上以全精度高效运行推理,大大降低了部署成本。例如在 Hugging Face 的基准上,谷歌将 Gemma 2 27B 与具有类似尺寸的 Qwen1.5 32B 进行了比较,还报告了 Llama 3 70B 的性能,Gemma 2 27B 的尺寸只有 Llama 3 70B 的 40%,训练数据少到 Llama 3 70B 的 2/3,但却能优于 Qwen1.5 32B,仅比 Llama 3 70B 低几个百分点。
同时,Gemma 2 在设计上进行了诸多优化,采用与 Gemma 1.1 相似的算法配方,但用了更多的 teacher 监督并执行了模型合并,在编程、数学、推理、安全等能力上,都比 1.1 版本有了显著提升,使其能够在其规模上提供最佳性能,甚至提供了与大 2-3 倍的模型竞争的替代方案。
在兼容性与部署方面,Gemma 2 也展现出了极大优势。它和原始 Gemma 模型一样,是根据谷歌具有商业友好的 Gemma 许可发布的,允许开发人员和研究人员分享和商业化他们的创新成果。其兼容主要的 AI 框架,如 Hugging Face Transformers,以及通过原生 Keras 3.0、vLLM、Gemma.cpp、Llama.cpp 和 Ollama 的 JAX、PyTorch 和 TensorFlow。此外,Gemma 还优化了英伟达 TensorRT-LLM 以在英伟达加速基础设施上运行或作为英伟达 NIM 推理微服务运行,用户可以使用 Keras 和 Hugging Face 进行微调,谷歌也正在积极努力实现更多参数高效的微调选项。从下个月开始,谷歌云客户将能轻松在 Vertex AI 上部署和管理 Gemma 2,并且还有新的 Gemma Cookbook 来引导用户构建自己的应用程序并为特定任务微调 Gemma 2 模型。

PaliGemma 视觉语言开放模型亮点

除了 Gemma 2,谷歌计划推出的 PaliGemma 视觉语言开放模型同样备受关注,这一模型将进一步扩展 Gemma 2 的功能和应用范围。
PaliGemma 是一个强大的开放式视觉语言模型(VLM),其灵感源自 PaLI-3,基于开放式组件,包括 SigLIP 视觉模型和 Gemma 语言模型构建而成,可在广泛的视觉语言任务中实现卓越的微调性能,像为图片和短视频描述生成、视觉问答、理解图像中的文本、对象检测和对象分割等任务都能出色完成。谷歌会提供支持多种分辨率且经过预训练和微调检查点,以及专门针对多种任务进行微调的检查点,方便使用者立即探索。
为了促进开放式探索和研究,PaliGemma 可通过多种平台和资源使用,比如可以立即通过 Kaggle 和 Colab 笔记本等免费方式开始探索,在视觉语言研究领域寻求突破的学术研究人员还可以申请 Google Cloud 积分,更好地开展工作。并且,使用者能够在 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和ai.nvidia.com (通过 TensoRT-LLM 加速)中找到 PaliGemma,并可通过 JAX 和 Hugging Face Transformers 轻松集成该模型,后续 Keras 集成方式也即将推出,还可以通过相应的 Hugging Face Space 与该模型进行交互。

大会影响:行业与用户展望

苏黎世大会:2024年谷歌搜索中心大会亮点全回顾

对数字营销的影响

  1. 流量与内容策略变化
2024 年谷歌搜索中心大会苏黎世大会的成果,无疑给数字营销领域带来了深远影响,尤其是在搜索引擎结果页面(SERP)排名以及流量变化方面。随着 AI 技术在谷歌产品中的深度融合,比如 AI Overview 功能,使得搜索引擎能够更智能地处理复杂问题,快速分解并整合信息呈现给用户,这改变了以往的搜索排名逻辑。那些能够更好地契合 AI 理解和推荐机制的内容,将有更大机会在 SERP 中获得靠前的排名,进而吸引更多流量。
以 AI 生成内容为例,谷歌强调其必须符合与人工创建内容相同的质量、相关性和实用性标准。这意味着数字营销从业者需要更加注重内容的品质,不能单纯依赖 AI 去堆砌内容,而是要利用 AI 辅助创作高质量、有深度且贴合目标受众需求的内容。例如,利用大会展示的各种先进模型来生成吸引人的文案、创意图片(像 Imagen 3 在文生图方面的强大能力就可助力营销物料制作)、生动视频(Veo 文生视频模型可用于制作营销视频)等,通过多样化且优质的内容去吸引用户,提升流量。
同时,大会也提醒从业者要关注综合内容制作,不能仅局限于单一形式的内容输出。要结合文字、图像、视频等多种元素,打造沉浸式的内容体验,满足不同用户的偏好和获取信息的习惯。而且,为了应对排名机制的变化,还需要提高相关质量指标,比如优化内容的关键词布局、结构合理性、加载速度等细节(如同 2024 年谷歌搜索引擎算法更新对网站综合质量和细节优化更重视一样),借助如 Gemini 系列模型提升对内容的分析和优化能力,从而更好地适应谷歌搜索升级后的环境,保障在激烈的数字营销竞争中,流量能够稳步增长或者实现突破。

对普通用户的改变

  1. 日常使用体验优化
对于普通用户而言,谷歌在 2024 年大会推出的各项新技术、新功能实实在在地优化了日常使用谷歌产品的体验,并带来了极大的便利。
在日常搜索方面,AI Overview 功能让复杂问题的查询变得轻松简单,它可以快速将复杂问题分解处理,短短几秒就能呈现清晰有条理的结果,还能整合谷歌其他原生应用的数据进行回复,无论是查找地点、视频相关信息,还是其他多领域的疑问,都能高效解决。例如,计划旅行时想了解某个目的地的景点、美食以及当地交通等全方位信息,以往可能需要在不同的应用或网页中切换查找,现在通过 AI Overview 一键就能获取综合的内容,节省了大量时间和精力。
使用谷歌照片时,个性化搜索的 “询问照片” 功能就像一个贴心的照片管家。假如想回味某次聚会中的精彩瞬间,只需输入简单描述,如 “上次生日聚会大家一起吹蜡烛的照片”,它就能精准地从海量照片中筛选展示出来,方便用户快速定位心仪的照片,轻松回顾美好时刻。
而在处理邮件方面,Gmail 应用中的个性化搜索可以为用户总结收件箱内容,提炼出重要邮件信息。面对每天繁杂的邮件列表,不用再逐一查看,能够迅速聚焦关键事务,避免错过重要消息,让邮件管理变得高效有序。
总之,这些新功能新技术渗透到了谷歌产品使用的方方面面,从搜索、照片查看,再到邮件处理等,全方位地提升了普通用户的使用体验,让生活变得更加便捷。
© 版权声明

相关文章

暂无评论

none
暂无评论...