先做个广告:需要购买Gemini帐号或代充值Gemini会员,请加微信:gptchongzhi
本文目录导读:
推荐使用Gemini中文版,国内可直接访问:https://ai.gpt86.top
- 功能一:Project Astra —— 开启“所见即所得”的实时AI眼镜/手机模式
- 功能二:Deep Research 2.0 —— 多模态深度推理
- 功能三:Gemini Gems 进阶版 —— 自定义“数字员工”
就在本周,谷歌在Google I/O 2026大会上发布了Gemini的一系列重大更新,其中最核心的亮点,是代号为 “Project Astra” 的实时视觉识别功能正式向Gemini Advanced订阅用户全面开放,同时Gemini Deep Research(深度研究)模式也迎来了多模态推理的重大升级。
Project Astra —— 开启“所见即所得”的实时AI眼镜/手机模式
功能亮点: 不再局限于上传图片或视频,Gemini现在能通过手机摄像头或智能眼镜,实时理解你眼前的世界,并进行近乎零延迟的对话,这被谷歌定义为“通用AI助手”的雏形。
实操教程:如何使用实时视觉助手
适用设备: Android 16+ / iOS 20+ (部分功能需Pixel 10或Galaxy S26系列支持),需订阅 Gemini Advanced。
步骤 1:唤醒实时画面 打开Gemini App,你会发现麦克风图标旁边新增了一个“眼睛/摄像头”图标,点击它,即可开启“实时视频流”模式。
步骤 2:场景化指令示范 不要只问“这是什么”,试试以下高阶玩法:
- 家居维修场景:
- 指令: “看这面墙上的裂缝,告诉我这是结构性损伤还是墙面开裂,并给出修补材料清单。”
- Gemini反应: 它会随着你手机摄像头的移动,锁定裂缝位置,叠加AR高亮框,并语音指导你:“看起来是石膏板接缝开裂,不是承重墙问题,你需要购买接缝胶带和腻子粉,往前走,我看到了你左手边的五金店。”
- 实时翻译与导航:
- 指令: “看到那个路牌了吗?翻译上面的德语,并告诉我如果我要去勃兰登堡门该怎么走。”
- Gemini反应: 镜头对准路牌,屏幕上直接浮现中文翻译,并在地面叠加箭头指引方向。
步骤 3:记忆回溯 这是Astra最强大的功能,你可以问:“刚才我们路过的那家咖啡店,门口的菜单上有没有冰拿铁?” Gemini会调用刚才摄像头捕捉到的画面帧进行回忆并回答,你可以在设置中管理或清除这段“视觉记忆”。
Deep Research 2.0 —— 多模态深度推理
功能亮点: 以前的深度研究只能分析文本和链接,它可以同时分析你上传的视频、音频、PDF和表格,并像人类分析师一样进行交叉比对,生成带有可视化图表的报告。
实操教程:用AI写一份竞品分析报告
场景: 你是产品经理,刚参加完行业展会,录了一段30分钟的竞品演讲视频,手头还有一份PDF参数表。
步骤 1:投喂多模态数据 在Gemini网页版或App中,选择模型为 “Gemini 2.5 Pro (Deep Research)”。 在输入框下方,点击附件图标,一次性上传:
- 你录制的竞品演讲视频(.mp4)。
- 竞品的官方PDF参数文档。
- 你手写的潦草笔记照片。
步骤 2:构建分析指令 输入以下提示词:
“请结合视频中演讲者提到的技术突破、PDF中的实际参数,以及我的笔记中圈出的疑点,生成一份深度分析报告。 要求:
- 对比我们(假设我方产品参数为XXX)与他们的优劣势。
- 识别视频中演讲者的肢体语言和语气,判断他对哪个参数最没有信心。
- 最后用表格和雷达图呈现对比结果。”
步骤 3:审核与交互式修改 点击提交后,Gemini会进入深度研究模式,大约5-8分钟后,它会生成一份交互式报告。 你可以直接在报告里点击图表上的数据点追问:“这个续航数据的具体测试标准是什么?去PDF里溯源。” Gemini会自动定位到PDF的相关段落并解释。
Gemini Gems 进阶版 —— 自定义“数字员工”
功能亮点: 现在你可以通过自然语言,为Gemini创建专属的“Gems”(自定义智能体),并授权它连接你的谷歌日历、Gmail和云端硬盘。
实操教程:创建“会议纪要秘书”
步骤 1:创建Gem 在Gemini侧边栏点击“Gems” -> “新建Gem”。
步骤 2:编写系统指令 输入以下配置文本:
“你是一个专业的会议秘书,你的任务是:
- 每次会议结束后,自动读取我的谷歌日历中标记为‘已结束’的会议录音转写文本。
- 提取3个关键决策、2个风险点、1个幽默瞬间。
- 将待办事项自动添加到我的Google Tasks中,并设定截止时间。
- 风格:专业、极简,多用emoji表情。”
步骤 3:授权与自动化 保存后,系统会提示你是否授权该Gem访问日历和Tasks,点击“允许”。 以后你只需在会议结束后说:“嘿Google,让会议秘书处理刚才的会议。” 它就会在后台自动运行。
编辑点评: 2026年的Gemini正在从“对话式AI”进化为“环境式AI”,它不再只是等待你的提问,而是开始通过摄像头和传感器主动理解你身处的环境,建议大家从今天开始尝试用Astra去记录生活,你会发现,AI的上下文感知能力已经达到了一个令人惊讶的新高度。
(本文基于2026年5月Google I/O大会发布内容撰写,功能推送时间可能因地区和设备而异。)


