凯时AG

环球热门新闻资讯
2026-06-15 07:26:45
首页 > 新闻 > 时政要闻 > 正文

Google推出Gemini 3.5实时语音翻译:支持70多种语言,,, ,, ,延迟仅几秒

6月10日新闻,,, ,, ,Google推出Gemini 3.5 Live Translate,,, ,, ,将实时语音到语音翻译做成可接入的模子能力。。它支持70多种语言,,, ,, ,能在几秒延迟内天生译后语音,,, ,, ,并只管保存语言者的语调、语速和音高。。该功效已通过Gemini Live API和Google AI Studio向开发者开放,,, ,, ,也最先在Google Translate的Android和iOS应用中上线。。

转变不在翻译自己,,, ,, ,在入口

Google做实时翻译已经许多年,,, ,, ,但已往的体验总绑在特定装备上,,, ,, ,包括Pixel手机、Pixel Buds,,, ,, ,以及特定App。。能不可用得上,,, ,, ,取决于你用的是什么硬件。。

这次的转变是把"听到一种语言、实时说出另一种语言"从产品功效酿成了模子能力。。模子自动检测输入语言,,, ,, ,一连处理语音流,,, ,, ,不需要等语言人讲完整句再最先翻译。。Google的说法是,,, ,, ,系统在"等更多上下文"和"尽快输出跟上节奏"之间一连做平衡,,, ,, ,因此译后语音始终落伍语言人几秒。。

这意味着任何应用都可以接入这条能力。。???绻缁啊⑹悠稻刍帷⒙糜挝事贰⒃谙呖纬。。翻译不再是一个自力App,,, ,, ,而是一个开关。。

保存语气会提升可用性,,, ,, ,也放大冒充风险

这次更新最容易被用户感知的点:译后语音不但是机械朗读翻译效果,,, ,, ,而是只管听起来像统一个人在换一种语言语言,,, ,, ,语调、节奏、音高都只管保存。。

利益很直接。。???头电话、网约车相同、在线教学,,, ,, ,这些场景里语气和停留自己就是信息。。已往TTS式朗读让对话变僵,,, ,, ,保存语气后更靠近"有人在旁边帮你转述"。。

风险也很直接。。译后语音越像真人,,, ,, ,越容易被用来伪造对话、冒充身份、制造误导音频。。Google体现会嵌入SynthID水印标识AI天生内容。。但水印在转录、压缩、转发、二次录音之后还能不可稳固识别,,, ,, ,还需要看后续现实检测效果。。

谁先受影响

经常???缬镅韵嗤娜。。 跨国团队开会、外洋旅行、跨境客服不再需要特殊翻译装备,,, ,, ,只要常用工具接入这个API。。

小团队和应用开发者。。 已往做实时语音翻译要自己串语音识别→机械翻译→语音合成→低延迟传输。。现在一条API挪用解决,,, ,, ,多语言客服、直播翻译、聚会工具的开发门槛会显着降低。。

翻译从业者,,, ,, ,影响更重大。。 专业同传依赖配景知识、临场判断和高准确率,,, ,, ,短期内不可替换。。但大宗"不要求逐字准确、只要求马上听懂"的场景会被分流。。真正的界线不在于模子能不可翻一句话,,, ,, ,而在于长对话、强口音、专业术语、多人插话时它还稳不稳。。

演示不即是日常

Google没有给出可较量的准确率数据。。70多种语言代表笼罩面扩大,,, ,, ,但差别语言之间质量差别可能很大——低资源语言、方言、口音、专业术语,,, ,, ,每一个都是坑。。

演示音频来自受控情形。。地铁站、咖啡馆、多人同时语言的电话聚会,,, ,, ,才是真正的磨练场。。Gemini 3.5 Live Translate的意义在于把实时语音翻译推到了更开放的产品入口; ;; ;它能不可从"够惊艳"酿成"够可靠",,, ,, ,还要等真实场景里的大规模使用往返覆。。(易句)

(本文由AI翻译,,, ,, ,网易编辑认真校对)

那一刻,,, ,, ,家族的影象与国家的印记深深烙在他心里。。

责任编辑:蔡大帆

【网站地图】