Google推出Gemini 3.5实时语音翻译:支持70多种语言,,,,,,延迟仅几秒
6月10日新闻,,,,,,Google推出Gemini 3.5 Live Translate,,,,,,将实时语音到语音翻译做成可接入的模子能力。。。。。。它支持70多种语言,,,,,,能在几秒延迟内天生译后语音,,,,,,并只管保存语言者的语调、语速和音高。。。。。。该功效已通过Gemini Live API和Google AI Studio向开发者开放,,,,,,也最先在Google Translate的Android和iOS应用中上线。。。。。。
转变不在翻译自己,,,,,,在入口
Google做实时翻译已经许多年,,,,,,但已往的体验总绑在特定装备上,,,,,,包括Pixel手机、Pixel Buds,,,,,,以及特定App。。。。。。能不可用得上,,,,,,取决于你用的是什么硬件。。。。。。
这次的转变是把"听到一种语言、实时说出另一种语言"从产品功效酿成了模子能力。。。。。。模子自动检测输入语言,,,,,,一连处理语音流,,,,,,不需要等语言人讲完整句再最先翻译。。。。。。Google的说法是,,,,,,系统在"等更多上下文"和"尽快输出跟上节奏"之间一连做平衡,,,,,,因此译后语音始终落伍语言人几秒。。。。。。
这意味着任何应用都可以接入这条能力。。。。。。????绻缁啊⑹悠稻刍帷⒙糜挝事贰⒃谙呖纬。。。。。。翻译不再是一个自力App,,,,,,而是一个开关。。。。。。
保存语气会提升可用性,,,,,,也放大冒充风险
这次更新最容易被用户感知的点:译后语音不但是机械朗读翻译效果,,,,,,而是只管听起来像统一个人在换一种语言语言,,,,,,语调、节奏、音高都只管保存。。。。。。
利益很直接。。。。。。????头电话、网约车相同、在线教学,,,,,,这些场景里语气和停留自己就是信息。。。。。。已往TTS式朗读让对话变僵,,,,,,保存语气后更靠近"有人在旁边帮你转述"。。。。。。
风险也很直接。。。。。。译后语音越像真人,,,,,,越容易被用来伪造对话、冒充身份、制造误导音频。。。。。。Google体现会嵌入SynthID水印标识AI天生内容。。。。。。但水印在转录、压缩、转发、二次录音之后还能不可稳固识别,,,,,,还需要看后续现实检测效果。。。。。。
谁先受影响
经常????缬镅韵嗤娜。。。。。。 跨国团队开会、外洋旅行、跨境客服不再需要特殊翻译装备,,,,,,只要常用工具接入这个API。。。。。。
小团队和应用开发者。。。。。。 已往做实时语音翻译要自己串语音识别→机械翻译→语音合成→低延迟传输。。。。。。现在一条API挪用解决,,,,,,多语言客服、直播翻译、聚会工具的开发门槛会显着降低。。。。。。
翻译从业者,,,,,,影响更重大。。。。。。 专业同传依赖配景知识、临场判断和高准确率,,,,,,短期内不可替换。。。。。。但大宗"不要求逐字准确、只要求马上听懂"的场景会被分流。。。。。。真正的界线不在于模子能不可翻一句话,,,,,,而在于长对话、强口音、专业术语、多人插话时它还稳不稳。。。。。。
演示不即是日常
Google没有给出可较量的准确率数据。。。。。。70多种语言代表笼罩面扩大,,,,,,但差别语言之间质量差别可能很大——低资源语言、方言、口音、专业术语,,,,,,每一个都是坑。。。。。。
演示音频来自受控情形。。。。。。地铁站、咖啡馆、多人同时语言的电话聚会,,,,,,才是真正的磨练场。。。。。。Gemini 3.5 Live Translate的意义在于把实时语音翻译推到了更开放的产品入口;;;;;;它能不可从"够惊艳"酿成"够可靠",,,,,,还要等真实场景里的大规模使用往返覆。。。。。。(易句)
(本文由AI翻译,,,,,,网易编辑认真校对)
@包祯靖:e胜博娱乐官方,,,,,,工人用水泥振捣器洗衣服@杜秀娟:“钢腿女孩”牛钰人民日报撰文
@李建纬:南昌国际龙舟赛女鼓手气场全开
热门排行
- 1 fun88是哪个国家的
- 2 AG真人在哪玩
- 3 东亚娱乐
- 4 mg视讯厅官方
- 5 ezpay钱包app下载官网
- 6 星空体育安卓
- 7 bob足球客户端下载官网
- 8 万民电竞
- 9 和记手机