在2023年9月25日,OpenAI发布了一篇博客更新,正式宣布ChatGPT已经实现了视觉、听觉和口语交流的能力。这次更新被认为是自GPT-4大型语言模型发布以来的最大功能升级。从官方提供的应用案例来看,ChatGPT现在可以通过手机摄像头和麦克风帮助人们解决实际问题。例如,用户可以用手机拍摄共享单车的照片,并向人工智能助手询问如何调整座椅,ChatGPT能够识别图片内容并提供相应的步骤指导。
随着技术的快速迭代,生成式人工智能竞赛正进入一个全新的阶段,即多模态交互。在这一阶段,各大科技公司纷纷推出一系列新产品和功能,借助人工智能技术来突破传统搜索引擎和聊天机器人的限制,为用户提供更丰富和更精确的交互体验。
那么,经过这次的"升级",ChatGPT是否有望成为像"贾维斯"那样的人工智能助手,为人们提供生活的便捷服务呢?OpenAI是如何实现这一目标的呢?
赋予生成式AI嘴巴、耳朵、眼睛的竞赛
生成式AI竞赛的下一个重要阶段已经到来,被称为"多模态之争"。最近,Meta公司推出了名为AudioCraft的工具,通过人工智能生成音乐。谷歌的Bard和微软的Bing聊天体验也已经引入了多模态功能。亚马逊则借助LLM技术来增强其Alexa数字助手(为Echo系列智能设备提供支持)的功能。值得注意的是,亚马逊于9月25日宣布投资了OpenAI的竞争对手Anthropic公司,Anthropic是Claude 2聊天机器人的制造商。苹果也正在实验通过AI生成语音,即个人语音(Personal Voice)技术。
与此同时,在上周发布支持文本和排版生成的最新图像生成模型DALL-E 3之后,当地时间周一晚,OpenAI发布了题为《ChatGPT现在能看、能听、能说了》的公告。这一重大更新将GPT-3.5和GPT-4人工智能模型升级,使其具备图像分析能力,并能在文本对话中作出与图像相关的回应。
此外,ChatGPT移动应用程序还将引入语音合成选项,当与现有的语音识别功能搭配使用时,将能够实现与人工智能助手的完全语言对话。
根据官方公告,ChatGPT现在具备以下功能:
语音功能
OpenAI在其公告中宣布推出了语音功能,这一功能由全新的文本转语音模型(text to speech)支持。该模型能够仅需一段文本和几秒的语音样本,便生成类似人声的音频。OpenAI为此与专业配音演员合作,创建了一系列语音样本,同时还使用了其自家开源的语音识别系统Whisper,可以将用户的语音转录为文字。
该功能的推出使得用户可以在应用的设置中选择语音对话,从"Juniper"、"Sky"、"Cove"、"Ember"和"Breeze"等五种不同的合成声音中选择一个,然后说出他们想要的内容。ChatGPT会以所选的语音回应用户的提问或请求,例如,用户可以要求听一则睡前故事,或者向机器人提出与正在进行的餐桌谈话相关的问题。
然而,需要注意的是,语音对话功能在一些方面可能存在一些限制。OpenAI指出,该模型在英文文本的转录方面表现出色,但在一些其他语言,尤其是使用非拉丁字母的语言方面,其表现可能不如英文。因此,建议非英语用户在使用ChatGPT进行此类交互时需谨慎考虑。
图像理解
OpenAI宣布,ChatGPT现已具备图像识别功能,允许用户上传一张或多张图像,并与GPT-3.5或GPT-4模型进行对话。
这些模型将其强大的语言推理技能应用于各种图像,包括照片、截图以及同时包含文本和图像的文档。用户只需轻松点击上传图像并将其添加到聊天中,然后提出相关问题,ChatGPT将会分析所附文本并给出相应的答案。
更令人印象深刻的是,ChatGPT可以围绕图像进行深入对话。按照OpenAI的说法,用户可以上传某物的图片并询问ChatGPT相关问题,例如,在旅行时拍摄一座地标的照片,然后请ChatGPT讲述这个景点的有趣之处。用户还可以拍摄冰箱和食品储藏室的照片,并询问ChatGPT今晚应该吃什么(还可以提出后续问题以获取进一步的食谱建议)。
在官方提供的示例中,一张自行车的照片被上传到ChatGPT界面,然后用户询问如何将座位调低。ChatGPT首先询问了自行车的型号,因为不同型号的自行车座位调整方式各不相同。然后,它详细解释了不同车型可能采用的快拆杆或螺栓的差异,并提供了相应的步骤。
此后,官方通过拍摄螺栓的照片,试图让ChatGPT分辨是螺栓还是快拆杆,以制造一点混淆。然而,ChatGPT很快准确指出图像中的是螺栓,并建议用户寻找内六角扳手来解决问题。
随后,官方拍摄了工具箱的照片,并询问ChatGPT到底应该选择哪一个扳手。ChatGPT再次准确识别所需的扳手,并清晰地指导用户选择正确的尺寸。这个示例生动地展示了ChatGPT在解决实际问题时的实用性和智能响应。
值得注意的是,在去年3月GPT-4发布时,OpenAI已经展示了该模型初步的文本和图像解析能力,而这些能力很快将成为ChatGPT中更常见的功能。
OpenAI计划在未来两周内向Plus和企业用户推出上述功能。用户可以在iOS和Android设备上使用ChatGPT的语音合成功能,而图像识别功能则在Web和移动应用端都可以使用。
任何生成式AI的进步都需以人为本
ChatGPT发布近一年来,OpenAI已多次对其底层模型和界面进行更新。然而,任何生成式AI的进步都需要严肃考虑伦理和隐私问题。
OpenAI在公告中强调了他们的目标是开发安全和有益的通用人工智能。他们相信,通过逐步提供工具,他们可以随着时间不断改进和完善风险缓解措施,同时也让社会为未来更强大的系统做好准备。特别是对于涉及语音和视觉的高级模型,这一策略愈发重要。
新的语音技术能够仅仅从几秒的真实语音中生成逼真的合成语音,这一技术的创新为创造性应用提供了机会,但也引入了新的风险,例如恶意冒充公众人物或进行诈骗等问题。
为了降低音频深度伪造的风险,OpenAI已限制了语音合成功能的使用范围,将其限定在语音聊天和一些已经获得批准的合作伙伴关系中。其中包括与流媒体公司Spotify的合作,Spotify正在使用这项技术为其平台上的播客提供不同语言的翻译服务。Spotify个性化副总裁齐亚德-苏丹(Ziad Sultan)在一份新闻稿中表示,通过与创作者的声音相匹配,语音翻译可以让全球听众以前所未有的真实方式发现新的播客内容,并从中获得启发。
此外,为了应对图像识别可能带来的隐私和准确性问题,OpenAI还限制了机器人分析和直接陈述输入图像中出现的人的能力。他们表示已经采取了技术措施,以限制ChatGPT分析和直接陈述个人信息的能力,并强调系统应当尊重个人隐私。然而,真正的恶意利用情况可能需要在系统面向公众后才能准确评估。
ChatGPT的语音交互和图像识别功能为聊天机器人带来更多实用性,使其更接近真实生活。同时,这也预示着未来AI系统的发展方向,要不仅理解抽象的文本世界,还要能够感知复杂的语音和图像信息,甚至物理世界,以实现更高级的人机交互。