重大更新！ChatGPT 现已具备看、听、说多重能力

热门AI资讯 1年前 (2023) admin

92 0 0

在2023年9月25日，OpenAI发布了一篇博客更新，正式宣布ChatGPT已经实现了视觉、听觉和口语交流的能力。这次更新被认为是自GPT-4大型语言模型发布以来的最大功能升级。从官方提供的应用案例来看，ChatGPT现在可以通过手机摄像头和麦克风帮助人们解决实际问题。例如，用户可以用手机拍摄共享单车的照片，并向人工智能助手询问如何调整座椅，ChatGPT能够识别图片内容并提供相应的步骤指导。

chatgpt具备看听说能力

随着技术的快速迭代，生成式人工智能竞赛正进入一个全新的阶段，即多模态交互。在这一阶段，各大科技公司纷纷推出一系列新产品和功能，借助人工智能技术来突破传统搜索引擎和聊天机器人的限制，为用户提供更丰富和更精确的交互体验。

那么，经过这次的"升级"，ChatGPT是否有望成为像"贾维斯"那样的人工智能助手，为人们提供生活的便捷服务呢？OpenAI是如何实现这一目标的呢？

赋予生成式AI嘴巴、耳朵、眼睛的竞赛

生成式AI竞赛的下一个重要阶段已经到来，被称为"多模态之争"。最近，Meta公司推出了名为AudioCraft的工具，通过人工智能生成音乐。谷歌的Bard和微软的Bing聊天体验也已经引入了多模态功能。亚马逊则借助LLM技术来增强其Alexa数字助手（为Echo系列智能设备提供支持）的功能。值得注意的是，亚马逊于9月25日宣布投资了OpenAI的竞争对手Anthropic公司，Anthropic是Claude 2聊天机器人的制造商。苹果也正在实验通过AI生成语音，即个人语音(Personal Voice)技术。

与此同时，在上周发布支持文本和排版生成的最新图像生成模型DALL-E 3之后，当地时间周一晚，OpenAI发布了题为《ChatGPT现在能看、能听、能说了》的公告。这一重大更新将GPT-3.5和GPT-4人工智能模型升级，使其具备图像分析能力，并能在文本对话中作出与图像相关的回应。

此外，ChatGPT移动应用程序还将引入语音合成选项，当与现有的语音识别功能搭配使用时，将能够实现与人工智能助手的完全语言对话。

根据官方公告，ChatGPT现在具备以下功能：

语音功能

OpenAI在其公告中宣布推出了语音功能，这一功能由全新的文本转语音模型（text to speech）支持。该模型能够仅需一段文本和几秒的语音样本，便生成类似人声的音频。OpenAI为此与专业配音演员合作，创建了一系列语音样本，同时还使用了其自家开源的语音识别系统Whisper，可以将用户的语音转录为文字。

ChatGPT 已经有了语音交互能力｜OpenAI

该功能的推出使得用户可以在应用的设置中选择语音对话，从"Juniper"、"Sky"、"Cove"、"Ember"和"Breeze"等五种不同的合成声音中选择一个，然后说出他们想要的内容。ChatGPT会以所选的语音回应用户的提问或请求，例如，用户可以要求听一则睡前故事，或者向机器人提出与正在进行的餐桌谈话相关的问题。

然而，需要注意的是，语音对话功能在一些方面可能存在一些限制。OpenAI指出，该模型在英文文本的转录方面表现出色，但在一些其他语言，尤其是使用非拉丁字母的语言方面，其表现可能不如英文。因此，建议非英语用户在使用ChatGPT进行此类交互时需谨慎考虑。

图像理解

OpenAI宣布，ChatGPT现已具备图像识别功能，允许用户上传一张或多张图像，并与GPT-3.5或GPT-4模型进行对话。

这些模型将其强大的语言推理技能应用于各种图像，包括照片、截图以及同时包含文本和图像的文档。用户只需轻松点击上传图像并将其添加到聊天中，然后提出相关问题，ChatGPT将会分析所附文本并给出相应的答案。

更令人印象深刻的是，ChatGPT可以围绕图像进行深入对话。按照OpenAI的说法，用户可以上传某物的图片并询问ChatGPT相关问题，例如，在旅行时拍摄一座地标的照片，然后请ChatGPT讲述这个景点的有趣之处。用户还可以拍摄冰箱和食品储藏室的照片，并询问ChatGPT今晚应该吃什么（还可以提出后续问题以获取进一步的食谱建议）。

在官方提供的示例中，一张自行车的照片被上传到ChatGPT界面，然后用户询问如何将座位调低。ChatGPT首先询问了自行车的型号，因为不同型号的自行车座位调整方式各不相同。然后，它详细解释了不同车型可能采用的快拆杆或螺栓的差异，并提供了相应的步骤。

此后，官方通过拍摄螺栓的照片，试图让ChatGPT分辨是螺栓还是快拆杆，以制造一点混淆。然而，ChatGPT很快准确指出图像中的是螺栓，并建议用户寻找内六角扳手来解决问题。

随后，官方拍摄了工具箱的照片，并询问ChatGPT到底应该选择哪一个扳手。ChatGPT再次准确识别所需的扳手，并清晰地指导用户选择正确的尺寸。这个示例生动地展示了ChatGPT在解决实际问题时的实用性和智能响应。

值得注意的是，在去年3月GPT-4发布时，OpenAI已经展示了该模型初步的文本和图像解析能力，而这些能力很快将成为ChatGPT中更常见的功能。

OpenAI计划在未来两周内向Plus和企业用户推出上述功能。用户可以在iOS和Android设备上使用ChatGPT的语音合成功能，而图像识别功能则在Web和移动应用端都可以使用。

任何生成式AI的进步都需以人为本

ChatGPT发布近一年来，OpenAI已多次对其底层模型和界面进行更新。然而，任何生成式AI的进步都需要严肃考虑伦理和隐私问题。

OpenAI在公告中强调了他们的目标是开发安全和有益的通用人工智能。他们相信，通过逐步提供工具，他们可以随着时间不断改进和完善风险缓解措施，同时也让社会为未来更强大的系统做好准备。特别是对于涉及语音和视觉的高级模型，这一策略愈发重要。

新的语音技术能够仅仅从几秒的真实语音中生成逼真的合成语音，这一技术的创新为创造性应用提供了机会，但也引入了新的风险，例如恶意冒充公众人物或进行诈骗等问题。

为了降低音频深度伪造的风险，OpenAI已限制了语音合成功能的使用范围，将其限定在语音聊天和一些已经获得批准的合作伙伴关系中。其中包括与流媒体公司Spotify的合作，Spotify正在使用这项技术为其平台上的播客提供不同语言的翻译服务。Spotify个性化副总裁齐亚德-苏丹（Ziad Sultan）在一份新闻稿中表示，通过与创作者的声音相匹配，语音翻译可以让全球听众以前所未有的真实方式发现新的播客内容，并从中获得启发。

此外，为了应对图像识别可能带来的隐私和准确性问题，OpenAI还限制了机器人分析和直接陈述输入图像中出现的人的能力。他们表示已经采取了技术措施，以限制ChatGPT分析和直接陈述个人信息的能力，并强调系统应当尊重个人隐私。然而，真正的恶意利用情况可能需要在系统面向公众后才能准确评估。

ChatGPT的语音交互和图像识别功能为聊天机器人带来更多实用性，使其更接近真实生活。同时，这也预示着未来AI系统的发展方向，要不仅理解抽象的文本世界，还要能够感知复杂的语音和图像信息，甚至物理世界，以实现更高级的人机交互。

版权声明：admin 发表于 2023-10-07 3:40:24。
转载请注明：重大更新！ChatGPT 现已具备看、听、说多重能力 |

暂无评论

暂无评论...