OpenAI 的新 ChatGPT 语音和图像选项令人兴奋

苹果的 Siri 和亚马逊的 Alexa 现在在 OpenAI 最新版本的 ChatGPT 中拥有强大的竞争。聊天机器人现在具有新功能，允许用户与它交谈并接收音频响应。

根据 OpenAI 在其网站上的发行说明：

“我们开始在 ChatGPT 中推出新的语音和图像功能。它们提供了一种新的、更直观的界面类型，允许您进行语音对话或向 ChatGPT 展示您在谈论的内容。

“在旅行时拍一张地标性建筑的照片，并就它的有趣之处进行现场对话。当你在家时，拍下你的冰箱和食品储藏室的照片，弄清楚晚餐吃什么（并提出后续问题，以获得一步一步的食谱）。晚饭后，通过拍照，绕着问题集转圈，并让它与你们俩分享提示，帮助您的孩子解决数学问题。

对于聊天机器人来说，这是一个引人入胜的飞跃，可能会为数百万用户打开一个信息世界。首席执行官山姆·奥特曼（Sam Altman）在工作中付出的努力令人震惊，据《纽约杂志》（New York Magazine）报道，他非常努力地建造了他的第一个项目Loopt，以至于他患有营养不良并患上了坏血病——一种维生素C缺乏症，源于没有吃足够的水果和蔬菜。

现在，在以超过 40 万美元的价格出售这家初创公司十多年后，Altman 的公司允许 iOS 和 Android 上的 Plus 用户使用他们的声音与 ChatGPT 进行双边对话。’

“在旅途中与它交谈，要求睡前故事，或解决餐桌辩论，”该公司在公告中表示。

要通过语音使用该应用程序，请前往移动应用程序上的“设置”→“新功能”并选择加入语音对话。然后，点击位于主屏幕右上角的耳机按钮，然后从五种不同的声音中选择您喜欢的声音。

OpenAI 还宣布，Plus 用户现在可以向 ChatGPT 展示一张或多张图片。

“解决烤架无法启动的原因，探索冰箱中的内容以计划一顿饭，或分析与工作相关的复杂图表。要专注于图像的特定部分，您可以使用我们移动应用程序中的绘图工具。

要使用此功能，请点击照片按钮以拍摄或选择图像。您还可以讨论多张图片或使用我们的绘图工具来指导您的助手。如果您使用的是 iOS 或 Android，请先点击加号按钮。

OpenAI 解释说，图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。

“这些模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档，”该公司表示。

当然，亚马逊周一宣布，它将向Anthropic投资高达4亿美元，Anthropic是一家由前OpenAI员工Dario和Daniela Amodei兄弟姐妹创立的AI初创公司。

据 The Verge 报道，与 Microsoft 迄今为止向 OpenAI 投资的 13 亿美元相比，这笔交易相对较小。

OpenAI 认识到其技术固有的风险并解决了这些问题。该公司表示，其目标是“建立安全且有益的AGI”。

该公司还表示，它相信“逐步提供我们的工具，这使我们能够随着时间的推移进行改进和完善风险缓解措施，同时也让每个人都为未来更强大的系统做好准备。

当然，这种策略在涉及语音和视觉的高级人工智能模型中变得更加重要。

OpenAI 的新技术能够从几秒钟的真实语音中制作出逼真的合成语音，为许多创造性和以可访问性为重点的应用程序打开了大门。然而，该公司承认，这些功能也带来了新的风险，“例如恶意行为者冒充公众人物或进行欺诈的可能性。

出于这个原因，Open AI解释说，它正在使用他们直接合作的配音演员，并以与Spotify类似的方式进行合作，Spotify正在使用这项技术来试点其语音翻译功能。

OpenAI承认，基于视觉的模型也“带来了新的挑战，从对人的幻觉到依赖模型对高风险领域图像的解释。

在更广泛地部署该技术之前，该公司表示，它测试了该模型“在极端主义和科学能力等领域的风险，以及一组不同的阿尔法测试人员”。

这项研究使该公司能够在重要和敏感的领域校准该技术，以确保它可以负责任地使用。

OpenAI 表示，它已采取“技术措施来显着限制 ChatGPT 分析和直接陈述人的能力，因为 ChatGPT 并不总是准确的，这些系统应该尊重个人的隐私。

由于用户可能依赖 ChatGPT 进行研究等专业主题，该公司表示，它对 AI 模型的局限性是“透明的”，因此不鼓励将其用于敏感领域，当然也无需验证。

技术方面的这一巨大进步显然伴随着巨大的风险，但兴奋是显而易见的，希望好处将超过威胁。

我们迫不及待地想看看接下来会发生什么！

作者：

喜欢围棋和编程。查看的所有文章

作者：

发表回复 取消回复

发表回复取消回复