AI新智界丨每日必读：OpenAI向所有用户免费开放ChatGPT语音功能

转载

913 天前

7497

Kyle

文章转载来源：Kyle

摘要：OpenAI 宣布，ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体验犹如与真人交流一般的奇妙互动；Meta 最新发布了一系列 AI 翻译大模型，实现实时语音转换延迟不超过 2 秒，支持多种语言翻译，并具备模仿语气、语速、情感等特征的能力。

图片来源：由无界 AI生成

热门新闻：

Adobe 首席战略官：人工智能将推动更多招聘，而非减少

12 月 22 日报道，Adobe 首席战略官 Scott Belsky 表示，人工智能将使每个人更具创造力，激发公司扩张和增加招聘的需求。

Belsky 认为，人工智能提高了设计师的效率，但并未导致对创意人才的需求减少，相反，公司希望雇佣更多人以实现更多创新。他预测，随着公司变得更加高效，尤其是借助新的人工智能能力，它们将扩大业务范围，为小公司提供更多竞争机会。

恒信东方：AI 互动剧情游戏《山海之道》预计 12 月底上线正式版本

12 月 21 日报道，恒信东方在互动平台表示，公司 AI 互动剧情游戏《山海之道》的 AI 对话系统是公司自研的，目前应用的是百度文心大模型 4.0。后续会更新上线正式版本，将增加视频特效，并根据用户反馈持续优化，目前该版本在测试中，预计于 12 月底上线。

智源研究院发布 370 亿参数多模态大模型 Emu2

12 月 21 日，北京智源研究院宣布发布具有 370 亿参数的多模态大模型 Emu2。

据介绍，Emu2 在少样本多模态理解任务上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模态预训练大模型，在包括 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

Emu2 表现出强大的多模态上下文学习能力，甚至可以解决需要即时推理的任务，例如视觉提示和基于对象的生成。基于 Emu2 微调的 Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 则可接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。研究团队还表示，Emu2 可以作为各种多模态任务的基础模型和通用接口。

埃森哲 CEO：AI 有望在 3-5 年内成为埃森哲业务重要的一环

埃森哲首席执行官 Julie Sweet 近日受访时表示，大多数企业都还没有做好大规模部署生成式人工智能（generative AI）的准备、目前仍处于实验阶段，因为他们缺乏强大的信息基础设施或确保 AI 可以安全使用所需的控制措施。Sweet 指出，大多数公司没有成熟的数据能力，多数企业运行长还不知道 AI 可以应用在哪个地方、存在哪些风险以及如何降低风险。尽管如此，Sweet 仍预期 AI 有望在 3-5 年内成为埃森哲业务重要的一环。

Meta 发布全新 AI 翻译大模型，实时语音转换不超 2 秒

12 月 22 日报道，Meta 最新发布了一系列 AI 翻译大模型，实现实时语音转换延迟不超过 2 秒，支持多种语言翻译，并具备模仿语气、语速、情感等特征的能力。这一系列模型名为 Seamless Communication，包括 SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2 和 Seamless，其中前三个已经在 GitHub 上开源。

为确保翻译准确性和避免滥用，Meta 采用了毒性缓解技术，在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词，同时为音频添加了水印以追踪来源。为了防止滥用风险，Meta 还为音频添加了水印，通过在音频中嵌入不可察觉的信号，可以准确追踪音频的来源，并对抗各种攻击手段。

ChatGPT 语音功能现已面向所有免费用户开放

12 月 21 日报道，OpenAI 宣布，ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体验犹如与真人交流一般的奇妙互动。

报告：Gemini-Pro 在多模态领域的表现和 GPT-4V 不相上下

12 月 22 日报道，近期的 Gemini-Pro 评测报告显示其在多模态领域取得了显著的进展，与 GPT-4V 不相上下，甚至在某些方面表现更为出色。首先，在多模态专有基准 MME 上的综合表现中，Gemini-Pro 以 1933.4 的高分超越了 GPT-4V，展现出在感知和认知方面的全面优势。

投融资：

法律 AI 初创公司 Harvey 获 8000 万美元 B 轮融资，估值达 7.15 亿美元

12 月 22 日报道，法律人工智能初创公司 Harvey 宣布获得 8000 万美元 B 轮融资，估值达 7.15 亿美元，由凯鹏华盈、红杉资本、OpenAI 初创基金等投资。

据了解，Harvey 基于 OpenAI 的 GPT-4 系列模型，结合专有法律数据进行预训练和微调，为律师提供了深度定制的 ChatGPT 助手。此外，Harvey 的产品广泛应用于法律服务机构、律师事务所和咨询公司。

Harvey 成立于 2022 年 1 月，总部位于美国旧金山，OpenAI 初创基金曾在种子轮和 A 轮融资中连续参投 2600 万美元。产品方面，Harvey 的专业法律 ChatGPT 助手涵盖了多个方面，包括起草法律文件、辅助法律研究、法律合同审核以及解释法律术语等。

好文荐读：

《Midjourney V6神图炸出！生图效果碾压DALL·E3，逼真画面光影细节登峰造极》

兵贵神速，Midjourney V6昨天上午说要来，下午就真来了。神图纷纷炸出，光影效果登峰造极，主打一个「你能说我就能画」，擅长写Prompt的朋友，你们有福了！

https://www.aixinzhijie.com/article/6841782

《AI 时代，你的公司怎样才能活？》

未来已来，甚至将更为流行开来。在历经多年的实验室研究以及科幻电影的银幕呈现之后，人工智能终于从梦想照进现实，准备闪亮登场了。

如果继续抱定它并不能改变一切的想法，那只能说，你太缺乏想象力了。不过，人工智能究竟会如何影响我们的工作、生活乃至世界？我们又该如何利用它来取得积极成果？

https://www.aixinzhijie.com/article/6841714‌

关键词：

来源：Kyle

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：硅谷AI圈爆火热文：Jasper和VC成AIGC热潮最大输家，退潮后方知谁在裸泳

下一篇：杨斌丨既已“如神”，何以“善任”？——重温斯图尔特·布兰德的警示

AI新智界丨每日必读：OpenAI向所有用户免费开放ChatGPT语音功能

热门新闻：

Adobe 首席战略官：人工智能将推动更多招聘，而非减少

恒信东方：AI 互动剧情游戏《山海之道》预计 12 月底上线正式版本

智源研究院发布 370 亿参数多模态大模型 Emu2

埃森哲 CEO：AI 有望在 3-5 年内成为埃森哲业务重要的一环

Meta 发布全新 AI 翻译大模型，实时语音转换不超 2 秒

ChatGPT 语音功能现已面向所有免费用户开放

报告：Gemini-Pro 在多模态领域的表现和 GPT-4V 不相上下

投融资：

法律 AI 初创公司 Harvey 获 8000 万美元 B 轮融资，估值达 7.15 亿美元

好文荐读：

《Midjourney V6神图炸出！生图效果碾压DALL·E3，逼真画面光影细节登峰造极》

《AI 时代，你的公司怎样才能活？》

18256篇

125068134

新闻排行

李国飞：繁荣越令人沉醉，危机往往埋得越深|《1929》推荐序

RWA研究院携手Conflux，共探2026香港Web3嘉年华新范式

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

数字人民币2.0全景：从16.7万亿交易额之后的制度化跃迁

催生万亿新资产：AI代理如何拥有、赚取和交易

250亿美元RWA市场背后的政策红线：42号文的“境内严禁”到底划在哪？

GPT-5.4与百万token时代：上市公司的AI转型窗口还剩多久

美国资本重注拉美：赌的不是增长，是金融体系的"关键节点"

友情链接：