AI新智界丨每日必读:OpenAI向所有用户免费开放ChatGPT语音功能

转载
343 天前
6703
Kyle

文章转载来源:Kyle

摘要:OpenAI 宣布,ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用,就能与 ChatGPT 进行自然的对话,体验犹如与真人交流一般的奇妙互动;Meta 最新发布了一系列 AI 翻译大模型,实现实时语音转换延迟不超过 2 秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。

图片来源:由无界 AI生成


热门新闻:


Adobe 首席战略官:人工智能将推动更多招聘,而非减少

12 月 22 日报道,Adobe 首席战略官 Scott Belsky 表示,人工智能将使每个人更具创造力,激发公司扩张和增加招聘的需求。

Belsky 认为,人工智能提高了设计师的效率,但并未导致对创意人才的需求减少,相反,公司希望雇佣更多人以实现更多创新。他预测,随着公司变得更加高效,尤其是借助新的人工智能能力,它们将扩大业务范围,为小公司提供更多竞争机会。

恒信东方:AI 互动剧情游戏《山海之道》预计 12 月底上线正式版本

12 月 21 日报道,恒信东方在互动平台表示,公司 AI 互动剧情游戏《山海之道》的 AI 对话系统是公司自研的,目前应用的是百度文心大模型 4.0。后续会更新上线正式版本,将增加视频特效,并根据用户反馈持续优化,目前该版本在测试中,预计于 12 月底上线。

智源研究院发布 370 亿参数多模态大模型 Emu2

12 月 21 日,北京智源研究院宣布发布具有 370 亿参数的多模态大模型 Emu2。

据介绍,Emu2 在少样本多模态理解任务上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模态预训练大模型,在包括 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

Emu2 表现出强大的多模态上下文学习能力,甚至可以解决需要即时推理的任务,例如视觉提示和基于对象的生成。基于 Emu2 微调的 Emu2-Chat 可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen 则可接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。研究团队还表示,Emu2 可以作为各种多模态任务的基础模型和通用接口。

埃森哲 CEO:AI 有望在 3-5 年内成为埃森哲业务重要的一环

埃森哲首席执行官 Julie Sweet 近日受访时表示,大多数企业都还没有做好大规模部署生成式人工智能(generative AI)的准备、目前仍处于实验阶段,因为他们缺乏强大的信息基础设施或确保 AI 可以安全使用所需的控制措施。Sweet 指出,大多数公司没有成熟的数据能力,多数企业运行长还不知道 AI 可以应用在哪个地方、存在哪些风险以及如何降低风险。尽管如此,Sweet 仍预期 AI 有望在 3-5 年内成为埃森哲业务重要的一环。

Meta 发布全新 AI 翻译大模型,实时语音转换不超 2 秒

12 月 22 日报道,Meta 最新发布了一系列 AI 翻译大模型,实现实时语音转换延迟不超过 2 秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。这一系列模型名为 Seamless Communication,包括 SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2 和 Seamless,其中前三个已经在 GitHub 上开源。

为确保翻译准确性和避免滥用,Meta 采用了毒性缓解技术,在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加了水印以追踪来源。为了防止滥用风险,Meta 还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。

ChatGPT 语音功能现已面向所有免费用户开放

12 月 21 日报道,OpenAI 宣布,ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用,就能与 ChatGPT 进行自然的对话,体验犹如与真人交流一般的奇妙互动。

报告:Gemini-Pro 在多模态领域的表现和 GPT-4V 不相上下

12 月 22 日报道,近期的 Gemini-Pro 评测报告显示其在多模态领域取得了显著的进展,与 GPT-4V 不相上下,甚至在某些方面表现更为出色。首先,在多模态专有基准 MME 上的综合表现中,Gemini-Pro 以 1933.4 的高分超越了 GPT-4V,展现出在感知和认知方面的全面优势。


投融资:


法律 AI 初创公司 Harvey 获 8000 万美元 B 轮融资,估值达 7.15 亿美元

12 月 22 日报道,法律人工智能初创公司 Harvey 宣布获得 8000 万美元 B 轮融资,估值达 7.15 亿美元,由凯鹏华盈、红杉资本、OpenAI 初创基金等投资。

据了解,Harvey 基于 OpenAI 的 GPT-4 系列模型,结合专有法律数据进行预训练和微调,为律师提供了深度定制的 ChatGPT 助手。此外,Harvey 的产品广泛应用于法律服务机构、律师事务所和咨询公司。

Harvey 成立于 2022 年 1 月,总部位于美国旧金山,OpenAI 初创基金曾在种子轮和 A 轮融资中连续参投 2600 万美元。产品方面,Harvey 的专业法律 ChatGPT 助手涵盖了多个方面,包括起草法律文件、辅助法律研究、法律合同审核以及解释法律术语等。


好文荐读:


《Midjourney V6神图炸出!生图效果碾压DALL·E3,逼真画面光影细节登峰造极》

兵贵神速,Midjourney V6昨天上午说要来,下午就真来了。神图纷纷炸出,光影效果登峰造极,主打一个「你能说我就能画」,擅长写Prompt的朋友,你们有福了!

https://www.aixinzhijie.com/article/6841782


《AI 时代,你的公司怎样才能活?》


未来已来,甚至将更为流行开来。在历经多年的实验室研究以及科幻电影的银幕呈现之后,人工智能终于从梦想照进现实,准备闪亮登场了。

如果继续抱定它并不能改变一切的想法,那只能说,你太缺乏想象力了。不过,人工智能究竟会如何影响我们的工作、生活乃至世界?我们又该如何利用它来取得积极成果?

https://www.aixinzhijie.com/article/6841714