微软AI语音服务推出虚拟人形象实现文本转高清人物说话视频

近日，微软公司宣布其Azure AI语音服务新增了一项创新功能——Text to Speech Avatar，该功能为开发者提供了将文本转换为自然语音视频的能力，该功能突破性地将文本直接转换为具有人类自然声音的说话视频。这一技术利用了Azure AI的文本转语音引擎，使得虚拟人物在视频中呈现出逼真的说话效果，并且该服务的输出视频质量高达1920 x 1080分辨率，每秒25帧，确保了视频的流畅性和清晰度。

微软AI语音服务推出虚拟人形象实现文本转高清人物说话视频为了满足不同场景的需求，微软提供了多种预设的虚拟形象。这些形象可以根据用户喜好进行选择，进一步提升视频的个性化程度，开发者可通过批量合成API，实现文本到语音虚拟形象视频的异步或实时合成。这一功能大大提高了内容生产的效率。 Speech Studio内置的内容创建工具，让用户无需编写代码即可轻松制作视频内容，降低了技术门槛，而借助Speech Studio的实时聊天头像工具，用户可以与虚拟形象进行实时对话，为在线交流带来全新体验。该服务按视频长度收费，价格合理。目前，Text to Speech Avatar功能已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区上线，目前来看这项技术的应用前景广阔，有望在客户服务、在线教育、市场营销等多个领域发挥重要作用。

菜单

分享

微软AI语音服务推出虚拟人形象实现文本转高清人物说话视频

免费使用Sora教程

Altera使用gpt-4o建立了一个新的人类协作领域

国内使用ChatGPT高级语音教程

SoruxGPT语音模式

SoruxGPT用户服务

Docker国内镜像源配置及优化指南

共享ChatGPT4镜像站特点

ChatGPT 4 Plus Team 如何合租

单例模式

文心一言4.0 turbo VS ChatGPT-4o 深度测评

分享

微软AI语音服务推出虚拟人形象 实现文本转高清人物说话视频

微软AI语音服务推出虚拟人形象实现文本转高清人物说话视频