微软近期宣布,他们成功获得了一项创新专利,该技术能够实时将用户的语音输入转化为生动的图片,为会议和讲座带来前所未有的视觉革新。据悉,这项专利的核心在于能够实时捕捉会议或讲座中的音频内容,借助先进的语言模型进行内容提炼,并最终生成相应的AI图像。整个过程涵盖了音频捕捉、文本处理和图像生成三大环节。
在实际操作中,用户通过麦克风发言,系统即刻捕捉音频并将其转换为文本。随后,系统将文本进行分段处理,并运用语言模型对每段内容进行精炼总结。最后,根据这些总结内容,系统生成相应的AI图像,并实时展示在屏幕上。
微软计划将这项技术广泛应用于其Microsoft Teams平台,使其能够根据演讲者话题的变化实时更新图像,从而极大地提升视觉沟通效果。微软强调,这种图像辅助功能对于视觉学习者来说尤为有益,能够帮助他们更清晰地理解和吸收信息。
这项专利的申请始于2023年4月5日,经过长达半年的严格审核,最终于10月获得了美国商标和专利局的正式批准。该专利文件共计20页,详细阐述了如何将语音实时转化为图像的技术细节。