示例48.语音分离
本示例说明了对权利要求进行适格分析的应用,这些权利要求涉及基于人工智能的方法,用于分析语音信号并将所需语音与无关语音或背景语音分离。这些包含深度神经网络的权利要求,是粗略地基于当前语音分离文献而虚构的。权利要求1不适格。它“针对”了一种司法排除对象,因为它记载了司法排除对象(抽象想法),而权利要求整体上并没有将司法排除对象融入实际应用中(因此它针对的是一种抽象想法),而且权利要求并没有明显超过司法排除对象(没有提供发明构思)。权利要求2重复了与权利要求1相同的司法排除对象,但适格,因为该权利要求作为一个整体改进了语音分离技术,从而将排除对象融入到了分离语音的实际应用中,因此不是“针对”司法排除对象。权利要求3适格,它记载了一种司法排除对象(抽象想法),但该权利要求作为一个整体,通过改进语音到文本的转录,将该排除对象融入实际应用中,因此不是“针对”司法排除对象。
背景技术
在过去的几年里,视听多媒体内容的创作和消费出现了大幅增长。智能手机、游戏机和头戴式设备都配备了用于录音的麦克风和摄像头。这些设备还采用了允许用户通过语音命令控制设备的技术。当使用相同的设备录制事件时,这些设备可能会捕捉语音命令作为录音的一部分,或者未能从录音中过滤掉附近扬声器的声音。这些录音可用于社交媒体上的简单重放、个人使用或自动字幕或转录等应用。
典型的人类听众可以很容易地感知声音混合物中的独立声源。例如,在拥挤的餐厅里,即使听者周围有其他可听到的对话,普通人也能注意到单个对话。计算机在解释有声语言时,会接收到来自麦克风的音频信号,其中包含麦克风拾取到的所有音频。要让计算机 “关注”单个对话或说话者,必须将相关语音从音频信号的其他部分中分离出来。传统的基于计算机的语音分离技术在区分和分离不同类别的音频(如人类语音和背景噪音)方面表现出色,但在分离属于同一类别的音频(如来自不同说话者的语音)方面表现不佳。一些现有的解决方案依赖于根据音量来分离语音,但在说话者说话的声音大小或与麦克风的距离不同的环境中,基于音量的方法并不可靠。其他解决方案需要对输入设备进行识别特定语音的训练,但要求用户明确地与设备互动以提供训练数据。此外,与单个用户发出的指令相比,语音分离系统不适合区分相关个人之间的对话。因此,使用传统的语音分离技术可能会导致在录音过程中捕捉到的重要信息被删除,或者根本无法删除不需要的数据。
当这些技术用于语音到文本或自动语音识别系统的预处理阶段时,转录质量就会受到影响。为了保护用户隐私和提供高质量的录音或转录,有必要从音频中去除这些不需要的语音。
人工神经网络(ANN)为分离不同来源的语音信号提供了一种很有前景的解决方案。申请人已提交了一份专利申请,其中公开了一种系统,该系统从记录事件的音频记录设备(如麦克风)接收混合语音信号x作为输入。该系统使用深度神经网络 (DNN)(ANN的一种),在聚类过程中促进特征分离。具体来说,DNN通过将特征表达映射到嵌入空间来学习信号x的高水平特征表达。随后,对这些特征表达进行聚类,每个聚类代表一个不同的语音源,从而分离出不同语音源的语音信号Sn,其中n∈{1, ……N} ,在混合语音信号中识别出来。这样分离出来的信号可应用于下游环节,如转录、从录音中删除语音命令以及上传到社交网站。
DNN可以是自动编码器、递归神经网络或卷积神经网络。在一个实施例中,DNN在由多个说话者的语音片段组成的音频数据集上进行语音分离预训练。训练数据可包括人工标注的音频,其中指定了单独的说话者和单独的对话,这样DNN就能学会区分单个声音和语音上下文。如下文所述,使用这些深度学习技术的优势在于可以通过简单的聚类来实现不同来源语音信号的分离。
传统的傅里叶变换描述的是整个信号的各种频率成分,而语音的频率成分会随时间变化。短时傅里叶变换(STFT)是一种数学工具,通过对信号的较小“窗口”或“帧”进行一系列傅里叶变换,在频率成分随时间变化时获得信号的表达。在一个实施方案中,混合语音信号x(t) 被划分为T个等长的交叠帧。该混合语音信号在STFT域中的处理过程如下。对于每个帧,通常会提取已知的时间特征,如音高、方差和过零率,并用特征矩阵FMtj表示,其中t是帧索引,j是特征索引。除了时间特征提取外,还利用STFT将混合音频信号转换为时频(TF)域Stf,其中f为频率仓的索引,从而生成每帧的频谱图。在这一步结束时,每帧用Xt表示,它对应于频谱图St和特征矩阵FMt的相应行。
DNN会学习输入混合语音信号x的高级特征表达。具体来说,DNN会将从频谱图St和相应特征矩阵FMt中获得的这些特征表达Xt转换为多维嵌入向量V,并将这些嵌入向量V作为输入信号的全局函数分配给TF仓(V =fθ(X),其中 fθ表示DNN函数)。DNN为每个TF区域分配嵌入向量V,使同一信号源主导TF仓的嵌入向量之间的欧氏距离最小,不同信号源主导的TF仓的嵌入向量之间的欧氏距离最大。这样,代表不同来源的所有TF仓的嵌入向量V就计算出来了。
接下来,使用k均值(k-means)聚类算法进行聚类,以分离混合信号中的不同语音源Sn。嵌入向量V被聚类为k个不同的组,每个组代表Sn的一个不同语音源。聚类算法任意选择k个初始中心C。然后,直到算法收敛,嵌入向量V被分配到与其最接近的聚类中心,每个中心被移动到其当前分配的聚类子集的平均值。这一过程结束后,嵌入向量V被划分为与不同组成源相对应的聚类Sn。
二进制时频掩码是通过使用二进制矩阵来表示应打开或关闭表示的哪些部分,从而分离信号。在音频处理中,二进制掩码是一个由二进制值组成的矩阵,这些二进制值与音源相对应,将其与频谱图相乘,即可包含或排除音频的某些部分。每个扬声器的二进制时频掩码是通过聚类分配获得的,方法是将对应于各自扬声器的所有TF仓赋值为1,其余TF仓赋值为0。反STFT将获得的分离信号转换到时域。分离出的语音信号可用于多种不同的下游应用,下文将对此进行讨论。
由于DNN将嵌入向量V作为函数的整个输入信号进行分配,因此嵌入向量V考虑到了输入信号的全局属性,从而使k个不同组与混合语音信号中识别出的N个源相对应,从而提供了出色的语音分离效果。本发明的这一特点是对之前语音分离方法的改进,因为它允许盲语音分离(即系统不需要事先知道说话者的数量,也不需要对混合音频信号中不同组成源的语音进行训练)。因此,DNN可以使用由较少发言人组成的混合语音信号进行训练,并可用于分离来自较多来源的语音信号。此外,由于这种语音分离过程同时使用了语音信号的时间和空间特征,并根据输入信号的全局属性推导出嵌入向量V,因此在自动语音识别(ASR)等下游应用中,它能很好地处理同一音频类别中不同说话人之间的差异。测试结果一致表明,在预处理阶段使用所公开方法的通用ASR系统,与传统的语音到文本系统相比,在重音扬声器的转录性能方面差距明显缩小。
该方法的一种应用是去除棒球比赛等活动录音中的语音命令或背景对话。通过传统方法,例如通过获取与不想要的信号源相对应的音频片段,来识别来自不想要的信号源(例如Ss)的语音信号。在一个实施方案中,用户可以通过提供要从混合音频信号x中编辑的非预期音频信号样本来请求分离语音信号。系统将样本的时间特征与源信号Sn进行比较,以找到最匹配的非预期源信号Ss。在反STFT步骤之后,将来自所有帧T的各种语音信号拼接在一起,排除来自Ss的语音信号。在一个优选的实施方案中,使用交叠添加法重建整个干净的语音信号。因此,输出是干净的音频信号x',这样x'包括了来自所有源信号Sn的语音信号,其中n∈{1, ……N},不包括来自Ss的语音信号。干净的音频信号x'被传输到远程位置存储,以应用于下游,如上传到社交网站。
另一种应用是实时语音转录或录音转录。在一个示例性实施例中,用户可以在回放录制的音频时,使用图形用户界面 (GUI) 要求转录混合语音信号x中所需的源信号Sd。在反STFT步骤之后,仅来自所需信号源Sd的语音信号会被传输到语音到文本系统。ASR或语音到文本系统使用通用方法从所需信号源Sd中提取频谱特征并生成词语序列,然后将其转换为文本。系统将翻译结果显示为GUI上的文本。
申请人介绍说,本专利申请中讨论的系统可由一个或多个处理器与一个或多个非临时性计算机可读介质耦合实现。此处所述方法可通过处理器执行存储在非临时计算机可读存储介质(如随机读取存储器、闪存、磁/光存储器等)上的计算机可读指令来执行。GUI是硬件或硬件与软件的组合。GUI与上述系统相连,被配置为接收用户指令并输出用户选择的音频转录。
权利要求
[权利要求1] 一种语音分离方法,包括:(a) 接收混合语音信号x,该信号由来自多个不同来源的语音Sn组成,其中n∈{1, ……N};(b) 使用短时傅里叶变换将混合语音信号x转换为时频域的频谱图,并获得特征表达X,其中X对应于混合语音信号x的频谱图和从混合语音信号x提取的时间特征;(c) 使用深度神经网络(DNN),利用公式 V =fθ(X)确定嵌入向量V,其中 fθ(X) 是混合语音信号x的全局函数。
[权利要求2] 权利要求1所述的语音分离方法还包括:(d) 将嵌入向量V划分为与不同源Sn相对应的簇;(e) 对簇应用二进制掩码以创建掩码簇;(f) 由掩码簇合成语音波形,其中每个语音波形对应一个不同的源Sn;(g) 合并语音波形,以生成混合语音信号x',通过拼接对应于不同信源Sn的语音波形,并排除来自目标信源Ss的语音波形,从而使混合语音信号x' 包括来自不同信源Sn的语音波形,并排除来自目标信源Ss的语音波形;(h) 将混合语音信号x'发送到远程位置存储。
[权利要求3] 一种非暂时性计算机可读存储介质,其上存储有计算机可执行指令,当这些指令被一个或多个处理器执行时,导致一个或多个处理器执行包括以下处理的操作:(a) 接收混合语音信号x,该信号包括来自多个不同来源的语音Sn,其中n∈{1, ……N},在深度神经网络 (DNN)中进行来源分离训练;(b) 使用DNN将混合语音信号x 的时频表达转换为特征空间中的嵌入,作为混合语音信号x的函数;(c) 使用K均值聚类算法对嵌入进行聚类;(d) 对聚类应用二进制掩码,以获得掩码聚类;(e) 将掩码簇转换到时域,以获得N个与不同声源Sn相对应的分离语音信号;(f) 从N个分离的语音信号中的目标源Sd提取频谱特征,并从频谱特征生成词语序列,以生成与目标源Sd相对应的语音信号转录本。
分析
权利要求1不适格。
权利要求的解释:根据最宽泛合理解释,权利要求的术语被推定为具有与本领域普通技术人员对说明书的解释一致的常规含义。参见《专利审查操作指南》(MPEP)2111。
关于步骤(a),权利要求没有对如何接收混合语音信号做出任何限定。对混合语音信号的最宽泛合理解释是包括来自不同来源的可听语音。混合语音信号可以通过用户设备中的麦克风或其他将声音转换为电信号的传感器而被接收。
关于步骤(b),权利要求规定,使用STFT将混合语音信号转换为时频域的频谱。获得与从混合语音信号x中提取的频谱和时间特征相对应的特征表达X。权利要求没有说明如何获得混合语音信号的时间特征和频谱。
关于步骤(c),权利要求规定,根据步骤(b)的结果,使用一个公式来确定嵌入向量。权利要求还规定,在确定嵌入向量时使用DNN。但权利要求中没有包含任何有关DNN或其操作方式的细节。
对权利要求1最宽泛合理解释是:一种方法,接收来自不同来源的口语音频、得出音频的时间特征表达和频谱,以及使DNN基于时间特征表达和频谱使用数学公式计算嵌入向量。
步骤1:这部分的适格分析评估权利要求是否属于任何法定类别。参见MPEP 2106.03。该权利要求记载了接收混合语音信号、转换混合语音信号和使用DNN确定嵌入向量的步骤或行为,因此是一个方法(一系列步骤或行为)。方法是发明的法定类别。(步骤1:是)。
步骤2A分支一:这部分的适格分析评估权利要求是否记载了司法排除对象。正如MPEP 2106.04第II小节所解释的,当司法排除对象在权利要求中被“阐释”或“描述”时,权利要求就“记载”了司法排除对象。该权利要求记载了步骤(b):“使用STFT将混合语音信号x转换为时频域的频谱,并获得特征表达X,其中X对应于混合语音信号x的频谱和从混合语音信号x中提取的时间特征”。在本权利要求中,将混合语音信号 x“转换”为时频域的频谱涉及使用STFT的数学运算。因此,该权利要求记载了使用特定变换函数将信号从一个域转换到另一个域的数学运算。权利要求还记载了步骤(c),即“使用公式V =fθ(X)确定嵌入向量V,其中fθ(X)是输入信号的全局函数”。所记载的公式显然是一个数学公式或等式,而“确定”则是一种数学计算。因此,该权利要求记载了一个数学公式或等式以及一种数学计算,两者都属于抽象想法中的数学概念类别。正如MPEP所解释的那样,当一项权利要求记载了属于相同或不同类别的多个抽象想法时,审查员应将这些限定视为一种单一的抽象想法,而不是作为多个单独的抽象想法进行单独分析。由于步骤(b)和(c)属于同一类抽象想法(即数学概念),这些限定被视为单一抽象想法进行进一步分析。(步骤2A分支一:是)。
步骤2A分支二:这部分的适格分析评估的是权利要求作为一个整体是否将所记载的司法排除对象融入排除对象的实际应用中。这一评估是通过以下方式进行的:(1)确定权利要求中除了司法排除对象之外是否还记载了任何附加元素;(2)对这些附加元素进行单独和组合评估,以确定权利要求作为一个整体是否将排除对象融入实际应用中。参见 MPEP 2106.04(d)。
权利要求在步骤(a)中记载了第一个附加元素,即“接收混合语音信号 x,该信号包括来自多个不同来源的语音Sn,其中n∈{1, ……N}”。如上所述,步骤(a)的权利要求具有高度通用性,可以描述以用户设备中的麦克风或其他声音传感器接收混合语音信号。该元素只不过是收集数据。为了使用所记载的司法排除对象进行计算(即将混合语音信号转换为时频域表示),必然需要获取数据。元素“接收”并没有对权利要求施加任何其他有意义的限定。因此,附加限定是解决方案之外的次要行为。参见MPEP 2106.05(g)。
该方法在步骤(c)中还记载了第二个附加元素“使用深度神经网络 (DNN) 确定嵌入向量V……”在确定一项权利要求是否仅仅记载了带有“应用它”(或等同词)的司法排除对象时,例如仅仅记载了指示在计算机上执行抽象想法,审查员可以考虑以下几点 (1) 权利要求是否只记载了解决方案的想法或结果,即权利要求没有记载如何完成问题解决方案的细节;(2) 权利要求是否仅仅将计算机或其他机器作为执行现有程序的工具;(3) 应用司法排除对象的特殊性或普遍性。参见 MPEP 2106.05(f)。在本案中,除了DNN被用于确定嵌入向量之外,没有关于特定DNN或DNN如何操作以得出嵌入向量的细节。DNN被用于一般性地应用抽象想法(即使用所记载的数学公式进行数学计算),而没有对DNN如何将作为输入信号的函数来推导嵌入向量的操作方法做出任何限定。此外,该限定只记载了使用DNN确定嵌入向量的想法,而没有详细说明如何实现。该权利要求省略了DNN如何解决技术问题的任何细节,而只记载了关于解决方案或结果的想法。此外,该权利要求仅仅记载了通用DNN作为进行所述数学计算的工具,而非旨在改进技术或计算机。参见MPEP 2106.05(f)。因此,该限定仅仅代表了指示在计算机上应用司法排除对象。它也可以被视为只是试图将司法排除对象的应用与计算机的技术环境泛泛地联系起来。
公开内容指出了在语音分离领域遇到的技术问题,并提供了本发明作为解决所指出的语音分离问题的方法。公开内容清楚地描述了本发明如何通过提供一种特殊的语音分离技术,解决从同一类别的不同语音源中分离出语音的问题,同时不需要事先了解说话者数量或说话者特征的训练,从而对现有的语音分离方法进行改进。具体地说,这种改进是通过确定作为输入信号函数的嵌入向量、将这些向量划分为簇,以及根据这些簇合成重建的混合语音信号来实现的。然而,该权利要求只要求确定嵌入向量,因此没有反映出公开内容中讨论的改进。所记载的通用DNN只是增加了一个通用的计算机组件来执行该方法,因此未能提供对技术或技术领域的改进。参见 MPEP 2106.05(a)。即使综合来看,这些附加元素也没有将所记载的司法排除对象融入到实际应用中(步骤 2A分支二:否),因此该权利要求是针对司法排除对象的。(步骤2A:是)。
步骤2B:这部分的适格分析评估的是权利要求作为一个整体是否明显超过了所记载的排除对象,即是否有任何附加元素或附加元素的组合为权利要求添加了发明构思。参见MPEP 2106.05。
在步骤2A分支二中,步骤 (c) 中的第二个附加元素“使用深度神经网络”被认为仅仅是指示在使用通用计算组件的计算机上应用司法排除对象。步骤2A分支二的分析贯穿于步骤2B。此外,步骤(a)中的第一个附加元素被认定为解决方案之外的次要行为。然而,在步骤2A中得出的某一附加元素属于解决方案之外的次要行为的结论,应在步骤2B中重新评估。参见MPEP 2106.05(g)。在步骤2B中,对解决方案之外的次要行为的重新评估要考虑到该解决方案之外的行为是否为该领域熟知、常规而普遍的行为。在本案中,接收混合语音信号的步骤仅仅是收集数据,该步骤被高度概括地记载,并且正如公开的内容所讨论的那样,是熟知的(例如,背景技术的第一段解释说,智能手机和其他设备早已配备了通过集成在设备中的麦克风接收混合语音信号的功能)。因此,即使重新评估,这一限定仍然是解决方案之外的次要行为,并没有达到明显超过的程度。
即使综合考虑,这些附加元素也仅仅指示是应用排除对象和解决方案之外的次要行为,因此没有提供发明构思(步骤2B:否)。权利要求不适格。
权利要求2适格。
权利要求的解释:根据最宽泛合理解释,权利要求的术语被推定为具有与本领域普通技术人员对说明书的解释一致的常规含义。参见《专利审查操作指南》(MPEP)2111。权利要求2是从属权利要求,依赖并要求权利要求1的所有限定。
关于步骤(d),权利要求没有对如何将嵌入向量划分为与不同来源相对应的簇做出任何限定。聚类可以使用公开的K均值算法或本领域普通技术人员已知的任何其他算法。
步骤(e)要求对聚类应用二进制掩码。对于本领域的普通技术人员来说,“应用二进制掩码”的通常含义就是使用二进制矩阵来指示哪些表述的部分应该打开或关闭的数学运算。这种掩码可以用本领域已知的任何方式进行,例如,对两个数字进行位操作或将二进制矩阵与另一个数字表述相乘等等。
步骤(f)合成来自掩码簇的语音波形,其中每个波形对应于混合语音信号的不同来源。背景部分说明该合成是通过使用反STFT将掩码簇转换为时域中的单独语音信号,与混合语音信号中的不同语音源相对应。
步骤(g)将步骤(f)中分离的语音波形拼接在一起,拼接的方式是将对应于不同声源Sn的语音波形拼接在一起,但剔除来自目标声源Ss的语音波形,这样得到的混合语音信号剔除了来自目标声源的至少一个语音信号,而包括来自其他声源的语音信号。背景技术部分指出,使用交叠添加法进行拼接,以重建整个干净的语音信号,但步骤(g)的范围很广,足以涵盖本领域已知的任何拼接方法。
步骤(h)规定将重建的混合语音信号传输到远程位置进行存储。请注意,这一步并不要求实际存储重构的混合语音信号,而是要求传输信号的预期结果是将其存储到远程位置。
如上关于权利要求1的描述,权利要求2的最宽泛合理解释是一种方法,即接收来自不同来源的口语音频、得出音频的时间特征表达和频谱,以及使DNN基于时间特征表达和频谱使用数学公式计算嵌入向量。然后将嵌入向量划分为若干个簇,使用二进制掩码对这些簇进行修改,并将修改后的簇合成为单独的语音信号。通过剔除来自一个信号源的至少一个语音信号,并包含来自其他信号源的语音信号,可生成一个新的混合语音信号。然后,传输合并后的混合语音信号。
步骤1:如上关于权利要求1的讨论,该权利要求记载了接收混合语音信号、转换混合语音信号和使用DNN确定嵌入向量的步骤或行为。从属权利要求2 进一步增加了以下步骤:将嵌入向量划分成簇,对簇应用二进制掩码并合成结果,将结果信号组合成混合语音信号,以及传输混合语音信号。因此,权利要求2是一种方法(一系列步骤或行为)。方法是发明的法定类别。(步骤1:是)。
步骤2A分支一:这部分的适格分析评估权利要求是否记载了司法排除对象。正如MPEP 2106.04第II小节所解释的,当司法排除对象在权利要求中被“阐释”或“描述”时,权利要求就“记载”了司法排除对象。如上关于权利要求1的讨论,步骤(b)和(c)记载了数学概念。步骤(d)记载了“将嵌入向量V划分为与不同来源Sn相对应的簇”。权利要求对如何进行这种划分没有任何限定。也就是说,权利要求中的任何内容都不妨碍在头脑中实际执行这一步骤。例如,“将……划分为簇”包括人类任意选择向量组并在头脑中将它们分配到簇中。本权利要求中对DNN的记载并不能否定这些限定的思维属性,因为本权利要求只是将DNN用作执行思维过程的工具。参见MPEP 2106.04(a)(2)第III.C小节。权利要求因此记载了思维过程。
该权利要求还记载了步骤(e)——“对聚类应用二进制掩码以创建掩码簇”。该步骤记载了基于二进制计算生成数字的数学运算。因此,该权利要求包含了进一步的数学计算,属于抽象想法中的数学概念类别。
“除非清楚地表明权利要求中包含了不同的排除对象,如自然规律和抽象想法,否则应注意不要将权利要求解析为多个排除对象,特别是在涉及抽象想法的权利要求中。”MPEP 2106.04,第II.B小节(在Bilski诉Kappos案中论述,561 U.S. 593 (2010))。因此,在可能的情况下,审查员应将这些限定视为一种单一的抽象想法,而不是多个单独的抽象想法进行单独分析。如上所述,权利要求2的步骤 (b)、(c) 和 (e)记载了数学概念,步骤 (d) 记载了思维过程。审查员应在步骤 2A分支一中确定权利要求同时记载了思维过程和数学概念,并将限定(b)-(e)共同视为一个单独的抽象想法进行进一步分析。参见MPEP 2106.04第II.B小节。
步骤(f)合成来自掩码簇的语音波形,其中每个波形对应混合语音信号的不同来源。这一步需要将步骤(e)的结果在时域上转换成单独的语音信号。从数字簇合成语音波形的过程无法实际上在人脑中完成。进一步来说,虽然合成涉及数学计算,但权利要求并没有具体说明任何数学公式、计算或关系。此外,步骤(f)不属于组织人类活动的方法,因为它不属于所列举的基本经济原则或实践、商业或法律互动、管理个人行为和人际关系或互动等子类别。
同样,步骤(g)将语音波形组合在一起,生成混合语音信号,具体方法是将不同信号源对应的语音波形拼接在一起,但不包括来自目标信号源的语音信号。尽管公开内容解释说,拼接可以通过交叠添加法(这是一种数学运算)来执行,但权利要求中并未详细说明如何执行拼接。此外,虽然权利要求中提到了变量,但变量本身并不是数学关系、公式或计算。因此,组合步骤只是基于或涉及数学概念,但并没有记载数学概念。生成混合语音信号,使其包括来自不同来源的语音信号,并剔除来自目标源的语音信号,这不是一种可以在人脑中实际执行的过程。因此,步骤(g)既不是数学概念,也不是思维过程。此外,步骤(g)也不是组织人类活动的方法,因为它不属于所列举的子类别。
如上所述,(b)-(e)项限定被视为一种单一的抽象想法,权利要求被视为包含了属于抽象想法的数学概念类别的限定。(步骤2A分支一:是)。
步骤2A分支二:这部分的适格分析评估的是权利要求作为一个整体是否将所记载的司法排除对象融入排除对象的实际应用中。这一评估是通过以下方式进行的:(1)确定权利要求中除了司法排除对象之外是否还记载了任何附加元素;(2)对这些附加元素进行单独和组合评估,以确定权利要求作为一个整体是否将排除对象融入实际应用中。参见 MPEP 2106.04(d)。
如上所述对权利要求 1的讨论,步骤(a)记载了接收混合语音信号的数据收集步骤,步骤(c)记载了使用DNN确定嵌入向量,相当于“应用它”。
步骤(h)记载了“将混合语音信号x' 发送到远程位置存储”。如上所述,传输混合语音信号 x' 的预期结果是将其存储到远程位置以供将来使用,例如用于音频播放或上传到社交媒体网站。这一限定仅仅是传输数据输出的后解决步骤——是对权利要求的一种微不足道的补充,并没有对权利要求进行有意义的限定。因此,步骤(h)是解决方案之外的次要行为。参见MPEP 2106.05(g)。在限定(b)、(c)、(d)和(e)中记载的抽象想法之外,其余的附加限定是限定(f)中记载的从掩码簇合成语音波形,以及限定(g)中记载的生成混合语音信号,其剔除来自目标源的语音信号。
步骤(f)记载了“合成来自掩码簇的语音波形,其中每个语音波形对应于不同的来源Sn”,步骤(g)记载了“通过拼接对应于不同来源Sn的语音波形,生成混合语音信号x’,剔除来自目标源Ss的语音波形,从而使混合语音信号x’包括来自不同来源Sn的语音信号,其中n∈{1, ……N},并剔除来自目标源Ss的语音信号”。步骤(f)和(g)将抽象想法融入到实际应用中。公开内容中解释说,捕捉音频的设备无法正确区分属于同一类别的不同语音源,而目前可用的解决方案并不能充分解决这一问题,因为它们需要目标用户(其语音需要被识别)明确地与设备进行交互,以提供训练数据。公开内容指出,本发明提供了一种特殊的语音分离技术,解决了将属于同一类别的不同语音源的语音分离出来的问题,同时不需要事先了解说话者的数量或针对说话者的训练,从而改进了现有的语音分离方法。该权利要求反映了公开内容中讨论的改进,详细记载了 DNN 如何帮助簇分配,以对应混合语音信号中识别出的语音源,然后在时域中合成为单独的语音波形,并转换为混合语音信号,剔除不需要的语音源的音频。参见 MPEP 2106.05(a)。虽然步骤(b)-(e)本身包含了司法排除对象,但步骤(f)和(g)的目的是创建一个新的语音信号,该信号不再包含来自不需要信号源的无关语音信号。所要求保护的发明通过包含这些特征反映了这一技术改进。此外,将语音簇转换为单独的语音波形,以及从单独的语音波形生成混合语音信号并不是解决方案之外的次要行为,也不仅仅是指示应用排除对象,或仅仅是使用领域的限定。相反,这些步骤反映了公开内容中描述的改进。因此,该权利要求针对的是对现有计算机技术或语音分离技术的改进,该权利要求将抽象想法融入了实际应用中。(步骤2A分支二:是)。权利要求适格。(步骤2A:否)。
权利要求3适格。
权利要求的解释:根据最宽泛合理解释,权利要求的术语被推定为具有与本领域普通技术人员对说明书的解释一致的常规含义。参见《专利审查操作指南》(MPEP)2111。前序部分明确指出,该权利要求涉及一种非暂时计算机可读存储介质,该存储介质包含指令,当指令被与其关联的一个或多个处理器执行时,可使处理器执行权利要求中所述的接收、生成和产生步骤。本公开内容给出了随机存取存储器、闪存、磁/光存储器等作为非暂时计算机可读存储介质的示例,但权利要求并没有说明非暂时计算机可读存储介质的类型。
关于步骤(a),权利要求没有对如何接收混合语音信号做出任何限定。对混合语音信号最宽泛合理解释是包括来自不同来源的可听语音。混合语音信号可以通过用户设备中的麦克风或其他将声音转换为电信号的传感器接收。权利要求要求对接收这种混合语音信号的DNN进行来源分离训练。
关于步骤(b),权利要求规定DNN用于将混合语音信号的时频表达转换为特征空间中的嵌入,但并未提供有关DNN本身的任何结构细节。说明书讨论了在STFT域处理混合语音信号以获得时间特征和频谱图,然后DNN使用这些特征和频谱图确定特征空间中作为输入信号函数的嵌入向量V。由于权利要求中没有说明如何获得混合语音信号的时频表达或如何将其转换为作为信号x的函数的嵌入,因此该子步骤可以按照说明书或本领域普通技术人员已知的任何其他方法执行。
步骤(c)要求使用k均值聚类算法对嵌入进行聚类,但对算法的实现方式不做任何限定。聚类可以使用本公开中描述的k均值算法,也可以使用本领域普通技术人员已知的其他方法。
步骤(d)通过对聚类应用二进制掩码获得掩码簇。对于本领域的普通技术人员来说,“应用二进制掩码”的常规含义是使用二进制矩阵来指示哪些表达部分应该打开或关闭的数学运算。这种掩码可以用本领域已知的任何方式进行,例如,对两个数字进行位操作或将二进制矩阵与另一种数字表达相乘等等。
步骤(e)要求在时域中将掩码簇转换为单独的语音信号,与混合语音信号中的不同音源相对应。权利要求没有具体说明如何进行转换。
最后一步(f)要求从步骤(e)的输出中仅从N个分离的语音信号中的目标源Sd提取频谱特征,并从频谱特征中生成词语序列,以生成与目标源Sd相对应的语音信号转录本。公开内容指出,从反STFT步骤输出的所需语音信号被传输到ASR,ASR使用传统方法从所需来源Sd中提取频谱特征并生成词语序列,然后将其转换为文本。权利要求中没有具体说明提取和生成的特定方式;因此,提取频谱特征和生成词语序列的步骤可以由本领域已知的ASR系统实现,以生成文本。
因此,对权利要求3最宽泛合理解释是,非暂时计算机可读存储介质存储指令,当指令被处理器执行时,使处理器执行以下步骤:通过DNN接收由来自不同来源的音频构成的混合语音信号,DNN从信号的时频表达计算嵌入向量。然后,将嵌入向量划分为簇,并将簇转换为时域中的单独语音信号。在这些分离的语音信号中,只有一个特定的分离语音信号会被转换成文本,从而生成一份转录本。
步骤1:这部分的适格分析评估权利要求是否属于任何法定类别。参见MPEP 2106.03。前序部分明确指出,该权利要求涉及一种非暂时计算机可读介质,该介质可使与其关联的一个或多个处理器执行一系列步骤。本公开内容给出了随机存取存储器、闪存和磁/光存储器作为非暂时计算机可读存储介质的非限定性示例。依据公开内容,对该权利要求的最宽泛合理解释只包括有关计算机可读介质的法定实施例,而不包括暂态信号。非暂时计算机可读存储介质属于“制造物”类别的发明。(步骤1:是)。
该权利要求记载了一系列步骤,因此是一种方法。参见MPEP 2106.03(步骤1:是)。
步骤2A分支一:这部分适格分析评估了权利要求是否记载了司法排除对象。正如 MPEP 2106.04 第II小节所解释的,当司法排除对象在权利要求中被“阐释”或“描述”时,权利要求即“记载”了司法排除对象。步骤(b)要求将混合语音信号的时频表达转换为特征空间中作为混合语音信号函数的嵌入,这是以文本格式书写的数学公式。步骤(c)需要通过k均值聚类算法对嵌入进行聚类,这是一种数学计算。步骤(d)通过对聚类应用二进制掩码来获得掩码簇,这也是一种数学计算。因此,权利要求中的数学计算属于抽象想法中的数学概念类别。
步骤(e)要求将特征空间中的点簇转换为时域中的语音信号,这不是人类头脑中可以实际完成的过程。此外,虽然转换可能基于数学概念,但权利要求中并没有说明任何数学公式、计算或关系。
最后,步骤(f)要求从步骤(e)输出的N个分离信号中仅提取一个目标源Sd的频谱特征,并从频谱特征生成词语序列,以生成与目标源Sd相对应的语音信号转录本。从信号中提取频谱特征并从这些提取的特征中生成单词序列以生成文本的过程并不能在人脑中实际完成。虽然这种提取和生成涉及数学运算,但权利要求并没有具体说明任何数学公式、计算或关系。步骤(e)和(f)也不属于所列举的人类活动组织方法的子类别。因此,步骤(e)和(f)不属于司法排除对象。
正如MPEP中所解释的,当一项权利要求记载了属于相同或不同类别的多个抽象想法时,审查员应将这些限定视为一个单一的抽象想法,而不是作为多个单独的抽象想法进行单独分析。如上所述,(b)-(d)的限定中记载了数学概念。由于(b)-(d)所有步骤都属于同一类抽象想法(即数学概念),这些限定被视为单一抽象想法进行进一步分析。(步骤2A分支一:是)。
步骤2A分支二:这部分的适格分析评估的是权利要求作为一个整体是否将所记载的司法排除对象融入排除对象的实际应用中。这一评估是通过以下方式进行的:(1)确定权利要求中除了司法排除对象之外是否还记载了任何附加元素;(2)对这些附加元素进行单独和组合评估,以确定权利要求作为一个整体是否将排除对象融入实际应用中。参见MPEP 2106.04(d)。
权利要求3的步骤(a) 作为附加限定记载了“接收混合语音信号x,该信号包括来自多个不同来源的语音Sn,其中n∈{1, ……N}” 正如上文权利要求解释部分所讨论的,该限定的要求具有高度通用性,可以描述通过用户设备中的麦克风或其他声音传感器接收混合语音信号。该限定只不过是收集数据。为了使用所记载的司法排除对象来执行步骤(b)、(c)和(d)的计算,必然需要获取数据。该限定并未对权利要求施加任何其他有意义的限定。因此,这一附加限定是解决方案之外的次要行为。参见MPEP 2106.05(g)。
在步骤(b)中记载的抽象想法之外的另一个附加限定是使用经过源分离训练的 DNN。在确定一项权利要求是否仅仅是以“应用它”(或等同物)的措辞记载了一个司法排除对象,例如仅仅指示是在计算机上实现一种抽象想法时,审查员可以考虑以下几点:(1) 权利要求是否只记载了解决方案或结果的想法,即权利要求没有记载如何完成问题解决方案的细节;(2) 权利要求是否只是将计算机或其他机器作为执行现有程序的工具;以及 (3) 应用司法排除对象的特殊性或一般性。参见 MPEP 2106.05(f)。在本案中,权利要求没有记载有关特定DNN的细节。DNN 被用来泛泛地应用抽象想法(即执行步骤(b)中记载的数学计算),而没有对DNN如何操作以推导出嵌入向量做出任何限定。此外,该限定还涵盖了使用DNN实现所述抽象想法的每一种模式。该权利要求省略了DNN如何解决技术问题的全部细节,而只记载了解决方案或结果的想法。参见MPEP 2106.05(f)。因此,该限定仅仅代表了指示实现步骤(b)中所记载的抽象想法,相当于在所记载的司法排除对象中添加了“应用它”的字样。此外,权利要求将步骤(b)中记载的司法排除对象的使用限定在DNN的技术环境中,将司法排除对象的使用与记载的DNN泛泛地联系起来。因此,这种一般性的DNN记载并没有将司法排除对象融入实际应用中。参见MPEP 2106.05(h)。因此,也可以将其视为只是试图将司法排除对象的使用与特定的使用领域或技术环境泛泛地联系起来。
剩余的附加限定是步骤(e)和步骤(f),步骤(e)在时域中将掩码簇转换为N个独立的语音信号,步骤(f) 仅从步骤(e)输出的N个独立信号中的一个目标源Sd 提取频谱特征,并根据频谱特征生成词语序列,从而生成一份转录本。这些额外限定将步骤(b)、(c)和(d)中记载的抽象想法融入语音至文本转换的实际应用中。
该公开内容解释说,由于无法区分属于同一类别的不同语音源,捕获音频的设备在区分感兴趣的人之间的对话和不需要的话语方面表现不佳,从而导致录制的语音转录质量低下。公开内容指出,本发明提供了一种特殊的语音分离技术,解决了从同一类别的不同语音源中分离语音的问题,同时还能很好地处理同一语音类别中不同说话者之间的差异,从而改进了现有的语音分离方法。该公开内容指出,本发明通过DNN根据输入信号的全局属性推导嵌入向量,这是对现有技术语音分离方法的改进。此外,本发明还使用了语音信号的时间和空间特征;本发明的这一特点有助于下游传统语音转文本系统缩小重音扬声器在转录性能上与传统语音转文本方法的差距。
在这里,权利要求反映了公开内容中讨论的这些技术改进,它详细记载了在音源分离方面经过训练的DNN如何帮助进行簇分配,以对应混合语音信号中识别出的音源,然后在时域中将这些音源转换为单独的语音信号,以便从频谱特征中生成单词序列,从而使每个分离的语音信号的单独转录成为可能。参见 MPEP 2106.05(a)。
虽然(b)、(c)和(d)步骤本身记载了一种抽象想法,但接收混合语音信号、处理语音信号以产生掩码簇、在时域中将掩码簇转换为单独信号、从这样的一个转换信号中提取频谱特征,以及从提取的频谱特征中生成词语序列以产生转录本等步骤的有序组合,反映了公开内容中讨论的技术改进。因此,该权利要求针对的是对现有语音到文本技术的改进,该权利要求将步骤(b)、(c)和(d)中记载的抽象思想融入语音到文本转换的实际应用中,该语音信号对应于混合语音信号的一个源。因此,权利要求作为一个整体将司法排除对象融入了实际应用中(步骤 2A分支二:是),因此权利要求并非针对司法排除对象。(步骤 2A:否)。该权利要求适格。
注释:
* 本文翻译自《July 2024 Subject Matter Eligibility Examples》,来源美国专利商标局官网,https://www.uspto.gov/patents/laws/examination-policy/subject-matter-eligibility。
来源:IPRdaily中文网(iprdaily.cn)
翻译:杜衡
特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。