1、声音是人耳可以听到的波。其振动频率在20 ~ 20000赫兹之间。
2、言语产生的过程
语音的形成过程:空气从肺部排入咽喉,通过声带进入声道,最后从口腔辐射出声波形成语音。3、声音的分类(概念:理解记忆)
浊音:声带绷紧,气流通过时,开口会变成开合的周期性动作,产生气流的周期性激发,如A、O;
(声带振动产生的声音),包括所有元音和部分辅音。
发声:声带充分拉伸,声道某一部分收缩形成狭窄通道,产生空气湍流,如T、D;
(声音不是由声带振动产生的)
爆破声:声带完全拉伸,部分声道完全闭合。一旦闭合点突然打开,气压迅速释放,如B,P.4、语音的两个重要声学特征——基音频率和共振峰(记忆)
基音频率(F0):由声带的大小、特性和张力决定,其值等于声带开合一次时间的倒数(此处去掉了基音周期的定义)。人的基音频率范围约为80 ~ 500 Hz。
共振峰(Fn,n=1,2,):声道是一个共振腔,它放大声音流的一些频率成分,衰减其他成分。被放大的频率称为共振峰或共振峰频率。
5、共振峰特征:(理解)
共振峰是声道的重要声学特征。信道对激励信号的响应可以近似地用具有多对极点的线性系统来描述。每对极点对应一个共振峰频率。这种线性系统的频率响应特性称为共振峰特性,它决定了信号频谱的大致轮廓,或频谱包络。
语音的频率特性主要由共振峰决定。声道的共振峰特性决定了声音的频谱特性,即音色。
元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从由语音信号的频谱分析获得的振幅-频率特性中观察到。
6、完整语音信号生成的数字模型:(会画图说明模型各部分的原理和特点)
我们可以把语音信号看成是准周期序列或随机噪声序列,看成是线性不变系统的输出。这个模型可以分为三个部分:激励模型、声道模型和辐射模型。
语音完整性的数字模型(重点)
一、激励模型
A.浊音激发:当气流通过绷紧的声带时,冲击声带产生振动,使声门形成周期性的脉冲序列,并利用它来兴奋声道。
因为脉冲序列类似于斜三角脉冲,所以以基音周期为周期的单位采样序列序列作为激励。
b清音激发:声带松弛无振动,气流通过声门直接进入声道。
发声清音时,声道被堵塞形成湍流,所以激励可以模拟成随机白噪声。
二、渠道型号
A.音管模型:将声道视为由多个不同截面积的管串联而成的系统。
b共振峰模型:把声道看成一个共振腔,共振峰就是这个腔的共振频率。
级联型
适用于一般单声道,声道被认为是一组串联的二阶共鸣器,采用全极点模型。
并联型
适用于不常见的元音和大部分辅音。在发这些音时,发音腔具有反共振特性,必须在模型中加入零点来削弱谐波。
震动强度,所以要考虑使用零极点模型。
混合型
我们可以根据发音的需要自动切换串联或并联路径。另外,并联部分有一条直通路径,其幅度控制因子为AB。
这是专门为一些频谱特性平坦的音素考虑的,比如[f]、[p]、[b],以增强反共振特性。
三、
1.这个模型并不是最完整的模型,因为它不适用于某些声音,比如浊音中的摩擦音。这种声音应该是浊音和清音的刺激,而不是简单的叠加关系。我们可以用更精确的模型来模拟这些声音。
2.在语音产生的数字模型中,增益控制(对于Av或AN)表示输出语音的声音强度;
时变线性系统主要用于模拟声道的特性;
3.基于该模型实现了数字语音处理中的两个基本问题,即语音分析和语音合成;
4.该数字模型的特点:
固定系统参数——短线分析;
全极点性质3354零点可以用多个极点近似;
彼此独立的源和通道——适用于大多数数字语音处理。
7、窄带和宽带声谱图的定义和特征(深度理解)
声谱图:语音信号的声谱图,横坐标是时间,纵坐标是频率。
窄带声谱图:声谱图由傅里叶变换产生。当我们使用较长的分析窗口(约20ms,对应的带宽约为45Hz)时,得到的频率分辨率较高,在频谱上可以看到共振分量。在声谱图上,有等距的黑白水平线,其间距为基频(F0)。
宽带频谱图:如果在转换计算中使用较少的采样点(分析窗口约为3ms,对应的带宽约为300Hz),共振分量可以在光谱上是看不到的,而等距的黑色和白色可以在光谱图上看不到。频率低,但时间轴上分辨率高,看到明显的竖线。
共振峰:
在频域中,能量集中的地方就是共振峰所在的地方,在频谱图中,就是颜色较暗的地方。
元音发音时,声强高,声带振动呈现基频及其共振频率。共振峰也可以清晰看到,能量集中在低频。
如果是辅音,声带不振动,共振频率是看不出来的。通常辅音的声强较弱,所以颜色看起来较浅,能量集中在高频。
如果发音没有间隙,声谱图就有间隙。
标签:声道声带语音