|
4.2 语音编码方式、延时、抖动和丢包对R值的影响
网络损伤的主要因素包括语音编码、回声、平均包延时,抖动和包丢失率。回声产生于IP网络与传统PSTN相连处,在单一VoIP网络内部暂不讨论。在一个仅由编码、延时、抖动和丢包造成系统失真的情况下,R的计算公式可以简化如下:
R = Ro-Icodec-Idelay-Ipdv-Ipacketloss
下面将讨论这四个主要损伤因素对R值的影响。
在语音处理中,编码是以硬件或软件的方式去采样语音和决定数据包的速率。ITU标准定义了差不多十几种编码方式,每一种都有不同的特点。低速的编码方式占用更少的带宽,但是因为使用有损的压缩算法,低速编码更加削弱了语音质量。在实际情况中,选择低速的编码方式能够在相同的连接上建立更多的呼叫,但是引入了更大的延时,使语音质量对丢包也更加敏感。因此选择越低速率的编码方式,将明显地减少E模型的R值,当然这也不是完全绝对的。下表显示了一些常用的编码方式对应的Ie值和固有R值[4]。
延时是指话音从发起者到接收者所经过的时间[5],一般而言,端到端的延时由以下四部分组成:
(1)传播延时:指话音从一端到另一端通过网络的时间,由信号通过传播媒介的速度和传播的距离决定
(2)传送延时:指通过网络路径上的所有网络设备的时间
(3)包转化延时:指的是编码器进行数模转化的时间
(4)抖动缓冲延时:指的是在接收端用来保持一个或多个接收的数据包的时间,用来克服数据包到达时间的变化,也就是克服抖动产生的延时
延时会引起语音会话过程的空白,带来语音的变形和会话的中断,也就是说,延时的增大导致了R值的减小。延时的时长在100~200ms之间开始被收听者所察觉,使得会话不自然。建议的延时上限为150ms,若延时达到200ms则开始有严重的会话中断。
抖动,也叫做延时的变化,是指在一个VoIP呼叫过程中所有发送的数据包到达的时间差异。当一个数据包发送时,发送端在RTP报文头上增加一个时间戳;当在另一端被接收时,接收端同样增加另一个时间戳;计算这两个时间戳可以得到这个数据包的通路时间。如果在一个呼叫中包含不同的通路时间,则存在抖动。在视频应用程序中,抖动表现为图像闪动,而在电话呼叫中,它表现的效果与丢包产生的效果相似,某些字词听不清楚或错误。抖动的大小取决于数据包的通路时间的差异程度,差异程度越大,则抖动也越大。如果抖动值大于50ms,则平均主观值MOS值剧烈地降低,认为是极差的语音质量。通过增加抖动缓冲的数量,可以有效地降低抖动的影响,但是增加了一毫秒的抖动缓冲,则相应增加了一毫秒的网络延时。
丢包是一个影响语音质量的关键因素。数据包发送端和接收端之间的数据包数目的差值即为网络传输丢失包数目。VoIP使用RTP实时传输协议传输语音数据包,虽然可以利用RTP报文头的序列号检查数据包的丢失和乱序,但是它并没有重传机制。任何丢包和乱序都将影响语音的质量。网络主要有两种类型的丢包情况,一种是或多或少的随机丢包,当网络保持冲突碰撞时,就会偶尔有一个或两个数据包发生丢失;另一种是爆裂丢包,是指连续一个以上的数据包丢失,会显著地影响语音质量,明显减小R值。当少量的丢包是随机地分布时,人耳并不容易感觉到较差的语音质量。
E-model测量方法正是将这些网络的损伤因素充分予以考虑,以此作为对网络语音质量的全面传输评估,真正意义上的研究了数据包化的语音呼叫的质量问题。
5 运用E-model对实时的VoIP网络进行语音质量测量
一种E-model在实时网络测量中的应用[6],就是测量几个有限的E 模型参数,同时估计其它非测量参数,从而运算出反映网络全面传输质量的R值。一种客观的语音质量测量输出了MOS值,将该MOS值转换为Ie参数,与此同时根据网络信息查找E模型参数参考表得到非测量参数的值,最后将所有的参数进行运算,得到最终的反映全面质量的R值。 |