Metody subjektivního hodnocení kvality hovorových signálů

Autor: J. Aksamít <aksamij(at)fel.cvut.cz>, Pracoviště: České vysoké učení technické v Praze, FEL, Téma: QoS, Vydáno dne: 08. 03. 2007

V dnešní době jsou stále více používány systémy umožňující přenos řečových signálů (telefonních hovorů) v paketové formě. Ke zhodnocení případného zhoršení kvality řeči lze použít subjektivní metody.

Subjective methods for voice quality classification

Abstract

Today are still in use systems, which enable transmission of voice signals (phone calls) in packet form. To evaluate potential decrease of voice quality subjective methods can be used.

Systémy pro přenos hovorových signálů založené na technologii zdrojového kódování řeči a následného paketového přenosu přes datové sítě se v dnešní době začínají rozvíjet a uplatňovat v čím dál větší míře. Jejich hlavní výhodou je úspora přenosové kapacity a výrazně nižší provozní i pořizovací cena. S tím úzce souvisí i úspora prostředků vynaložených na přenos hovorových signálů telekomunikační sítí a konečná cena hovoru. Při použití těchto zařízení je díky kódování snížena celková přenosová kapacita na cca jednu třetinu až čtvrtinu, při zachování únosné kvality signálu. Pomocí paketovacího mechanismu lze zase dosáhnout efektivního využití jednotných prostředků pro přenos dat i hovoru.

Je pochopitelné, že tyto výhody s sebou nesou i nevýhody. Těmi je hlavně zhoršení kvality přeneseného hovorového signálu a jeho zpoždění – obzvlášť při opakovaném kódování (kompresi) a rekonstrukci. Pro testování kvality přenosu řečového signálu telekomunikačními zařízeními a systémy byly vyvinuty dvě základní metody, subjektivní a objektivní. Metody jsou detailně popsány v doporučeních ITU-T řady P [1], [2], [3] a [4].

Metody subjektivního ohodnocení kvality

Metody subjektivního ohodnocení kvality jsou určeny pro obecné použití. Jsou nezávislé na typu degradace hovorového signálu, ať se jedná o ztrátu rámců, šum, chybovost přenosu, ozvěny nebo nelineární zkreslení při použití kodeků s nízkými přenosovými rychlostmi. K subjektivnímu posouzení kvality telekomunikačních zařízení a systémů lze použít dva typy metod - poslechové a konverzační.

Konverzační metody

Konverzační testy jsou určeny k laboratorní simulaci situací, se kterými se setkávají uživatelé telekomunikačních koncových zařízení. Při použití konverzačních testů je nutné zvolit vhodné podmínky a testovací subjekty, stejně důležité je i korektní vedení testu.

Princip testu je následující: dva testovací subjekty (osoby) jsou umístěny do dvou zvukotěsných místností, které jsou blízko kontrolní místnosti. Objem místností nesmí být menší než 20 m³. Šum v obou místnostech musí být udržován na nejnižší možné míře. Oba testovací subjekty vedou normální telefonní rozhovor a hodnotí kvalitu přenosu hovorového signálu, zatímco obsluha v kontrolní místnosti mění podmínky testu.

Škála pro ohodnocení kvality přeneseného hovorového signálu je v případě konverzačních testů pětistupňová:
5 - výborně (Excellent)
4 - dobře (Good)
3 - průměrně (Fair)
2 - špatně (Poor)
1 - nedostatečně (Bad)

Poslechové metody

Výsledky poslechových testů nejsou stejně realistické, jako testy konverzační. Omezení testovacích podmínek jsou proto v určitých aspektech méně přísná. Umělost tohoto testu znamená, že je nutné sledovat, kontrolovat a specifikovat mnoho parametrů, které jsou při konverzačních testech automaticky v rovnováze. Proces testování je však jednodušší, než u testů konverzačních. Princip testu je následující: testovací subjekt je umístěn do zvukotěsné místnosti, která má objem v rozmezí 30 - 120 m³. Šum musí být opět udržován na co nejnižší možné míře. Testovacímu subjektu jsou do sluchátka přehrávány testované hovorové signály a subjekt hodnotí jejich kvalitu pomocí jedné z metod uvedených dále.

Metoda absolutního ohodnocení - ACR

Při testu založeném na metodě ACR (Absolute Category Rating) jsou hodnoceny skupiny 2 - 5 na sobě nezávislých vět po přenosu telekomunikačním zařízením. Testované vzorky se hodnotí z různých hledisek. Následující škály ohodnocení jsou nejpoužívanější a také mají nejvyšší vypovídací hodnotu:

Škála poslechové kvality (Listening-quality scale) je stejná jako v případě konverzačních testů. Výsledkem ohodnocení testovaných vzorků je hodnota MOS (Mean Opinium Score).

Škála úsilí pro porozumění (Listening-effort scale) je opět pětistupňová a její hodnoty jsou:
5 - není nutné žádné úsilí (Complete relaxation possible; no effort required)
4 - není nutné značné úsilí (Attention necessary; no appreciable effort required)
3 - nutné určité úsilí (Moderate effort required)
2 - nutné značné úsilí (Considerable effort required)
1 - srozumitelné s maximálním úsilím (No meaning understood with any feasible effort)

Výsledkem ohodnocení testovaných vzorků je hodnota MOSLE.

Škála ohodnocení hlasitosti (Loudness-preference scale) - hodnoty této škály jsou:
5 - příliš hlasité (Much louder then preferred)
4 - hlasitější (Louder than preferred)
3 - přiměřená hlasitost (Preferred)
2 - tišší (Quieter than preferred)
1 - příliš tiché (Much quieter than preferred)

Výsledkem ohodnocení testovaných vzorků je hodnota MOSLP.

Metoda detekovatelnosti odezvy (Quantal-Response Detectability Method)

Tato metoda je ideální pro získávání informací o přítomnosti či nepřítomnosti některých rušivých vlivů (například ozvěny), které se mohou vyskytnout v hovorovém signálu. Škála ohodnocení je v případě testů vytvořených na základě této metody většinou třístupňová, obsahuje stupně:
A - slyšitelné - rušící (Objectionable)
B - slyšitelné - nerušící (Detectable)
C - nerušící (Not Detectable)

Metoda ohodnocení degradace - DCR

Metoda ACR není vhodná pro testování kvalitních hovorových signálů, neboť není dostatečně citlivá. Citlivější metodou pro tyto signály je metoda ohodnocení degradace DCR (Degradation Category Rating). Metody tohoto typu jsou založeny na porovnávání testovaného signálu se signálem referenčním. Hovorové signály jsou testovacímu subjektu předkládány po dvojicích (A-B) nebo po opakovaných dvojicích (A-B-A-B), kde A je signál testovaný a B referenční.

Škála ohodnocení je pětistupňová a obsahuje body:
5 - degradace je neslyšitelná (Degradation is inaudiable)
4 - degradace je slyšitelná, ale neruší (Degradation is audiable but not annoying)
3 - degradace příliš neruší (Degradation is slightly annoying)
2 - degradace je rušící (Degradation is annoying)
1 - degradace je velmi rušící (Degradation is very annoying)

Výsledkem ohodnocení testovaných vzorků je hodnota DMOS.

Metoda ohodnocení rozdílů - CCR

Metoda CCR (Comparison Category Rating) je velmi podobná metodě DCR. Testovacím subjektům jsou opět předkládány dvojice signálů, pořadí signálů se náhodně mění. Subjekt tedy nemá informaci o tom, který ze signálů je testovaný a který je referenční. Subjekty tedy o dvojici signálů podávají dvě informace: Který ze signálů byl kvalitnější? a o kolik?

Škála ohodnocení je sedmistupňová a obsahuje stupně:
3 - o mnoho lepší (Much better)
2 - lepší (Better)
1 - o málo lepší (Slightly better)
0 - přibližně stejné (About the same)
-1 - o málo horší (Slightly worse)
-2 - horší (Worse)
-3 - o mnoho horší (Much worse)

Výsledkem ohodnocení testovaných vzorků je hodnota CMOS.

Faktory ovlivňující výsledky subjektivního hodnocení

Na základě empirických zkušeností získaných z testů subjektivního hodnocení bylo zjištěno, že se výsledky jednotlivých hodnotitelů se mohou i výrazně lišit v závislosti na okolním šumu, na stavu sluchových orgánů hodnotitelů, na únavě hodnotitelů, na místě konání testu atd.

Okolní šum

Jestliže je hladina okolního šum nižší o méně než 12 dB, stává se hovorový signál naprosto nesrozumitelným [6]. Doporučení požaduje, aby hladina šumu byla co nejnižší, ideálně by měla být nižší o více než 60 dB než je hodnocený vzorek.

Stav sluchových orgánů

Stárnutím dochází k různým poruchám a poškozením sluchových orgánů. Např. velmi významnou poruchou sluchu je chronické akustické trauma [7]. Při této poruše dochází k trvalé sluchové ztrátě typicky na frekvencích 3 až 6 kHz, ačkoliv se postižený pohyboval v prostředí se širokopásmovým hlukem.

Místo konání testu

Doporučení vyžadují konání testu ve zvukotěsné místnosti větší než 20 (30) m³. Tato místnost by měla být také bezodrazová. V menších místnostech může dojít ke zkreslení zvuku vlivem odrazu.

Závěr

Subjektivní hodnocení kvality řeči může být dobrou pomůckou při testování telekomunikačních zařízení, avšak je velmi náročné na čas, podmínky testu a prostředky použité pro test. Pro dosažení nezávislého výsledku je třeba několik desítek (spíše stovek) hodnotitelů. Proto jsou pro určitá vývojová hodnocení lepší objektivní metody, byť v některých případech nejsou vždy věrné. Objektivními metodami se zabývá další článek.

Tento článek vznikl v rámci grantu FRVŠ G1 2006 - 2830.

Literatura

[1] Doporučení ITU-T P.800: Methods for subjective determination of transmission quality.
[2] Doporučení ITU-T P.862: Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs.
[3] Doporučení ITU-T P.862 Amendment 1: Revised Annex A: Source code for the reference implementation and conformance tests.
[4] Doporučení ITU-T P.830: Subjective performance assessment of telephone-band and wideband digital codecs.
[5] BENSON, B. K. Audio Engineering Handbook. McGRAW-HILL BOOK, New York, 1998.
[6] GAN, R. Z. – FENG, B. – SUN, Q. Three-Dimensional Finite Element Modelling of Human Ear for Sound Transmission. Annals of Biomedical Engineering., 2004, vol. 32, no. 2, s. 847–859.
[7] LÍK, J. – PELLANT, A. – CHROBOK, V. Vztah akustiky zevního zvukovodu a chronického akustického traumatu. Pardubice, 2002. Závěrečná zpráva o řešení projektu podpořeného Interní grantovou agenturou Ministerstva zdravotnictví ČR, reg. č. NK 6179-3.