AG Kommunikationstheorie
Thema
Unattended testing of interactive voice response systems through content-based audio identification (Automatisierte Tests von Sprachdialogsystemen mittels inhaltsbezogener Audioidentifizierung)Abstract
Today automatic speech recognition is well understood and quite sophisticated, speaker independent implementations exist, able to recognize a speaker's voice in an IVR system without prior training. However, such implementations are very extensive, the code base is very complex and the usual word error rate is too high for a test system the reliability of which should exceed the one of the system under test by at least an order of magnitude. The set of defined announcements for a given IVR system is usually known in advance, thus reducing the search-space dramatically. It will be examined to what extent features of a digital audio signal are suitable to generate robust hashes of audio signals. A method is developed to use these hashes for comparing a voice announcement recorded via the telephone network against the set of all defined IVR outputs. This way it becomes possible to decide which reference signal can be considered identical to the recorded one. By comparing this match against the expected one it becomes feasible to rate the IVR's correctness. Finally the efficiency and reliability of the developed method is evaluated.Kurzfassung (auf Deutsch)
Heutzutage ist die automatische Spracherkennung weit fortgeschritten und es werden sprecherunabhängige Ansagen ohne spezielles Training auf die Stimme von guten Sprachdialogsystemen erkannt. Jedoch ist die Implementierung solcher Verfahren aufwändig, der Code umfangreich und die Erkennungsfehlerrate für ein Testsystem, das in seiner Zuverlässigkeit diejenige des zu testenden Systems weit übertreffen soll, deutlich zu hoch. In Sprachdialogsystemen ist die Menge an möglichen Ausgaben durch das System im Vorfeld bekannt, wodurch sich der Suchraum erheblich verkleinert. Es wird untersucht, inwieweit verschiedene Merkmale eines digitalen Audiosignals, geeignet sind um einen robusten Hashwert des Audiosignals zu bestimmen. Es wird dann ein Verfahren entwickelt, um die über das Telefonnetz aufgezeichnete Sprachansage mit verfügbaren Referenzsignalen anhand der berechneten Hashwerte zu vergleichen. Dadurch wird es möglich zu entscheiden, mit welchem Referenzsignal das aufgezeichnete übereinstimmt. Durch den Abgleich von erwarteter und tatsächlicher Übereinstimmung kann so eine Aussage über die korrekte Funktion des Sprachdialogsystems getroffen werden. Schließlich wird die Effizienz und Zuverlässigkeit des entwickelten Verfahrens evaluiert.