aa r X i v : . [ phy s i c s . c l a ss - ph ] M a y Untersuchungenzur Sprechtraktakustik
Dissertationzur Erlangung des Doktorgradesder Naturwissenschaftenvorgelegt beim Fachbereich Physikder Johann Wolfgang Goethe-Universitätin Frankfurt am MainvonFrank Ranostajaus Frankfurt am MainFrankfurt am Main, 2012
NHALTSVERZEICHNIS i Inhaltsverzeichnis
I Grundlagen 3
NHALTSVERZEICHNIS ii II Akustik des Nasaltrakts 52
10 Validierung 75
III SPEAK 79
11 Analyse und Visualisierung 79 Z -Ebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8111.4 Rohrmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
12 Besonderheiten der Implementierung 85
NHALTSVERZEICHNIS iii
IV Akustik des Vokaltraks 88
13 Äquivalenz zwischenFinite-Differenzen und Kreuzgliedkettenfilter 8814 Reflexionsfreier Abschluss 91
15 Anwendung am Beispiel eines Laterallauts 97
Zusammenfassung 102V Anhang 106
16 têtes parlantes de l’abbé Mical 10717 Z -Transformation 111 Literatur 114Danksagung 133Nachtrag 134 . Einleitung Das Sprechen ist ein vielschichtiger Vorgang. Diese Arbeit betrachtethierin die Akustik der Sprachentstehung. Physikalisch kann man Spracheals die Schallabstrahlung während des Sprechens, Phonation als die Schall-erzeugung, und Artikulation als die zeitliche Variation der sprachformendenSprechtraktgeometrie sehen. Diese Sicht führt zu einer über zweihundertJahre alten Zielsetzung der Sprachforschung [Kr1781]:
Hae undae sonorae ex larynge in tubam adfixam incidentes indevario modo et sub variis directionibus reflectuntur, et instar vocishominum per tubam stentoream propagantur. ... Diese Schallwellen aus der Larynx [sollen ] in dem davorliegenden Rohr inverschiedener Art und unter verschiedenen Richtungen reflektiert werden, sowie sie bei der menschlichen Stimme durch den Sprechtrakt geleitet werden. Die Schwierigkeiten, dieses Vorgehen umzusetzen und durch Modelle dieSprechtraktakustik nachzuvollziehen, sind in wesentlichen Bereichen die glei-chen geblieben. Die Artikulation ist wie die Sprache variantenreich und kannsehr dynamisch sein. Der Ausgangspunkt der Betrachtung, die Kenntnis derSprechtraktgeometrie, ist unter anderem deshalb nicht unmittelbar zu er-langen. Trotz vielfältiger Fortschritte in der Untersuchungsmethodik ist esnoch immer nicht möglich, die Geometrie in drei Raumdimensionen undderen zeitlichen Verlauf vollständig zu erfassen.Erst durch eine Untergliederung der Sprache in charakteristische Ef-fekte ergeben sich Lautgruppen, für die es gelingt, angepasste Verfahrenzur treffenden Bestimmung der Sprechtraktgeometrie zu finden. Zwei Bei-spiele verdeutlichen dies: Für Vokale und vokalähnliche Laute findet sicheine gute Übereinstimmung der Sprechtraktquerschnittsflächeninhalte unddes Sprachsignals, indem man die Ausbreitung ebener Schallwellen längsdes Sprechtraktes betrachtet; es gelingt zudem, aus einem Sprachsignal aufdie Artikulation und deren zeitlichen Verlauf zurückzuschließen [Sc09]. An-dererseits schließt das Modell ebener Schallwellen seiner Definition nach dieBetrachtung von Quermoden aus, beispielsweise bei Nasallauten in den Na-sengängen. Auch Dämpfungen der Schallwellen augrund der lateralen Quer-schnittskontur ergeben sich nicht aus diesem Modell. In die entgegengesetz-te Richtung zielen Untersuchungen von Raummoden im Schallfeld mittelsFinite-Elemente-Approximationen der Sprechtraktgeometrie, die sich häufig
1. [Le99] hebt beispielweise folgende Schichten hervor: – conceptual preparation,– lexical selection,– phonological encoding,– phonetic encoding,– articulation
2. Der Autor räumt an anderer Stelle der Studie ein, dass ihm das Vorhaben noch nichtganz gelungen sei. . Einleitung major obstacle bezeichnet.Diese Arbeit liefert Beiträge zur Modellierung des Artikulationsprozes-ses, die die in den Beispielen aufgezeigten Unzulänglichkeiten an wichtigenStellen überwinden. Zunächst wird ein Überblick über verschiedene Dis-kretisierungsmöglichkeiten zur akustischen Untersuchung dreidimensionalerStrukturen gegeben. Ein Verfahren, Finite-Differenzen, wird anschließendgenauer betrachtet: Es zeigt sich, dass es die Anforderungen zur Analyseder Artikulation in fast idealer Weise erfüllt. Für eine möglichst geeigneteDatenbasis werden drei verschiedene Tomographie-Methoden, namentlichKryosektion, Computer- und Kernspinresonanz-Tomographie, für den Na-salbereich miteinander verglichen – wobei sich erhebliche Unterschiede inder Qualität der Datensätze zeigen. Gemeinsam ist den Datensätzen eineUntergliederung in sogenannte
Voxel , quaderförmige Raumbereiche, an diedie Finiten-Differenzen mittels dem hier entwickelten und als partielle Volu-men bezeichneten Verfahren angepasst werden. Mit diesem Vorgehen gelingtdie direkte Übernahme der tomographischen Daten ohne Informationsver-lust.Zur Bestimmung der akustischen Eigenschaften erfolgt die Integrationder Wellengleichung im Zeitbereich. Hierbei zeigt sich, dass Erweiterungenwie Wandreibung und Wärmeleitung als lineare Dämpfungsmechanismender Schallausbreitung im Sprechtrakt in diese Modelle einfach zu integrie-ren sind und der Nasaltrakt mit hoher Detailtreue modelliert wird. Eineeffiziente Implementierung des Finite-Differenzen-Algorithmus hält die Re-chenzeit hierfür in Grenzen.Vokaltraktkonfigurationen in dynamischen Artikulationsphasen werdenmit
Speak ermittelt.
Speak ist ein im Rahmen dieser Arbeit entwickeltesProgramm, das über umfangreiche Analyse-, Synthese- und Visualisierungs-möglichkeiten für typische Prozesse der Sprechakustik verfügt. Der damitbestimmte Verlauf des Querschnittsflächeninhalts wird mit einer Konturaus Magnetresonanz-Tomographien versehen, um zu einem wirklichkeitsna-hen dreidimensionalen Modell zu gelangen. Für einen Laterallaut wird dasVerfahren beispielhaft angewendet. Anhand dieser Ergebnisse werden fürweitere Lautgruppen die Vorteile der Herangehensweise aufgezeigt und dis-kutiert.Die in dieser Arbeit verwendeten Begriffe orientieren sich an der Empfehlung[ITG94]. . Laute Teil I
Grundlagen
In den folgenden Abschnitten wird zunächst die gebräuchliche phoneti-sche Segmentierung und eine darauf basierende Klassifizierung von gespro-chener Sprache vorgestellt, anhand derer sowohl die Akustik der Lautentste-hung als auch die Anatomie des Sprechtraktes erörtert wird. Darauf folgendwerden Modelle des Sprechtraktes betrachtet, mit denen zunehmend genauerdie Akustik und die relevante Anatomie nachgebildet werden. Anhand ei-niger Beispiele werden die Erkenntnisse zur Lautentstehung aufgezeigt, dieman aus diesen Modellen gewinnt. Das Rohrmodell, welches vereinfachenddie Ausbreitung ebener Schallwellen entlang des Vokaltraktes beschreibt undwesentliche Lauteigenschaften erklärt, wird dann eingehender betrachtet.Abschließend werden ein Überblick über die Morphologie des Nasaltraktesgegeben und verschiedene Methoden diskutiert, die Schallausbreitung hier-für dreidimensional zu berechnen.
Für eine akustisch motivierte Modellierung des Sprechens ist es nahelie-gend und hilfreich, zunächst die während des Sprechens ablaufenden artiku-latorischen Vorgänge und die sich daraus ergebenden akustischen Effekte zubetrachten und qualitativ zu verstehen. Dazu wird eine Unterteilung der kon-tinuierlichen Sprachäußerung in Elemente vorgenommen, den Lauten oderPhonen. Die Elemente werden dabei in Lautklassen zusammengefasst, diein den akustischen Effekten differieren, hervorgerufen durch unterschiedlicheschallanregende Mechanismen und artikulierende Organe. Ein Querschnittdurch den Sprechtrakt in Bild 2.1 zeigt die Lage der beteiligten Organe.Phonetischen Konventionen folgend kann man die Laute in Vokale undKonsonanten unterteilen, wie in dem nachfolgenden Diagramm, Bild 2.2,und Tabelle 2.2 in der überwiegend verwendeten Notation des
InternationalPhonetic Alphabet nach [IPA99] dargestellt. Beispiele für die Aussprache derPhone werden in Tabelle 2.1 für die deutsche Sprache gezeigt. In Tabelle 2.2erkennt man, wie sich die Konsonanten hinsichtlich Artikulationsort undArtikulationsart unterscheiden.Die Unterteilung in Vokale und Konsonanten ist beispielsweise von pho-notaktischer und perzeptiver Bedeutung: Vokale tendieren zum Silbenzen-trum und weisen eine hohe Sonorität auf, wie [Si1881, Ze95] verdeutlichen.Im Hinblick auf ein akustisches Modell des Sprechtrakts ist jedoch eine Grup-pierung naheliegender, die sich zunächst an den physikalischen Prozessen derSchallentstehung und im weiteren an der Schallausbreitung orientiert. DieArtikulationsstelle ist dabei nachrangig: sie verschiebt letztlich nur bestimm- . Laute Kehldeckel ( )
Epiglottis
Zähne ( )
Dentes
NasaltraktGaumen (
Palatum )Gaumensegel (
Velum )Gaumenzäpfchen (
Uvula )Zunge (
Lingua )Rachen (
Pharynx )Kehldeckel (
Epiglottis )Stimmritze (
Glottis )Luftröhre (
Trachea )SpeiseröhreKehlkopf (
Larynx ) Lippe (
Labium )Lippe (
Labium )Zähne (
Dentes )Alveolen
Bild 2.1:
Anatomie des Sprechtrakts te Effekte innerhalb einer Gruppe, ohne sie grundlegend zu ändern. Anhanddieser Gruppierung wird im Folgenden ein Überblick über die verschiedenenLaute gegeben.
In dieser Gruppe erfolgt die Anregung von Schallwellen durch die Schwin-gung der Stimmbänder, die nahezu periodisch durch einen in der Lunge er-zeugten Luftdruck geöffnet und durch den dann entstehenden Luftstrom auf-grund des Bernoulli-Effekts wieder geschlossen werden. Die Schallabstrah-lung erfolgt durch den geöffneten Mund.Artikulatorisch unterscheiden sich die Vokale durch Mundöffnung und-rundung sowie durch die Stellung der Zunge. Die Zungenstellung beein-flusst den Querschnittsverlauf des Rachenraumes, damit die Reflexion derSchallwellen in diesem Bereich und so letztlich den Klang. Die Artikulato-ren sind im zeitlichen Zentrum der Äußerung eines Vokals nahezu unbewegt.Die zweidimensionale Darstellung in Bild 2.2 verdeutlicht den Einfluss derZungenstellung auf die Artikulation von Vokalen. Die Lautdauer von Voka-
4. Die Entwicklung des Vokaltrapezes zeigt [Ru28]. . Laute
5i y r r W u r e ø r r o r E œ r r r a Œ r A 6 r r U æ ✁✁✁✁✁✁✁✁✁❆❆❆❆❆❆❆❆❆ vorne mitte hintentiefmitteltiefmittelhochhochZungenhöhe Zungenrückenposition Bild 2.2:
Vokale. Die Achsen stellen die übliche artikulatorische Vokalmetrik dar:die horizontale Achse repräsentiert die Zungenrückenposition und die vertikale Ach-se die Zungenhöhe bzw. Kieferstellung. Bei paarweise dargestellten Vokalen sind dieLippen bei der Artikulation des linken gespreizt und des rechten gerundet. Trotzgleicher Notation variiert je nach Sprache die Lage der Vokale in dem gezeichnetenVokaltrapez. Die Anzahl der Vokale in einer Sprache kann von 2-3, je nach Klas-sifizierung, bis über 20 reichen, vgl. [GoA06, Tr95]. Entsprechend genau muss derKlang der Vokale unterschieden werden.Diese Darstellung gibt auch Hinweise auf den Klang des Vokals selbst. Der Zusam-menhang ergibt sich aus prominenten Frequenzbereichen, die den Klang des Vokalsprägen und als Formanten bezeichnet und fortlaufend nummeriert werden. Einehohe Zungenhöhe bewirkt einen tiefen Formanten F1 und eine tiefe Zungenhöheeinen hohen Formanten F1. Die horizontale Achse repräsentiert den Formanten F2.Hier bewirkt eine vordere Zungenrückenposition einen höheren Formanten F2 undeine hintere Zungenrückenposition einen tieferen Formanten F2. len kann kontextabhängig variieren, aber auch bedeutungstragend sein. EinBeispiel hierfür ist nach [KuSW06] „Lamm“ [lam] und „lahm“ [la : m], wenn-gleich in [KrKE64] eine Verschiebung bei gelängter Artikulation zu [l A: m]erkannt wird.Diphthonge sind Vokalübergänge. Wie bei den Vokalen ist das artikula-torische Organ die Zunge, die durch eine gleitende Bewegung den Laut bil-det. In der deutschen Sprache gibt es eine Reihe von Diphthonge, die auf [ ]enden, beispielsweise in „Ohr“ [ > o ] oder „hart“ [h > a t], und drei periphere Di-phthonge, [ > a I ], [ > a U ] und [ >OY ], beispielsweise nach [Ko99] in „Eis“, „Haus“ und„Kreuz“. Wie aus den Beispielen zu erkennen ist, bestehen Diphthonge auszwei Vokalen, die aufgrund ihrer starken Koartikulation zusammengezogenwerden: Der erste Vokal liefert die Anfangsstellung und der zweite Vokal dieEndstellung der Zunge; der Laut wird durch einen kontinuierlichen Über-gang artikuliert.Approximanten, in der deutschen Sprache nach bspw. [KrKE64, Ko99]nur durch den Laut [j] vertreten, unterschieden sich von Vokalen durch einestarke Verengung des Vokaltrakts durch die Zunge. . Laute E hätte œ göttlich n Naht v was Ober u kulant ŋ lang s Hast @ halte U Pult p Pakt z Hasee Methan Y füllen b Ball S schali vital y Physik t Tal Z Genie I Birke j ja d dann ç icho Moral l Last k kalt x Bach* O Post g Gunst h hat
Tabelle 2.1:
Beispiele der Realisierung von Lauten in der deutschen Sprache, vgl.[KuSW06]. Die ersten beiden Spalten zeigen Vokale und Approximanten, die dritteSpalte Nasale und Plosive und die letzte Spalte zeigt Frikative. Nicht in der Ta-belle enthalten ist der glottale Plosiv [ P ] wie in „Ver-ein“ und das /r/, welches inverschiedenen Varianten ausgesprochen werden kann.* Hier differieren [KuSW06] und [Ko99] zumindest in der Notation, letzterer ver-wendet [ X ]. Auch bei dieser Gruppe von Lauten erfolgt die Schallerzeugung durchdie Glottisschwingung. Bei allen drei Lautklassen spaltet sich die Schall-ausbreitung jedoch im Vokaltrakt auf, was zu Interferenzen führt. Diese Be-sonderheiten und die daraus resultierenden charakteristischen Eigenschaftenwerden an verschiedenen Stellen dieser Arbeit erörtert.Wie der Name schon andeutet, ist bei Nasalvokalen die Nase involviert:Durch Absenken des Velums wird für den Schall eine Passage zu den Na-sengängen hin geöffnet, so dass der Schall über den Mund und über dieNase abgestrahlt wird. Sie kommen überwiegend in Wörtern vor, die demFranzösischen entlehnt sind.Bei Nasalen ist im Unterschied der Mundraum an einer Stelle geschlos-sen; der Schall wird komplett über die Nase abgestrahlt. In der deutschenSprache existieren drei Nasale, [m], [n] und [ŋ]. Diese unterscheiden sichdurch die Verschlussstelle des Mundraumes, so dass sich jeweils andere Hohl-räume ergeben. Deren Resonanzen beeinflussen das Spektrum des nasal ab-gestrahlten Schalls.Die Lautklasse der Lateral-Approximanten umfasst in der deutschenSprache lediglich den Laut [l]. Bei seiner Artikulation berührt die Zungen-spitze die Alveolen; seitlich an ihr führen zwei Passagen vorbei, die unterhalbund oberhalb der Zunge wieder zusammenlaufen. . Laute Bilabial Labio-dental DentalAlveolarPostalveolar Retro-flex Palatal Velar Uvular GlottalPlosiv p b t d ú ã c é k g q å P Nasal m M n ï ñ ŋ ð — Vibrant à r — ö — Tap/Flap
R ó — —
Frikativ
F B f v T ð s z S Z ù ü ç J x G X K h H Lateral-Frikativ — — ì Ð — Approximant
V ô õ j î — Lateral-Approximant — — l í L Ï — Klicklaut ò | { ! } Implosiv á â ê ä É
Tabelle 2.2:
Konsonanten. Die Tabelle gibt eine Übersicht nach Lauterzeugungs-art, vertikal, und Lauterzeugungsstelle, horizontal. Im oberen Teil der Tabelle sinddie aus dem Luftstrom der Lunge erzeugten Laute,
Pulmonale , aufgeführt. Bei glei-cher Erzeugungsart und -stelle unterscheiden sie sich als stimmhafte (rechts) undstimmlose (links) Konsonanten. Ist nur eine Realisierung möglich, so ist diese mitAusnahme des glottalen Plosivs P stimmhaft. Nicht realisierbare Kombinationenaus Anregungsstelle und -art sind durch einen Querstrich gekennzeichnet. Diese Laute zeichnen sich durch eine schnelle Zungenbewegung aus, dieeinen Verschluss des Vokaltrakts bewirkt und diesen unmittelbar daraufwieder freigibt. Dadurch hebt sich diese Lautgruppe von den anderen durcheine charakteristische, stark ausgeprägte Modulation der Schallamplitudeab. Diese ist gut im zeitlichen Verlauf einer Schallaufzeichnung beobachtbar.Bei einem Plosiv öffnet sich eine verschlossene Stelle im Stimmtraktdurch ein Zusammenspiel von nachlassender Andruckkraft und des durchdie Lunge erzeugten Luftdrucks. Durch die so hervorgerufene, schnelle Ver-schlusslösung erzeugt die vorher angestaute Luft dabei einen explosionsar-tigen Knall. Plosive können stimmlos oder stimmhaft artikuliert werden,bei letzteren setzt kurz vor oder unmittelbar nach der Verschlusslösung dieGlottisschwingung ein. Vibranten sind gleichsam periodisch wiederholte Plosive. Dabei wird dieZunge an der Artikulationsstelle angedrückt und mehrfach durch die sichdabei wieder aufstauende Luft gelöst. Im deutschen Sprachraum wird nach[KrKE64] das /r/ auf unterschiedliche Weise realisiert, neben dem stan-
5. Hier differieren die Darstellungen aus [IPA99] und 3.1, S. 16. In [LiA64] wird gezeigt,dass der Zeitpunkt des Stimmeinsatzes sprecher- und sprachabhängig ist; dies wird auchdurch neuere Studien gestützt, vgl. [BaO98]. . Laute
Engelaut ) als alveolarer oder uvularer Vibrant.Die beiden Vibranten werden umgangssprachlich auch als „gerolltes r“ be-zeichnet.Taps und Flaps werden durch eine einmalige Zungenbewegung gebildetund ähneln insofern den Plosiven. Im Unterschied zu diesen wird jedochauch die Freigabe des Verschlusses im Wesentlichen durch Muskelkraft be-wirkt und der Verschluss muss nicht vollständig sein. Auch perzeptiv trittdie durch den Verschluss bewirkte kurzzeitige Unterbrechung oder Dämp-fung des Schalls in den Vordergrund, vgl. [Ze07]. Beispiele finden sich in eu-ropäischen Sprachen mit dem spanischen „pero“ und dem dänischen „rat“,die mit dem Laut [ R ] gebildet werden, wie in [IPA99] ausgeführt wird. Auch wenn beide Lautklassen in dieser Arbeit keine weitere Bedeutunghaben und in europäischen Sprachen nach [Ma08a] nicht als Phone vorkom-men, seien sie übersichtshalber kurz erwähnt. Beide Laute werden nicht vonder Lunge aspiriert, ähneln aber in den übrigen diskutierten Eigenschaftenden im vorangegangenen Abschnitt beschriebenen Plosiven.Die Erzeugung der Implosive erfolgt über einen der Erzeugung der Plosi-ve entgegengesetzten Prozess. Nach der Verschlussbildung wird der Kehlkopfabgesenkt und dadurch ein Unterdruck erzeugt.Bei Klicklauten, ihre Artikulation beschreibend auch als Schnalzlaute be-zeichnet, wird der Schall durch die Zunge erzeugt. Die Zunge bildet an derArtikulationsstelle durch eine Lösebewegung einen expandierenden Hohl-raum, in dem ein Unterdruck entsteht, welcher beim Öffnen das typischeGeräusch verursacht. In der deutschen Sprache werden Klicklaute lediglichzum Ausdruck von Sprachgestiken genutzt, wie beispielsweise dem erstaun-ten missbilligenden „tz tz tz“, aus dem Laut [ | ] gebildet. Als Phon kommensie in afrikanischen Sprachen vor, wie [Tr95, Tr03] ausführen, in einigen zurUnterscheidung von über vierzig Phonemen. Die Lautklasse der Frikative zeichnet sich durch eine Verengung im Vo-kaltrakt aus, die dort zu einer schnelleren Luftströmung und in Folge zueinem Wechsel von einem laminaren in einen turbulenten Zustand führt.Durch die dabei aperiodisch entstehenden Wirbel wird eine rauschartigeSchallanregung erzeugt. Je nach Ort der Verengung werden unterschiedlicheFrikative artikuliert. Die in der deutschen Sprache vorkommenden Frikativesind in der Tabelle 2.1 gezeigt. Von diesen weisen die stimmhaften Frikative[v], [z] und [ Z ] eine zusätzliche periodische Phonation auf, die dem Rauschenüberlagert ist. . Laute Durch die Artikulation ändern sich die akustischen Eigenschaften derLaute. Um diesen Effekt zu illustrieren, wird eine Auswahl von sechs stimm-haften Lauten betrachtet, die in den Bildern 2.3 und 2.4 gezeigt sind. Diestimmhafte Phonation entsteht durch die nahezu periodische Schwingungder Stimmbänder, die die Grundfrequenz bildet und aufgrund der abruptenWechsel von geöffneter zu geschlossener Phase sehr obertonreich ist. DiesePeriodizität lässt sich gut in dem Zeitverlauf der mittels Mikrofon erfasstenSchallsignale der verschiedenen Laute erkennen, sie liegt in den hier gezeig-ten Beispielen zwischen 8 und 12 Millisekunden, was einer Grundfrequenzzwischen 83 und 125 Hertz entspricht. Ebenfalls gut zu erkennen sind die jenach Laut unterschiedlichen Signalverläufe innerhalb einer Periode.In dem jeweils rechten Diagramm ist der Betrag der diskreten Fourier-transformation einer Periode gezeigt. In diesen Darstellungen im Frequenz-bereich ist eine Reihe von Charakteristika sichtbar. Allen Bildern gemeinsamsind die der Periodizität entsprechenden Kammstrukturen und der Abfallder Betragsgänge zu höheren Frequenzen hin, welcher aus Eigenschaften derPhonation und aus der Schallabstrahlung des Vokaltrakts resultiert. DieBetragsgänge der Spektren unterscheiden sich neben einem lautabhängig un-terschiedlich stark ausprägten Abfall zu höheren Frequenzen in lauttypischenlokalen Maxima, den Formanten. Bei den Nasalen ist ein gleichmäßigererVerlauf zu erkennen, der aus einer stärkeren Dämpfung der Resonanzen her-rührt, wie in dieser Arbeit gezeigt wird.
6. in Abschnitt 4.7 wird darauf näher eingegangen7. Die Formanten weisen gute Übereinstimmung mit Werten aus [PeB52] und [Ma08c]auf, lediglich der zweite Formant des [u] fällt etwas zu hoch im Vergleich zu der Literatur(870 Hz bzw. 600 Hz) aus. . Laute
10 20 30 t /[ms] 500 1 2 3 4 5 6 f /[kHz] 810203040506000[dB]10 20 30 t /[ms] 500 1 2 3 4 5 6 f /[kHz] 810203040506000[dB]10 20 30 t /[ms] 500 1 2 3 4 5 6 f /[kHz] 810203040506000[dB] Bild 2.3:
Zeitverlauf und Spektrum der Vokale [a], [i] und [u], von oben nach unten.Links sind 50 ms des zeitlichen Verlauf des mittels Mikrofon erfassten Signals zusehen. Rechts daneben sind die logarithmierten Betragsgänge einer Periode darausgezeigt, 20 dB Unterschied entsprechen einer 10fachen Amplitude. Gut zu erkennensind die Formanten von [a] bei 700 Hz und 1,1 kHz und 2,4 kHz, von [i] bei 200 Hz,2,1 kHz und 2,9 kHz sowie von [u] bei 270 Hz, 1,3 kHz und 2,3 kHz. . Laute
10 20 30 t /[ms] 500 1 2 3 4 5 6 f /[kHz] 810203040506000[dB]10 20 30 t /[ms] 500 1 2 3 4 5 6 f /[kHz] 810203040506000[dB]10 20 30 t /[ms] 500 1 2 3 4 5 6 f /[kHz] 810203040506000[dB] Bild 2.4:
Zeitverlauf und Spektrum der Konsonanten [m], [ŋ] und [l], von obennach unten. Die Darstellung entspricht Bild 2.3. Bei [m] und [ŋ] sind Formanten bei250 Hz bzw. 220 Hz gut zu erkennen, Frequenzen über 2,5 kHz bzw. 2,9 kHz sindstark bedämpft. Der Laut [l] weist neben den Formanten bei 330 Hz, 1,5 kHz und2,4 kHz eine charakteristische Vertiefung im Spektrum bei ungefähr 3,2 kHz und4,3 kHz auf, deren Ursache in Abschnitt 15.2 betrachtet wird. . Modelle des Sprechapparats In diesem Abschnitt erfolgt ein Rückblick auf die Entwicklung von Ap-paraturen zur künstlichen Spracherzeugung. Dabei wird deutlich, wie mitder technischen Entwicklung auch Fortschritte im Verständnis der physi-kalischen und akustischen Vorgänge des Sprechens erzielt wurden und wieeine detaillierte Betrachtung mit einer Verbesserung der Modelle und derenSpracherzeugung einhergeht. Wie dieser Abschnitt zeigt, besteht bereits Ende des 18. Jahrhunderts einGrundverständnis der Sprachproduktion. Im 19. und Anfang des 20. Jahr-hunderts werden für eine Reihe dieser Prozesse physikalische Modelle ent-wickelt und damit einhergehend gelingt eine zunehmend bessere quantitativeBeschreibung von bestimmten Lauten, insbesondere derer aus Abschnitt 2.1.Etwa Mitte des 20. Jahrhunderts gelingt es hier durch numerische Metho-den, direkt aus dem Sprachschall auf den Artikulationsvorgang zu schließen.Diese Verfahren werden seitdem weiter verfeinert und durch zahlreiche Un-tersuchungsmethoden ergänzt, um ein quantitatives Verständnis über alleLautklassen und Artikulationseffekte hinweg zu erreichen.
Wenngleich es vor und im 18. Jahrhundert einige Berichte über „spre-chende“ Apparate gab, so sind deren Mechanismen nur selten beschriebenoder tragen nicht zum Verständnis der Sprachproduktion bei, wie [Ru28,
8. Wenn es auch einfache, frühere Beispiele gibt wie die Zeitansage der British Telecom1936 oder die Kursansage der New York Stock Exchange Ende der 1960er Jahre [HoH80],so spalten sich ab etwa 1990 diese Wege, als man mit dem sogenannten PSOLA-Verfahren(Akronym von Pitch synchronous Overlap-Add) in der Lage war, aufgezeichnete Sprachein der Tonhöhe zu verschieben [VaMT91]. Darauf aufbauend entstanden Sprachsynthesen,die auf immer größere Inventare aufgezeichneter Sprache zurückgriffen und deren Elementemit möglichst geringer Beeinflussung aneinander setzten [Du94, Du99]. Durch diesen phä-nomenologischen Ansatz zur Sprachsynthese wurden implizit viele Effekte beim Sprechenerfasst.9. Einige der phonetischen Erkenntnisse aus dem vorangegangenen Kapitel reichendeutlich weiter zurück. Ein gutes Beispiel ist der Bericht über die Ursachen von Lauten( ف"رﻳﺎلُﺣﻟ' ث"ُ)ُﺣ *ﺎﺑﺳ. ﺔﻟﺎﺳرﻳﺎل ) von Ibn Sina aus der Zeit der ersten Jahrtausendwende (Über-setzt in [Sa09]). So werden in dem Bericht die unterschiedlichen Artikulations- bzw. Kon-striktionsstellen ( سﺑﺣ ) für eine Reihe von Konsonanten genannt. Ibn Sina erkennt drüberhinaus, dass bei einem [a] der Vokaltrakt relativ frei ( !ﺣ ) bleibt, während für ein[u] die Verengung an den Lippen wesentlich ist.Dieser Bericht ist hier insbesondere erwähnenswert, da neben der Abhandlung der Arti-kulation und der Anatomie des Sprechapparats auch ein Vergleich zwischen Sprechlautenund anderen Geräuschen gezeigt wird. Aus heutiger Sicht sind einige der Analogien zwareinfache aber qualitativ treffende Modelle der Lautentstehung. So vergleicht Ibn Sina ne-ben weiteren Beispielen den Klang des [d Q ] mit dem einer platzenden Blase und den Klangdes [h] mit dem Geräusch eines starken Luftstroms. . Modelle des Sprechapparats Vier bedeutende Ausnahmen finden sich,auf die im Folgenden eingegangen wird.Ein Experiment von Robert Hooke um 1680, das sprachähnliche Lautehervorbringt, wird in [Wa1705] kurz beschrieben:
By the striking of the Teeth of several Brass Wheels, proportio-nally cut as to their numbers, and turned very fast round, inwhich it was observable, that the equal or proportional stroaks ofthe Teeth [an einem schallabstrahlenden Gegenstand] , that is, 2to 1, 4 to 3, &c. made the Musical Notes, but the unequal stroaksof the Teeth more answer’d the sound of the Voice in speaking.
Man kann hieraus folgern, dass die vergleichbaren Stimmlaute zu den har-monischen Grundtönen ein Spektrum ganzzahliger Obertöne besitzen, ihnensomit ein einziger periodischer Phonationsprozess zugrunde liegt — woraufim Abschnitt 2.6 bereits vorgegriffen worden ist.Eines der ersten dokumentierten Experimente zur Klärung der physio-logischen Unterschiede von Vokalen unternahm Kratzenstein um 1770, in-dem er sechs unterschiedlich geformte Resonatoren (
Tubae ) konstruiert, dieauf einer Zungenpfeife aufgesetzt werden, um die verschiedenen Vokale zureproduzieren, vgl. Bild 3.1. Neben einer detaillierten Beschreibung der ander Sprachproduktion beteiligten Organe in [Kr1781] erkennt er den Zusam-menhang zwischen Vokal, Zungenposition und gebildetem Hohlraum; er gibtdiese quantitativ für die untersuchten Vokale auf S. 15 wieder. Auf S. 35 be-schreibt Kratzenstein die Reflektionen der Schallwellen im Sprechtrakt undsein Ziel, diese nachzubilden:
Hae undae sonorae ex larynge in tubam adfixam incidentes indevario modo et sub variis directionibus reflectuntur, et instar vocishominum per tubam stentoream propagantur.
Bild 3.1:
Resonatoren nach [Kr1781], zur Synthese der Vokale a (in zwei Varian-ten), e, i, o und u, von links nach rechts. In dieser Arbeit diskutiert Kratzensteinauch die Unterschiede zur Anatomie des menschlichen Sprechtraktes.
10. Auch später wird in [ChG28] beispielsweise notiert: „
On sait encore que
Frie-drich von Knauss à Vienna, avait construit avant 1770, trois têtes parlantes, et quecette année-là il en fit une quatrième plus somptueusement présentée, car c’était un ca-deau destiné par le couple impérial d’Autriche au grand duc de Toscane ; celui-ci la plaçadans sa galarie à Florence. Mais on ne possede aucun dètail sur la technique de ces tra-vaux. “ ohne Referenzen. Auch in [Kn1780, Fi1868, Ku30] finden sich keine Belege für die„sprechenden Köpfe“. . Modelle des Sprechapparats
Académie royaledes sciences einen Bericht [PV1783, Lü10] über die Têtes Parlantes des
Abbé Micals . Ein mehrgliedriger Mechanismus in den „sprechenden Köp-fen“ erzeugt die beiden Sätze : Le Roi a donné la paix à L’Europe.La paix fait le bonheur des peuples.
Der Mechanismus ähnelt teilweise dem einer Orgel: Die Luft wird über einenBlasebalg zugeführt und durch mehrere Ventile in unterschiedliche, flaschen-ähnliche Kavitäten ( boîte ) geleitet. Diese formen den Klang. Die Steuerungerfolgt durch einen — vermutlich mit Nocken versehenen, rotierenden —Zylinder, der über Hebel die Ventile betätigt. Für die Erzeugung von Voka-len werden verschiedene Kavitäten benutzt, die sich in ihrer Gestalt, Größeund/oder Öffnung unterscheiden (Z. 56 ff.):
1. Das a prononciert sich in einer der großen Flaschen [...] . DerKlang des Buchstaben a in der natürlichen Prononciation re-sultiert aus einer analogen Disposition, während der die Zungefixiert im Innern des „Mundes“ [ist] , ihr Rücken erhebt sich einbisschen, die zwei Backen sind insgesamt so geöffnet, dass manden gleichen Klang hört.2. Der Buchstabe o verändert sich in einer Flasche der gleichenGröße und der gleichen Form wie der Buchstabe a , mit dem Un-terschied, dass die obere Hälfte nicht immobil ist, sondern nurdurch eine runde Öffnung durchbohrt. Im Effekt, wenn man denBuchstaben a prononciert, und man die Öffnung des Mundes än-dert, ohne die Situation der Zunge zu ändern, macht sich derKlang o anstatt des ersten hörbar.3. Die Öffnung des Mundes, wenn man den Buchstaben e pronon-ciert, hält die Mitte von denen, die für den Buchstaben a und fürden Buchstaben o eingenommenen werden; auch die Vase, in der(I) der Buchstabe e sich hörbar macht, hat eine größere Öffnungals die erstgenannte, und eine kleinere als die letztgenannte, aberunterscheidet sich noch dadurch, dass sie keine detaillierte undmobile obere Hälfte hat, und dadurch, dass sie insgesamt kürzerist als die beiden ersten. Die Proportion ihrer Öffnungen sindübereinstimmend mit denjenigen, die Hr. Kratzenstein beobachtetund bestimmt hat, der den Preis der Akademie von Petersburgim Jahr 1781 auf einem ähnlichen Gebiet [...] gewann. In analoger Weise wird auch der Laterallaut [l] erzeugt. Die Anregung er-folgt bei diesen Lauten durch eine Zunge[npfeife] mit einem Metallplätt-
11. Der zumindest in der Kopie schwer zu entziffernde handschriftliche Bericht ist imAnhang, Abschnitt 16 transkribiert beigefügt.12. Nach [ChG28] vier Sätze, gezeigt anhand einer Referenz und der Illustration desAufbaus. . Modelle des Sprechapparats approbationde l’Academie zuerkannt, derer er aufgrund der geistreichen ( ingénieuse )Konstruktion sehr würdig sei.Aus der gleichen Zeit stammt die sprechende Maschine von WolfgangRitter von Kempelen. Sie besteht aus einem Blasebalg, einem Lederrohrund drei schallerzeugenden
Instrumenten . Der Blasebalg treibt je nach Lauteinen der Schallerzeuger an. Für Vokale wird eine Rohrblattpfeife genutzt,was zu obertonreichem Schall führt. Dieser wird durch das nachfolgende,variabel verdeckbare Lederrohr derart verändert, dass ihm die den Vokalenentsprechenden Formantenstrukturen aufgeprägt werden. Dabei stellt dasLederrohr einen Resonator dar, der demjenigen des Mundraums ähnelt. Diezwei verbleibenden
Instrumente erzeugen die Frikative [s] und [ S ]. Die Be-dienung der Maschine stellt gewisse Anforderungen an die Geschicklichkeitdes Experimentators. Mit der linken Hand muss die Öffnung des Lederrohrsentsprechend den Lauten verdeckt werden, sie dient gleichsam als Lippenund Zunge. Mit dem rechten Unterarm wird der Blasebalg betrieben, unddie rechte Hand muss zudem die Ventile für die Frikative oder einen Me-chanismus für das /r/ bedienen und zur Simulation unnasalierter Laute diedafür vorgesehenen Öffnungen zuhalten. Auch mit dieser Maschine ist esmöglich, nicht nur einzelne Laute einer Sprache, sondern auch Wörter undkürzere Sätze zu erzeugen. Von Kempelen schreibt, man könne „in einer Zeit von drei Wochen eine bewundernswerte Fertigkeitim Spielen erlangen, besonders wenn man sich auf die lateini-sche, französische oder italienische Sprache verlegt ... .“ bemerkt jedoch an anderer Stelle: „Vor allem muß ich gestehen, daß ich vier [der Konsonanten] nämlich D G K T noch nicht bestimmt in meiner Maschine ha-be, sondern daß ich hierzu immer das P brauche. ... Wenn esaber auch ein feines Gehör bemerkt, so kömmt der Maschinedoch immer ihre kindliche Stimme zu statten, [der man Artiku-lationsfehler nachsieht]. “ Von Kempelen entwickelte die Maschine während seiner Studien zur Spra-che und beschreibt die Ergebnisse in [Ke1791]. Dieses Buch widmet sich inden ersten drei Teilen einer Definition von Sprache, etymologischen und phi-losophischen Betrachtungen der Sprachentstehung und der morphologisch-physiologischen Betrachtung der Artikulatoren. Der folgende phonetischeTeil behandelt nach einer sprachenübergreifenden Lautsystematik die Ent-stehung der meisten in Tabelle 2.1 gezeigten Laute. Von Kempelen erkenntzutreffend, dass der Unterschied zwischen „weichen“ und „harten“ Plosiven . Modelle des Sprechapparats S ] (F, S, SCH) folgert er anhand von Experimenten, dass die Formder phonierenden Stelle wesentlich für deren charakteristischen Klang istund erläutert, wie sie in der Sprechmaschine nachgebildet ist. Desweiterenbeobachtet er, dass bestimmte Laute kontextabhängig gewählt werden. Sounterschiedet sich das „ch“, welches einem [e] oder [i] folgt, deutlich vondemjenigen, dass sich einem [a], [o] oder [u] anschließt: Im ersten Fall wirdes als [ç] artikuliert, im zweiten Fall als [x] . Ein weiteres gezeigtes Beispielist das „ng“, das den Laut [ŋ] bildet. Von Kempelen weist auf Koartikulationhin, wie der Nasalierung von Vokalen, denen ein [n] folgt, und begründet dasmit einer kinetischen Vereinfachung. Ebenso erklärt er die kontextabhängigeLautwahl. Besonders eingehend betrachtet er die Bildung der Vokale. Hiererkennt er zwei wesentliche Merkmale, die die Vokale unterscheiden: DieÖffnung des Mundes und die Öffnung des Zungenkanals . Im letzten Teildes Buches beschreibt er detailliert die bereits erörterte Maschine und dieLauterzeugung damit.Die Vokalformanten selbst wurden in den 1820er Jahren durch Willisuntersucht [Wi1828], indem er an eine Rohrblattpfeife ein auf der ande-ren Seite offenes Rohr mit verstellbarer Länge anschloss. Er erkannte, dasssich je nach Rohrlänge unterschiedliche Vokale ergaben, und führte dies aufdie Eigenresonanz des Rohres zurück, die er tabellarisch angab. Eine späte-re, vergleichbare Untersuchung von Jones konnte nach [Pa30], S. 17, diesejedoch nur teilweise bestätigen. Beide Untersuchungen sind in Tabelle 3.1zusammengefasst wiedergegeben. Paget zeigt später in [Pa30], dass Vokaledurch zumindest zwei Resonanzen charakterisiert sind. Er konstruiert mitdiesem Wissen eine Reihe verbesserter Resonatoren für Vokale und einigeKonsonanten.In dieser Zeit baute Wheatstone die Maschine von Kempelens nach. Be-merkenswert ist dabei der Ansatz, anstelle eines starren ein verformbaresLederrohr einzusetzen, vgl. Bild 3.2. Dadurch kam er den akustischen Ei-genschaften des menschlichen Rachentrakts erheblich näher. Er bestätigtedamit den Zusammenhang zwischen der Form des Rachenraumes und den
13. Von Kempelen sieht hier die gleiche Lage der Konstriktion wie bei einem [k], [Ko99]erkennt eine etwas weiter hinten liegende Konstriktionsstelle: [ X ].14. Kempelen gibt keine präzise Definition des Zungenkanals. Vergleicht man die vonihm angegebene Lautfolge U O A E I für dessen zunehmende Verengung mit dem Dia-gramm 2.2, so entspricht das einem Ablaufen im Uhrzeigersinn. . Modelle des Sprechapparats ∼ c ′′
523 u3,8 ♭e ′′
659 o æ3,1 g ′′ O ♭d ′′ [ ′ ] 1109 A A - f ′′′ d IV c V g V Tabelle 3.1:
Nach [Wi1828], S. 243, ergänzt durch die Untersuchungen von Jonesund durch Frequenzangabe der Töne sowie einer Darstellung im IPA. Die Frequen-zen entsprechen etwa λ/ Nasengang, -löcherLedertubus (Vokaltrakt)DruckkammerBlattpfeife (Glottis)
Bild 3.2:
Wheatstones Nachbau von Kempelens Sprechapparat nach [Fl65]. Linksneben dem gezeigten Ausschnitt ist ein Blasebalg zum Antrieb an die Druckkam-mer angeschlossen. In der Druckkammer befinden sich zudem weitere Pfeifen undSteuerhebel zur Erzeugung von Frikativen. verschiedenen Hauptresonanzfrequenzen, den Formanten . Im 19. und nochAnfang des 20. Jahrhunderts wurden aus der Konzeption von Kempelensweiterentwickelte Geräte gebaut. Beispiele sind die Euphonia von
JosephFaber , bei der der Vokaltrakt aus Gummi hergestellt ist und durch Ta-sten über Drähte der natürlichen Artikulation entsprechend geformt wird und die Apparatur von Riesz, skizziert in Bild 3.3 nach [Fl65]. Diese zeich-nen sich durch die Verwendung einer wesentlich naturgetreueren Form desAnsatzrohres aus und haben eine gewisse Ähnlichkeit mit einem in dieserArbeit verwendeten Sprechtraktmodell. Insbesondere ist der Vokaltraktbe-reich zwischen den Stimmbändern und den Lippen in mehrere Abschnitte
15. Die Resonanztheorien des Sprechtrakts von Helmholtz, Hermann, Rayleigh, Scrip-ture, Trendelenburg, Wheatstone und Willis sind in [Ru28, ChK41] zusammengefasst.16. In [Sc1842] wird desweiteren berichtet, dass die
Sprechmaschine [...] vollständiger alsdie bisher dazu gemachten Versuche die menschliche Stimme [...] nachahmt und ziemlichdeutlich spricht. . Modelle des Sprechapparats RachenGaumen-segel LippenZähneLuftzufuhr NasaltraktStimmbänder
Bild 3.3:
Riesz’scher Sprechapparat, 1937. Die sechs verschiebbaren Segmente derUnterseite können in einer anderen Ausführung des Apparats mit Tasten, ähnlicheiner Trompete, gesteuert werden. unterteilt, deren Querschnittsflächeninhalt man den Lauten entsprechendeinstellen kann. Über den Apparat von Riesz wird a. a. O. berichtet:
When operated by a skilled person, the machine could be made tosimulate connected speech. One of the particulary good utteranceswas reported to be “cigarette”. — Personal communication, R. R. Riesz.
Die quantitative Verwendung der Querschnittsflächeninhalte zur Bestim-mung der Vokaltraktkonfiguration gelingt in der Arbeit von Chiba und Ka-jiyama [ChK41]. Hierin werden für die Vokale [i], [e], [a], [o] und [ W ] dieVokaltraktkontur anhand von Röntgenaufnahmen bestimmt, wobei auf denArtikulatoren angebrachte dünne Golddrähte, Stanniolbändchen oder aufge-brachtes Bariumsulfatpulver zur Hervorhebung von Konturen genutzt wer-den. Die während der Aufnahme aufgezeichnete Lautäußerung wird mit ei-nem akustisch vermessenen Modell und einem berechneten vereinfachendenzwei-Resonator-Modell verglichen. Das aus Gips geformte akustische Modellspiegelt den Verlauf der Querschnittsflächeninhalte wider. Ein Beispiel, beidem die Spektren zwischen Lautäußerung, den Modellen und mit den inAbschnitt 2.6 für das [u] ermittelten qualitativ übereinstimmt. In den vierziger Jahren wurden mit dem Beginn der Entwicklung der ma-gnetischen Signalaufzeichnung erste Zeitbereichsverfahren untersucht. Manzeichnete Sprache auf Tonbändern auf, segmentierte diese, indem man dasTonband in Abschnitte unterteilte, und fügte sie entsprechend der zu syn-thetisierenden Äußerung wieder zusammen. Es zeigte sich, dass Phonem-Segmente zu einer gänzlich unverständlichen Sprachwiedergabe führten. Ei-ne Segmentierung in Diphone war zwar erfolgreicher, aber auf Grund der . Modelle des Sprechapparats anfangs nur exemplarisch handhab-bar, wie in [KüW56, Cr64] diskutiert. Weitere, ähnliche Untersuchungen wie[Gr76] zeigen die Bedeutung der Lautlängen.Hauptsächlich in den 1920er bis 1960er Jahren wurden, durch Fortschrit-te in der Analogelektronik ermöglicht, Formantensynthesizer entwickelt unduntersucht. Einen der ersten Synthesizer realisierte Stewart und beschreibtihn 1922 in [St22]: Mittels zweier über einen Buzzer angeregte Resonanz-kreise, deren Resonanzfrequenzen an die beiden unteren Formanten ange-glichen werden kann, lassen sich Vokale und Diphthonge reproduzieren.[Cr25, St35, Le36] zeigen kurze Zeit darauf mit weiterentwickelten elektro-nischen Analysesystemen, dass Sprache weitere Formanten enthält. Späte-re Synthesizer verfügen meist über zwei Signalgeneratoren, zur Erzeugungvon periodischen Signalen und von Rauschen, zwischen denen je nach Phonumgeschaltet werden kann. Diesen folgt ein Filtersystem, wobei sich dieSynthesizer hier in drei Typen unterscheiden lassen. Der 1939 von Dudleyentwickelter Synthesizer
Voder verwendet eine Filterbank, die aus Bandpäs-sen mit festen, aneinanderfolgenden Frequenzbändern besteht. Über in einerTastatur angeordnete Potentiometer können diese Frequenzbänder in ihremPegel verändert werden, wodurch die Formantstruktur bereichsweise gemit-telt nachgebildet werden kann. Wenngleich auf der Weltausstellung 1939und 1940 gezeigt, wird beispielsweise über den Voder in [Ma99] festgestellt: „... the synthetic speech, to judge from the recordings that stillsurvive, was not highly intelligble.“
Bereits einige Zeit zuvor wurden ähnliche Filterbänke zur Sprachübertra-gung genutzt: Das von Schmidt in [Sc32] beschriebene Verfahren verwendetzwei gleiche Filterbänke, eine zur Analyse oder Kodierung von Sprachsigna-len und eine zweite Filterbank, die das Sprachsignal resynthetisiert bzw. de-kodiert. Die Ausgangssignale der ersten Filterbank werden mit verringerterBandbreite übertragen und steuern die zweite Filterbank an. Die Steuerungdes Synthesizers durch ein natürliches Sprachsignal vermied vermutlich eineReihe von Abweichungen, die durch die beschränkten Möglichkeiten einerTastatur des zuvorgenannten Synthesizers unvermeidlich waren, und dürf-te zu einem natürlicheren Zeitverlauf der Formantenstruktur und damit zueiner verständlicheren synthetisierten Sprache geführt haben. Eine in derFrequenzauflösung verfeinerte Variante war der von Cooper rund zehn Jah-re später entwickelte
Pattern Playback -Synthesizer, welcher optoelektronischüber einen Film gesteuert wurde; auf dem Film sind die Intensitäten ein-zelner Frequenzbänder durch die Transparenz paraleller Streifen kodiert.
17. Mit dem Inventar wird die Menge alle Phoneme bzw. Diphone, die durch die Syn-these realisiert werden sollen, bezeichnet. Ein Phoneminventar umfasst ca. 50 Elemente,ein Diphoninventars folglich ungefähr 50 ·
50 = 2500 Elemente. Weiterführendes findet sichbspw. in [En97].18. Einen elektromechanischen Versuch sehr ähnlicher Konzeption zeigt Helmholtz be-reits in [He1863], Abschnitt „Künstliche Vokale“. . Modelle des Sprechapparats Bild 3.4:
Filterbanksynthese nach [Du38] higly intelligible [Co53]) beruht ebenfalls auf der inhärentenResynthese – die Filme wurden durch Analyse von Sprache gewonnen.Auf einer anderen Filterstruktur basieren die in den 1950ern entwickelten
Orator Verbis Electris (OVE)
Synthesizer von Fant, der in [FaM62] beschrie-ben ist. Diese bestehen aus verstimmbaren Schwingkreisen, deren Mitten-frequenz und Pegel in unterschiedlichen Varianten manuell oder durch einSteuerwerk vorgegeben werden können; zudem enthalten sie ein Filter, dasbestimmte Frequenzen unterdrückt, wie es für bestimmte Laute typisch ist.Wenngleich hiermit sicherlich wichtige Formanten stationärer Laute genauwiedergegeben werden können, liegt die Schwierigkeit dieses Verfahrens inder treffenden Bestimmung und Nachbildung der Formantenbewegung, derzeitlichen Änderung von Güte und Mittenfrequenz. In ähnlicher Weise ar-beitet auch der
Parametric Artificial Talker (PAT) von Lawrence aus dergleichen Zeit. Synthesen und Bilder finden sich unter [Tr98].Der dritte Filtertyp basiert auf einer Kette von LC-Gliedern, über diesich die elektrischen Signale ähnlich ausbreiten wie eine ebene Schallwelleentlang dem Vokaltrakt. Dadurch werden nicht mehr einzelne Formanten be-trachtet, sondern die Formantenstruktur bzw. die Hüllkurve des Spektrumsals Ganzes werden mit dieser Filterstruktur reproduziert. Dunn nutzt 1950diese Analogie für ein Sprechtraktmodell und stellt in [Du50] die Vorteiledieses Ansatzes fest: „A line with distributed constants is approximated through theuse of 25 lumped sections, each representing a cylinder 0.5 cm . Modelle des Sprechapparats long and 6 cm**2 in cross section. The whole is then divided in-to two ’cavities’ by the use of a lumped, but variable, inductancewhich can be inserted between any two sections of the line. Thisrepresents the ’tongue hump’ constriction. Another variable in-ductance at the end of the line represents the constriction at thelips. [...] The whole series of English vowels can be produced bythis apparatus – not perfectly, but distinctly better than we wereable to make with three independent tuned circuits. “
Die digitale, zeitdiskrete Signalverarbeitung erlaubt eine einfachere undpräzisere Modellierung und Steuerung. Kelly und Lochbaum übertrugen1962 in [KeL62] das Modell der Wellenausbreitung längs des im Querschnitts-flächeninhalt variierenden Vokaltrakts auf passende digitale Filter, die Kreuz-gliedketten ; sie greifen damit in vereinfachter Form (ohne Berücksichti-gung des Nasaltraktes) den Ansatz von Chiba, Kajiyama und Dunn erneutauf, indem sie die akustischen Vorgänge zeitdiskret und digital beschreiben.Im Unterschied zu den elektronischen Systemen von Dunn gelingt zudemdie Modellierung eines wesentlich natürlicheren Querschnittsverlaufs, da je-dem Glied ein Querschnitt zugewiesen werden kann. Der Querschnittsverlaufwurde aus Röntgenaufnahmen ermittelt, die Fant angefertigt hatte. Durchdie rechnergesteuerte Synthese gelingt auch die Erzeugung von Lautübergän-gen mit diesem Modell, wobei die breitbandige Anregung wieder wahlweisedurch Rauschen oder periodische Signale erfolgt.Einen wichtigen Fortschritt bringt die Ende der 1960er Jahre gewonneneErkenntnis, wie man anhand von Sprachsignalen die Filterkoeffizienten be-ziehungsweise Querschnittsverläufe ermitteln kann. Grundlegende Arbeitenüber die Eigenschaften von Sprachsignalen und deren Bezug zur Sprechtrakt-geometrie stammen von Mermelstein und Schroeder, die in [MeS65] zunächstnur auf Formanten betrachten, von Saito und Itakura, die in [SaI66, ItS68,ItS69] einen statistischen Ansatz basierend auf Maximum Likelihood verfol-gen und in der letztgenannten Arbeit die partielle Korrelation – PARCOR vorstellen, und von Atal und Schröder, die in [AtS67, AtS70] die
LinearPrediction zur komprimierten Sprachübertragung einsetzen. Nach [Ma72]gehen diese Verfahren, [ItS69, AtS70], auf [Pr1795] zurück. Eine alternativeBetrachtungsweise wird von Burg aufgezeigt, die
Entropie-Maximierung in[Bu67], anhand derer er in [Bu68] ein insbesondere für kurze Signalabschnittegeeignetes Verfahren entwirft, mit dem man gut aus Sprachabschnitten die-se Koeffizienten schätzen kann, wie [GrM78] darlegt und Bild 3.5 illustriert.Letztlich ist aber die Übereinstimmung durch das zugrundeliegenden Mo-dell begrenzt, wie [La05] in einem Überblick unter Einbeziehung von Teilen
19. die Filterstruktur wird in 4.6 beschrieben . Modelle des Sprechapparats Bild 3.5:
Querschnitte durch Kreuzgliedkettenfiltern entsprechende Rohrmodelledes Vokaltrakts für die in Bild 2.3 gezeigten Laute [a], [i] und [u], von links nachrechts. Diese sind mit der in Teil III beschriebenen Software unter Verwendungder Burg-Methode, einer doppelten Preemphase und einer Abtastrate von 44,1 kHzbestimmt worden, die Glottis ist jeweils links, der Mund rechts. Skaliert auf dieVokaltraktlänge weisen sie große Ähnlichkeit mit MRI-Untersuchungen dieser Lauteauf, vgl. bspw. [St08]. Abszisse und Ordinate sind zur Hervorhebung der Konturnicht maßstäblich. dieser Arbeit aufzeigt:
Yet, if one looks at the vowel spectra in more detail it turnsout that appearently even for vowels the all-pole model has itsdeficiencies.
Um das Verhalten bestimmter Artikulatoren genauer zu betrachten undzu verstehen, wurde in der jüngeren Vergangenheit für diese Artikulatoreneine Reihe detaillierter Modelle entwickelt. Ein Beispiel hierfür ist ein drei-dimensionales Zungenmodell, das von einem wenige Parameter umfassendenSystem in [Me73] weiter verfeinert wurde, um die inhärente Kinematik zuberücksichtigen; eine Übersicht gibt bspw. [BiJK06]. Jedoch ergibt die indi-rekte Kontrolle über die Zungenbewegung letztlich noch keine befriedigendeArtikulation, wie [GeWPP03] zeigt, oder erfordert lautweises Nachjustierenvon Parametern, wie in [BiJK06] ausgeführt. Ergänzt werden diese Modelledurch eine Reihe spezieller Untersuchungen der Zungenbewegung, beispiel-weise durch akustische Impedanzmessung nach [Sc67, KoNR02], durch Ul-traschall, wie in [ZhHH08, WrS08] beschrieben, oder mittels elektromagneti-scher Artikulatographie, wie [Sc83] zeigt. Letztere erfasst mittels kleiner auf-geklebter Spulen auch die Lippenformation und Velum- und Kiefernstellungmit Hilfe eines um den Probanden erzeugten ortsabhängigen magnetischenWechselfeldes.Zur Untersuchung der Anatomie der Artikulatoren kommen auch weitere . Modelle des Sprechapparats ... Durchleuchtet man den Kopf seitlich, so sieht man auf demSchirmbilde den Nasenrachenraum und den Pharynx als hellenSchatten hervortreten [...] . Lässt man nun die zu untersuchendePerson einen Vocal phoniren, so sieht man, wie das Gaumensegelsich hebt, und zwar ganz verschieden in den Nasenrachenraumsich hinlegt je nach dem Vocal, den man aussprechen lässt. ...
Die Anwendung von Filmaufnahmen sind jedoch mit der Kenntnis über Risi-ken der Röntgenstrahlung sehr eingeschränkt; einige dieser Aufnahmen sindunter [MuVBT95] bereitgestellt. Kürzlich gelang jedoch die Aufzeichnungeinschichtiger Magnetresonanztomographien des Sprechtrakts in Intervallenvon 20 ms, wie [UeZVKMF10] zeigt.Bereits Helmholtz argumentiert in [He1863], dass die Glottisschwingungunabhängig von der akustischen Konfiguration des Sprechtrakts ist und zeigtam Beispiel von Zungenpfeifen, welches sich auf die Glottisfunktion stimm-hafter Laute übertragen lässt, dass die hohe Schallintensität aus einer zy-klischen Unterbrechung der Luftströmung herrührt. Tondorff in [To25] undin Folge van den Berg et. al. in [BeZD57, Be58] erkennen den Bernoulli-Effekt als wesentlichen Beitrag zur Glottis-Schwingung. Darauf aufbauende1- und 2-Massen-Modelle der Stimmlippenvibration werden in [FlL68] bzw.in [IsM72, IsF72] gezeigt. Seitdem ist eine Vielzahl von Modellen der Glot-tis beschrieben worden, die deren Schwingverhalten durch Finite-Elementegenauer nachbilden, in [Vr03] die akustischen und aerodynamischen Effek-te durch numerische Lösung der Navier-Stokes-Gleichung behandeln, oderwie in [Ol93] einfach den zeitlichen Schalldruckverlauf genauer beschreiben.Letzteres wird auch in dieser Arbeit verwendet, vgl. Kapitel 11. Gestütztwerden diese Modelle durch Untersuchungen der Glottisschwingung, insbe-sondere mittels Hochgeschwindigkeitskameras und Elektroglottograph: Ver-fahren die erstmals in [TrW35, Be37] bzw. in [Fa57] beschrieben werden.Eine Übersicht gibt [BaLMG83].Auch für die Akustik der Nasenhohlräume wurden bestimmte Modelleentwickelt. So haben Lindqvist und Sundberg in [LiS72] das akustische Ver-halten des Nasaltrakts untersucht, indem Schall oberhalb des Velum mittelseines dünnen Rohres eingeleitet und der an den Nasenlöchern austretendeSchall erfasst wurde. Unter Berücksichtigung des Einflusses der Schallquelleerhält man so das Übertragungsverhalten. Bei dieser Methode ist es jedochschwierig, die natürlichen Verhältnisse für die Abschlussimpedanz am Velumzu schaffen: Ist es abgesenkt, entspricht seine Artikulationsstellung derjeni-gen der nasalierten Laute, aber der Vokaltrakt beeinflusst die Messung – . Modelle des Sprechapparats . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts Wie im vorangegangenen Teil deutlich wurde, ist der Vokaltrakt auf-grund seiner Variabilität das wesentliche Element der natürlichen Spracher-zeugung. In diesem Teil werden die Grundlagen für seine Nachbildung mitzeitdiskreten digitalen Filtern vorgestellt. Die Schallwellen werden dazu ver-einfacht mit einer ebenen Wellenfront angenommen und deren Ausbreitungentlang des Vokaltrakts betrachtet.
Bild 4.1:
Diskretisierung des Vokaltraktes — schematisch
Für die als Rohrmodell bezeichnete Abstraktion unterteilt man zunächstden Vokaltrakt in gleichlange Abschnitte, wie links in Bild 4.1 angedeutet.Dabei idealisiert man die Abschnitte in homogene Bereiche, die Krümmungdes Vokaltrakts bleibt unberücksichtigt, und abrupte Querschnittssprünge.Das resultierende Modell ist rechts in Bild 4.1 dargestellt. Für dieses Modelllassen sich handhabbare Filter finden, die in den nachfolgenden Abschnittenbeschrieben werden. Anhand dieser Filter lässt sich das Übertragungsver-halten bestimmen. Umgekehrt lassen sich auch die Filterkoeffizienten ausdem Betragsspektrum von Sprachproben schätzen, wie in den weiteren Ab-schnitten gezeigt wird. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts Schallharte Rohrsysteme kann man, solange ihr Querschnitt klein gegen-über den Wellenlängen der betrachteten Schwingungen ist , als eindimen-sionale Wellenleiter auffassen; es wird nur die Ausbreitung ebener Wellenberücksichtigt.Ein geeignetes Mittel zur Beschreibung eindimensionaler Wellenleitersind zum einen Adaptoren, die Querschnitts- beziehungsweise Impedanz-sprünge und Verzweigungen darstellen können. Zum anderen werden ho-mogene Abschnitte des Wellenleiters durch Leitungs- bzw. Laufzeitelementeerfasst. Ihnen gemeinsam ist ihr lineares Übertragungsverhalten, welchessich in Form von Matrizen beschreiben lässt, vgl. [La96]. Die dabei zugrun-de liegende Idee ist die Separation der Wellenausbreitung in eine hin- undeine zurücklaufende Welle, da diese Lösungen der Differentialgleichung sind,die den homogenen Wellenleiter beschreibt. Adaptoren verknüpfen dann diehin- und zurücklaufende Welle.Im Folgenden werden zwei wichtige Typen von Matrizen eingeführt. Fürein lineares System mit zwei Eingängen a und a , die in dem Vektor a = a a ! zusammengefasst werden, und zwei Ausgängen, b = b b ! , kann manderen Beziehung durch eine Streumatrix S angeben: b = b b ! = s s s s ! a a ! = Sa . Eine andere Darstellungsform ist die Betriebskettenmatrix T , sie erlaubtdas Aufmultiplizieren verketteter Adaptoren. Die Definition von T ist: b a ! = T a b ! . Hieraus ergibt sich folgender Zusammenhang zwischen T und S : T = 1 s − det S s − s ! , S = 1 t t det T − t ! . Als Ein- und Ausgangssignal sind physikalischen Größen geeignet, diesich durch eine linearen Funktion oder Differentialoperator aus dem akus-tischen Potential Φ bilden lassen, wie der Schalldruck p = − ρ ∂/∂t Φ, dieSchallschnelle v = ∇ Φ, der Schallfluss u = F ∇ Φ und die nach [Ei96] vorteil-hafte Wurzelleistung √ pu = − ρ q FZ ∂∂t Φ = √ Z F ∇ Φ. Mit t ist dabei dieZeit, mit F die Rohrquerschnittsfläche, mit ρ die mittlere Luftdichte undmit Z der Wellenwiderstand bezeichnet.
20. Die niederfrequenteste Radialmode eines Zylinders, die Besselmode j (1 , . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts a b b a Bild 4.2:
Leitungselement
Bild 4.2 zeigt ein Leitungselement der Länge l mit konstanter Quer-schnittsfläche, dass in zwei Richtungen von Schall durchlaufen wird. Bedingtdurch die endliche Signalausbreitungsgeschwindigkeit, die Schallgeschwin-digkeit c , tritt eine zeitliche Verschiebung, beschrieben durch die Laufzeit △ t = lc , zwischen den Eingängen a und den Ausgängen b auf: b ( t ) = a ( t − △ t ) ,b ( t ) = a ( t − △ t ) . Um dieses Verhalten mittels zeitdiskreter Filter zu beschreiben, wirddie Abtastperiode der Filter – zunächst – so gewählt, dass sie der Lauf-zeit der Leitungslänge entspricht. Mit den Abbildungen b n,k = b n ( k △ t ) und a n,k = a n ( k △ t ) unter Berücksichtigung des Abtasttheorems, d. h. die Band-breite des zeitkontinuierlichen Signals sei kleiner der halben Abtastfrequenz,gewinnt man eine zeitdiskrete Darstellung: b ,k = a ,k − ,b ,k = a ,k − . Transformiert man diese Gleichung in den Z -Bereich, in Abschnitt 17wird auf die Zusammenhänge eingegangen, so folgt aus dem Verschiebungs-satz: B ( z ) = z − A ( z ) , B ( z ) = z − A ( z ) . Dies führt zu den Streu- und Betriebskettenmatrizen: S = z − ! , T = z − z ! .
21. Es wird sich in Abschnitt 4.6 zeigen, dass man die Periodenlänge vorteilhaft ver-doppeln kann. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts α ver-wenden, wodurch sich die erweiterten Streumatrix und entsprechende Be-triebskettenmatrix ergeben: S = e − α z − ! , T = e − α z − e α z ! . Der Dämpfungsfaktor ist von der Querschnittsfläche abhängig, und kann zurVerbesserung der phänomenologischen Approximation der Dampfungsursa-chen auch frequenzabhängig formuliert werden. Auf die Frequenzabhängig-keit der Dämpfung wird in Abschnitt 8.3 weiter eingegangen.Einem homogenen Leitungselement lässt sich eine akustische Impedanz Z ak zuordnen, die durch das Verhältnis von Schalldruck p zu Schallfluss u ,dem Produkt aus Schallschnelle v und Rohrquerschnittsfläche F , definiertist. Die akustische Impedanz steht damit zur Feldimpedanz Z , dem Ver-hältnis von Schalldruck und Schallschnelle, in folgender Beziehung: Z ak = pu = pF v = 1 F Z , die jeweils für hin- und rücklaufende Welle, also jeweils für die untere undobere Gleichung der drei anfangs erörterten Gleichungsdubletten gültig ist. a b b a F F Bild 4.3:
Querschnittssprung
Bei dem in Bild 4.3 dargestellten Querschnittssprung von der Fläche F auf die Fläche F wird ein Teil der einlaufenden Welle reflektiert, der
22. Der Querschnittssprung soll keine axiale Ausdehnung besitzen, das betrachtete Vo-lumen ist folglich gleich Null. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts die Flüsse u sind das Produkt aus Querschnittsflächeund Geschwindigkeit (Schnelle) v : u = − u ⇐⇒ F v = − F v . Die Zerlegung von v in die Teilschnellen v = v a − v b und v = v a − v b ,orientiert an den jeweiligen Pfeilen in Bild 4.3, und die Verknüpfung v = ρc p mit der Schallgeschwindigkeit c führen zu F ( p a − p b ) = − F ( p a − p b ) . Da zudem der Druck p als intensive Größe eindeutig ist, muss die Summeder linksseitigen Teildrücke gleich der der rechtsseitigen sein, also p a + p b = p a + p b . Das sich aus den letzten beiden Gleichungen ergebende Gleichungssystem,nach p b aufgelöst, ergibt: p b = F − F F + F p a + F F + F p a p b = F F + F p a + − ( F − F ) F + F p a .Daraus ergibt sich die Streumatrix der Tabelle 4.1 in Druckdarstellung mit dem Reflektionsfaktor r = F − F F + F . Der Reflektionsfaktor kann Werte aus [ − ,
1] annehmen. Besondere Beach-tung verdienen der Randwert +1, hier ist die zweite Fläche gleich Null, manspricht von einem schallharten Abschluss, und der Randwert −
1, die zweiteFläche ist infinit groß, ein schallweicher Abschluss. In beiden Fällen wird dieWelle vollständig reflektiert, im zweiten mit umgekehrter Phasenlage.Der Reflektionsfaktor kann auch durch die akustischen Impedanzen desrechts- und linksseitigen Rohrs, Z ak bzw. Z ak , ausgedrückt werden. r = F − F F + F = Z /Z ak − Z /Z ak Z /Z ak + Z /Z ak = − Z ak − Z ak Z ak + Z ak . Ein Zusammenhang, der über Rohrmodell hinausgehend weiter von Nutzenist.
23. Dieses folgt aus dem Gaußschen Integralsatz R V ∇ v dV = H ∂V v d a , da nach Voraus-setzung V = 0 sein soll. Somit ist auch H ∂V v da = 0.24. Die anderen Tabelleneinträge ergeben sich durch Auflösen nach u b , l b und so fort.Sie stellen verschiedene Sichtweisen des gleichen physikalischen Vorgangs dar. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts S T
Druck r − r r − r ! r rr ! Fluss r r − r − r ! − r rr ! Wurzelleistung r √ − r √ − r − r ! √ − r rr ! — r − r − r ! rr ! Tabelle 4.1:
Streu- und Betriebskettenmatrixdarstellung des 2-Tor Adaptors
Analog dem 2-Tor-Adaptor zur Beschreibung des Querschnittssprungsgilt für Mehrtor-Adaptoren mit n Ein- und Ausgängen: p ak + p bk = p al + p bl ∀ k, l ∈ { , ...n } , n X i =1 u ai − u bi = 0 . Es ergibt sich somit die Streumatrix: b = b b ... b n = s s · · · s n s s · · · s n ... ... . . . ... s n s n · · · s nn a a ... a n = S a . In S ist s kk = F k F Σ − l = k in Druckdarstellung s lk = F k F Σ , mit F Σ = n P i =1 F i . Die Flussdarstellung ergibt sich analog: s lk = F l F Σ .Mit dem Mehrtor-Adaptor lassen sich Verzweigungen des Wellenleitersbeschreiben. Diese, für eine Reihe von Fragestellungen zur Sprechtrakt-akustik relevante Erweiterung des Sprechtraktmodells wird in Abschnitt 4.8eingehend betrachtet. Alternativ ist die Ankopplung von nicht unmittelbarakustisch motivierten Filtern über den Mehrtoradaptor möglich, wie in Ab-schnitt 11.2 gezeigt ist. Desweiteren kann der Mehrtoradaptor verwendetwerden, um weitere Anregungen, wie das Rauschen der Frikative, an be-stimmten Stellen in das Modell des Vokaltrakts einzuspeisen, um damit dieSchallquelle an der Verengungsstelle von Frikativen phänomenologisch unddie Schallausbreitung wirklichkeitsnah nachzubilden. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts Bei der Schallabstrahlung am Mund und in gleicher Weise von denNasenlöchern findet ein Übergang von der akustischen Impedanz des Rohr-querschnitts zu der des Freifeldes statt. Um diesen Übergang von einemRohr mit endlicher Querschnittsfläche in einen sehr viel größeren Halbraumzu beschreiben, kann in erster Näherung ein Querschnittssprung-Adaptormit dem Reflektionsfaktor r = − z pz = a (1 − z − )1 + bz − , wobei die Parameter a und b von dem Verhältnis des Öffnungsradius zu demProdukt aus Abtastperiode und Schallgeschwindigkeit abhängen.Ein einfacher Hochpass bildet zwischen den beiden zuvor genannten Be-schreibungen einen Kompromiss bezüglich physikalisch treffender Modellbil-dung und Filterkomplexität. Ein wichtiger Vorteil des einfachen Hochpasseliegt darin, dass sowohl dessen Koeffizient als auch die Sprechtraktkonfigu-ration in einfacher Weise aus einem Sprachsignal geschätzt werden können,wie in Abschnitt 4.7 gezeigt wird. In diesem Abschnitt werden die aus Adaptoren und Leitungselementenkombinierbaren Filter betrachtet, die das akustische Übertragungsverhaltendes Sprechtrakts nachbilden. Diese Filter bestehen aus einer alternierendenFolge von 2-Tor Adaptoren und Leitungselementen. Dies veranschaulicht derSignalflussgraph in Bild 4.4, bei dem der Eingang a und der Ausgang b ist. Die ÜbertragungsfunktionH( z ) = B A = 1T erhält man durch Multiplizieren der Betriebskettenmatrizen: T = T T T T ! = T T T T · · · T n − T n . . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts ✲ ✲ ✡✡✡✡✡✢ ✍✌✎☞ + ✍✌✎☞ + rr ✛✛ ❏❏❏❏❏❪ z − r − rz − ✲ ✲ ✡✡✡✡✡✢ ✍✌✎☞ + ✍✌✎☞ + rr ✛✛ ❏❏❏❏❏❪ z − r − rz − ✲ ✲ ✡✡✡✡✡✢ ✍✌✎☞ + ✍✌✎☞ + rr ✛✛ ❏❏❏❏❏❪ z − r − rz − · · · T T T T T n − T n ✛ ✲ ❡ ❡r r A B B A Bild 4.4:
Signalflussgraph eines unverzweigten Rohrsystems. Der Signalflussgraphbasiert auf Tabelle 4.1, letzte Zeile, und zeigt die typischen namensgebenden kreuz-förmigen Elemente, die kettenartig angeordnet sind.
Die Übertragungsfunktion besitzt nur Pole. Aufgrund der Beschränkung von r liegen die Pole innerhalb des Einheitskreises, somit ist das System stabil. In Abschnitt 13 wird ein Beispiel für die Berechnung der Übertragungs-funktion gegeben. An diesem Beispiel fallen die nur gradzahlige Potenzenvon z in der Übertragungsfunktion auf. Die daraus folgende symmetrischeÜbertragungsfunktion deckt sich nur in der unteren Hälfte mit Messungen,vgl. Bild 2.3 und Bild 2.4. Die Grenzen des Modells sind in der oberen Hälfteder Übertragungsfunktion überschritten, da der Vokaltrakt eben nicht stück-weise homogen ist. Dies kann durch eine Beschränkung der Betrachtung aufdie untere Hälfte der Übertragungsfunktion oder durch einen anderen An-satz zur Beschreibung der Laufzeitglieder behoben werden. Für letzterenhalbiert man die Laufzeit für hin- rücklaufende Welle von z − auf z − / .Realisierbare und den Vokaltrakt treffend beschreibende Filter erhält mandaraus, in dem die Laufzeitglieder der hin- und rücklaufenden Welle alter-nierend in dem Signalflussgraphen wieder zu z − zusammenfasst werden,also im Ergebnis die in Bild 4.4 gestrichelt gezeichneten Laufzeitglieder ent-fernt werden. Vertiefendes zeigen [La96] und die dort genannten Referenzen.In den Darstellungen dieser Arbeit wird überwiegend die erste Alternativegenutzt, um einen direkten Vergleich mit den hauptsächlich betrachtetenFiniten Differenzen zu ermöglichen, die Implementierungen verwenden stetzdie mit geringerem Rechenaufwand behafteten halbierten Laufzeiten. Der Querschnittsverlauf des Sprechtrakts beziehungsweise die Parame-ter des äquivalenten Kreuzglied-Kettenfilters können anhand von Sprach-signalen bestimmt werden. Diese Methode wird im Folgenden genauer be-schrieben. Um zutreffende Querschnittsverläufe zu erhalten, muss hierfür
25. Man schließt die beiden in diesem Fall physikalisch nicht sinnvollen Extremalwerte r = +1 und r = − . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts f/ [kHz] 8 Bild 4.5:
Parameterschätzung mittels Burg-Methode aus einem Lautspektrum.Gezeigt ist das Betragsspektrum des Lauts [l] in Balkendarstellung, die Analysemittels Burg-Methode als dünne Linie und selbige nach Anwendung einer zwei-fachen Preemphase, dicke Linie. Es ist gut zu erkennen, dass die Preemphase denspektralen Abfall eliminiert, der nicht aus dem Querschnittsverlauf des Sprechtraktsselbst resultiert, aber dessen Resonanzeigenschaften erhält. der Einflüsse des Sprechtrakts von anderen Einflüssen getrennt werden, dieeine spektrale Färbung des Sprachsignals hervorrufen.Die spektrale Färbung (Spektrum) des Sprachsignals S( z ) wird durch dieGlottis G( z ), die Abstrahlung R( z ) und den Sprechtrakt H( z ) hervorgerufen:S( z ) = R( z )H( z )G( z ) . Für die Schätzung der Parameter eines Filters, welches den Vokaltrakt be-schreibt, ist folglich von dem Spektrum des Sprachsignals die spektrale Fär-bung durch Glottis und Abstrahlung durch eine Vorfilterung zu entfernen.Der spektrale Effekt von Anregung und Abstrahlung wird in guter Näherungdurch ein Produkt von Filtern erster Ordnung beschrieben, die eine Hoch-oder Tiefpasscharakteristik aufweisen. Diese Charakteristik unterscheidetsich deutlich von den Formanten des Sprechtrakts, die durch Resonanzstruk-turen gebildet werden, also Produkte Filter zweiter Ordnung sind. Entspre-chend kann man einfach in guter Näherung durch eine Einschränkung aufeinen Koeffizienten der im Folgenden beschriebenen
Linear Prediction dieAnregungs- und Abstrahlcharakteristik bestimmen, indem man diese ein-oder mehrfach anwendet. Bild 4.5 zeigt das Resultat einer Schätzung desBetragsgangs des Vokaltrakts für eine doppelte, adaptive Preemphase .Die Idee hinter der Linear Prediction ist die Vorhersage des weiterenSignals anhand eines Abschnitts zurückliegender Signalwerte durch ein li-neares System, welches die Signalwerte linear kombiniert: je genauer diesegelingt, um so besser bildet das System die betrachtete Signalquelle nach.Entsprechend gut kann man von den ermittelten Systemeigenschaften aufdie ursprüngliche Signalquelle schließen. In Abschnitt 3.3 sind bereits einigedieser Verfahren genannt. Sie unterscheiden sich hinsichtlich des Maßes, mit
26. Auf eine Übersetzung des gebräuchlichen engl. Ausdrucks wird verzichtet. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts n/ l die Filterkoeffizienten r i schrittweise bestim-men. Nach Burg ist r i = − l P k =1 f i,k b i,kl P k =1 f i,k + l P k =1 b i,k und mit PARCOR nach Itakura und Saito ist r i = − l P k =1 f i,k b i,k s l P k =1 f i,k · l P k =1 b i,k , womit f i − ,k = f i,k + r i b i,k − und b i − ,k = b i,k − + r i f i,k , b i − , = 0 fürden nächsten Schritt gebildet wird. Dabei sind r i , f i und b i dem Adaptor T zugeordnet, letztere sind die rechtsseitigen Signale im oberen bzw. un-teren Signalpfad. Zu Beginn wird r n/ = − b n/ ,k = 0 gesetzt und f n/ ,k mit den Signalwerten des betrachteten Abschnitts belegt. Die Algorithmenenden mit der Berechnung von r . Beide Verfahren sind mit der Einbe-ziehung der Signalenergie im oberen und im unteren Pfad numerisch stabil,sie unterscheiden sich lediglich in deren Mittelung, die bei Burg arithme-tisch und nach Itakura und Saito geometrisch erfolgt. Man erkennt an denGleichungen zur Reflexionsfaktorbestimmung die Arbeitsweise beider Ver-fahren: Je größer der Korrelationskoeffizient zwischen den Signalen f i , b i ist,oder allgemeiner die Kreuzenergie im Verhältnis zum Mittel, umso größerist der inverse Reflexionsfaktor, wodurch diese Korrelation in dem folgendenMischschritt beseitigt wird. Da beide Signale anfangs gleich sind, werden sieso Schritt um Schritt spektral weißer. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts Mit verzweigten Rohrsystemen lassen sich weitere akustische Prinzipiendes Sprechtrakts während der Artikulation bestimmter Laute untersuchen.Dies wird im Folgenden exemplarisch gezeigt und dabei die zugrundeliegendeMethodik betrachtet.So lassen sich die beiden um den vorderen Zungenbereich herumfüh-renden Passagen bei dem später noch eingehender betrachteten Laterallaut[l] durch ein in diesen Bereich aufgespaltenes Rohrsystem beschreiben, wiebspw. [ZhEWT03] ausführt: Durch die unterschiedlichen Schall- bzw. Si-gnallaufzeiten in beiden Passagen aufgrund von natürlichen Asymmetrienergeben sich bei bestimmten Frequenzen Interferenzen, die eine Schallab-strahlung verhindert oder reduziert und als Nullstellen im Spektrum her-vortreten.Nach [MüM03] lassen sich mit einer Abzweigung Quermoden in einemrotationssymmetrischen Rohrsystem vereinfacht betrachten, solange sie be-stimmten Proportionen genügen. An diesem einfachen Beispiel lassen aufkurzem Weg die Auswirkungen von Quermoden bzw. Abzweigungen zeigen.Als Abzweigung wird ein einseitig geschlossenes, homogenes Rohr mit derGesamtlaufzeit z − n verwendet; diese Abzweigung setzt an einem Rohr mitgleichem Querschnitt an. Für den dreifach querschnittsgleichen Dreitorad-aptor in Druckdarstellung gilt nach Abschnitt 4.4 b b b = 13 − − − a a a und führt im Z -Bereich mit der am dritten Tor angesetzten Gesamtlaufzeit A = z − n B zu B B ! = 1 + z − n z − n − − ! A A ! und schließlich zur Übertragungsfunktion H ( z ) = B /A = z − n )3+ z − n . Sieunterscheidet sich durch das Auftreten von Nullstellen und in dem Grup-penlaufzeit, die in Bild 4.6 gezeigt ist, von einer durch Querschnittssprung-Adaptoren beschriebenen Ausbuchtung. Diese zusätzliche Gruppenlaufzeitder Bessel-Mode bewirkt folglich eine akustische Verlängerung des einfa-chen Rohrs und damit eine Frequenzverschiebung von Resonanzen aus denQuerschnittsverlauf zu tieferen Frequenzen hin.Wie in Bild 4.1 erkennbar ist und beispielsweise in [Li98] eingehend be-trachtet wird, kann der Nasaltrakt, als Rohr modelliert, über ein Dreitora-dapter zur Nachbildung der Öffnung des Gaumensegels mit dem pharyngal-oralen Bereich des Sprechtrakts gekoppelt werden. Diese Idee weiterführendist zu Beginn dieser Arbeit in [RaSL99] untersucht, ob man durch ein ver-zweigtes Rohrsystem, dessen Topologie an der des Nasaltrakts orientiert, die . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts YX ω/π Bild 4.6:
Links: Rotationssymmetrische Rohrerweiterung, deren Besselmode mitder überlagerten Filterstruktur berücksichtigt wird. Das Symbol kenzeichnet denDreitoradaptor, ein Zweitor-Kreuzgliedelement und dazwischenliegende LinienLaufzeiten. Betrachtet werden schattierte/gefüllte Elemente; X und Y bezeichnenEin- und Ausgang. Rechts: Zusätzliche Gruppenlaufzeit für n = 2. Y r Y l X Bild 4.7:
Links: Horizontaler Schnitt durch den Nasaltrakt, überlagert mit einerstilisierten Filterstruktur. Diese beginnt links am Velum, spaltet sich an der Na-senscheidewand auf, erfasst über Abzweigungen die größten Nebenhöhlen (
Sinusmaxillaris , oben und unten) und führt bis zu den beiden Nasenlöchern. Rechts: Fil-terstruktur, verdeutlicht mit den Symbolen , für Zwei- und Dreitoradaptor. . Ausbreitung ebener Wellen:Das Rohrmodell des Sprechtrakts . Mehrdimensionale Integration der Wellengleichung Wenngleich das Rohrmodell die Ausbreitung ebener Wellen exakt be-schreibt, hat sich bereits im vorangegangenen Abschnitt angedeutet, dassder Zerlegung der Sprechtraktakustik in Bereiche ebener Wellen Grenzengesetzt sind. Diese werden in den nächsten Abschnitten näher betrachtetund der umgekehrte Weg untersucht, bei dem die Wellenausbreitung nurapproximativ, dafür aber die dreidimensionale Geometrie exakt erfasst wird.
In vielen Sprachen tritt die Lautklasse der Nasale (im Deutschen [m],[n], [ŋ]) häufig auf. Um deren Lautbildung zu verstehen und mittels einesakustisch motivierten Modells zu reproduzieren, ist eine genaue Kenntnisder Schallausbreitung im Nasaltrakt notwendig. Da die räumliche Konfigu-ration des Nasaltrakts im Gegensatz zu der des Vokaltrakts zeitlich konstantist, kann sie mit vergleichsweise langwierigen medizinischen Untersuchungs-methoden ermittelt werden. Die räumliche Konfiguration ist damit drei-dimensional abbildenden Verfahren, wie Kernspin-Resonanz-Tomographie,Computer-Tomographien oder Kryo-Sektionen zugänglich, und es lassen sichdie akustischen Eigenschaften mittels numerischer Verfahren daraus bestim-men. Schematisch ist der Nasaltrakt in Bild 5.1 dargestellt, er bildet die Ver-bindung des Rachens mit den Nasenlöchern. Der durch die durch die Nasen-scheidewand (
Septum ) längsgeteilte Verbindungsgang (
Meatus nasi commu-
Stirnhöhle (
Sinus frontalis )Kieferhöhle (
Sinus maxillaris )Keilbeinhöhle (
Sinus sphenoideus ) Bild 5.1:
Nasaltrakt und Nebenhöhlen . Mehrdimensionale Integration der Wellengleichung nis ) wird durch jeweils drei muschelförmige Knorpel- bzw. Knocheneinbuch-tungen ( Concha inferior , C. media und
C. superior ) verengt. Die Akustikdes Nasaltrakts wird, wie bereits erwähnt durch mehrere Nebenhöhlen be-einflusst, die mit ihm über dünne Kanäle verbunden sind.Desweiteren ergeben sich auch in der Mundhöhle bei Frequenzen ab et-wa 4 kHz teils deutliche Abweichungen vom Modell der ebenen Welle, wiees ausführlich in [Mo02] erörtert wird: Man erkennt die starke Schrägstel-lung der Intensitätsbereichskontouren im Bereich der vorderen Mundhöhle,insbesondere deren Verwerfung bei den Lippen; auch die Ausbildung derKontourverläufe am Gaumen lässt sich nicht mit dem Modell ebener Wel-len beschreiben. Die gezeigte Simulation wird auch durch in [Mo02] zitierteMessungen belegt und deren Effekt auf die Resonanzeigenschaften quantifi-ziert.
Für die folgende grundlegende Evaluierung wird die Schallausbreitungin ihrer einfachsten Form betrachtet, der akustischen Wellengleichung. Wär-meleitung wird zunächst außer Acht gelassen, so dass eine adiabatische Zu-standsänderung erfolgt; ebenso bleiben Reibungen unberücksichtigt und dieBetrachtung beschränkt sich auf Terme erste Ordnung.Ausgehend von der 1. Akustischen Grundgleichung ∇ p = − ρ ∂ u ∂t , welche beinhaltet, dass ein Druckgradient ein Medium beschleunigt, undder 2. Akustischen Grundgleichung, der Kombination aus Kontinuitäts- undlinearisierter Adiabatengleichung, ∇ u = − κp ∂p∂t . ergibt sich die akustische Wellengleichung∆ p = ρκp ∂ p∂t , Dabei ist κ der Adiabatenkoeffizient, ρ die mittlere Dichte und p der mittlereDruck sowie κpρ = c das Quadrat der Schallgeschwindigkeit in Luft. u , p und t symbolisieren wie in den letzten Abschnitten den Fluss, den Druckund die Zeit.Die analytische Lösung der Wellengleichung ist nur für bestimmte einfa-che Randbedingungen möglich, wie für quader-, kugel- oder zylinderförmigeHohlräume. Für die komplizierteren Geometrien des Sprechtrakts werdendeshalb numerische Verfahren eingesetzt. . Mehrdimensionale Integration der Wellengleichung p durch dieAbbildung c −→ − ∂ Φ ∂t = 0 . Abhängig von den Randbedingungen ist die numerische Lösung der Wel-lengleichung mit vielen Verfahren möglich, [Sc93, Oe95, Me08, LeSW09] ge-ben einen Überblick. Diese Verfahren führen eine Diskretisierung des Raumsoder seiner Oberflächen ein, sowie eine Diskretisierung der Zeit- oder Fre-quenzkoordinate. Einige dieser Verfahren sind bereits in Abschnitt 3.4 ge-nannt und in einigen Aspekten diskutiert worden. Das Ziel der folgendenBetrachtung ist es, ein möglichst gut handhabbares Verfahren zur Untersu-chung der Sprechtraktakustik zu ermitteln. Wenngleich kein strenges Maß,setzt sich die Handhabbarkeit hierbei aus dem Aufwand für Implementie-rung, dem Laufzeitverhalten, einer evtl. erforderliche Aufbereitung von Un-tersuchungsdaten und aus der zu erwartenden Genauigkeit zusammen.
Waveguide-Mesh
Der naheliegende Weg, das erfolgreiche Rohrmodell zur Beschreibungder Ausbreitung ebener Wellen auf drei Dimensionen zu erweitern, also bei-spielsweise ein kubisches Gitter aus uniformen Rohrelementen zu bilden, diean den Knotenstellen mit 6-Tor-Adaptoren verbunden sind, führt zu demWaveguide-Mesh. Bild 5.2 (c) zeigt ein zweidimensionales Abbild dieses Net-zes unter Berücksichtigung einer einfachen Randstruktur.Die bereits genannte unzutreffende, inhärente Anisotropie der Wellen-ausbreitung schließt dieses Verfahren für eine quantitative Untersuchungder Akustik aus. Um diese Anisotropie zu vermeiden, könnte man unterBeibehaltung der Einheitskantenlänge nun versuchen, das Netz feiner undmakroskopisch isotrop zu gestalten. Der hierfür erforderliche Netzgeneratorscheint aber nicht wesentlich einfacher als ein Netzgenerator zur Unterglie-derung in Finite Elemente zu sein, das Laufzeitverhalten durch das feinereNetz aber deutlich schlechter. . Mehrdimensionale Integration der Wellengleichung (a) Unstrukturiertes Netz (b)
Strukturiertes Netz (c)
Kartesisches Netz
Bild 5.2:
Netze verschiedener Diskretisierungsmethoden
Finite-Elemente-Methode
Der Raum wird bei dieser Vorgehensweise in endliche viele Elementeuntergliedert, bspw. Tetraeder. Deren Abmessungen sind im Allgemeinenunterschiedlich und der Randbedingung angepasst. Auf dem Volumen jedesTetraeders wird die Zustandsgröße durch eine möglichst einfache Formfunk-tion angenähert. Zwischen angrenzenden Tetraedern wird dann eine Stetig-keit der Formfunktion durch Gleichheit der Eckwerte und je nach verwen-deter Formfunktion weiteren Werten gefordert. Ein an Randbedingungenangepasstes, unstrukturiertes Netz der Finiten-Elemente ist in Bild 5.2 (a)gezeigt.Der wesentliche Vorteil der Elemente Methode ist, dass das Netz fürfiligrane Randstrukturen verfeinert werden kann, während es bspw. im Zen-trum von Hohlräumen grob, mit wenig Elemente ausgeführt wird. Auf dieseWeise kann die Anzahl der Elemente bei bestimmten Aufgabenstellungendeutlich reduziert werden, und die algorithmische höhere Komplexität proElement rentiert sich. Jedoch sollten die Tetraeder gewissen Kriterien genü-gen, bspw. dem von Delauny in [De34], um den Raum hinreichend homogenabzudecken, was Algorithmen für die automatische Generierung der Tetra-edernetze aufwendig macht: Eine automatische Erzeugung ist bisher nur füreinen Vokaltrakt mit einer stark vereinfachten elliptischen Kontur gezeigtworden. Zudem ist bei den hier zu betrachtenden Untersuchungsdaten derRand nicht unmittelbar in den Datensätzen enthalten, sondern müsste ausräumlich variierenden Volumendichten abgeleitet werden. Letztlich bleibtauch fraglich, ob der genannte Vorteil der Finiten Elemente greift, da geradeder Nasaltrakt eine Vielzahl filigraner Strukturen aufweist — insbesondere,wenn man eine physikalische treffende, dünne Randschicht mit Dämpfung . Mehrdimensionale Integration der Wellengleichung
Finite-Differenzen-Methode
Bei der Finite-Differenzen-Methode legt man in das Volumen ein kubi-sches Gitternetz der Weite h . Man approximiert die partiellen Differenti-algleichungen durch Differenzengleichungen, welche auf den an den Gitter-punkten definierten Zustandsgrößen basieren. Im einfachsten Fall wird aus ∂∂ ξ Φ( x ) ≈ △△ ξ Φ( x ) = Φ( x + h ξ ) − Φ( x − h ξ )2 h und aus ∂ ∂ ξ Φ( x ) ≈ △ △ ξ Φ( x ) = Φ( x + h ξ ) − x ) + Φ( x − h ξ ) h , für zweite Ableitungen, wie sie bei der Wellen-Differentialgleichung vorkom-men. Dabei ist ξ ein normierter Basisvektor des betrachteten Raums. Aufdas Verfahren wird unter 5.6 genauer eingegangen.Man erhält ein kartesisches Netz, Bild 5.2 (c), dessen Gitterweite sichan quaderförmige, vorzugsweise kubische Volumenelemente der tomographi-schen Datensätze anpassen lässt. Die Datensätze können damit direkt über-nommen werden. Um wesentliche anatomische Details zu erfassen, weisendiese Datensätze eine räumliche Auflösung von 1 mm und darunter auf.Diese Auflösung ist deutlich kleiner als die Schallwellenlänge von 4 cm beider höchsten betrachteten Frequenz 8 kHz. Es ist somit naheliegend, dass dieDifferenzenapproximation der partiellen Differentialgleichung einen geringenFehler aufweist — und es bestätigt sich bei der eingehenden Betrachtung inden folgenden Abschnitten: Anisotropie, Dispersion und eine Skalierungsab-hängigkeit können vernachlässigt werden. Darüber hinaus erlaubt die ver-gleichsweise feine Diskretisierung eine Reihe von Anpassungen, die treffendakustisch relevante Effekte erfassen, wie sich im Weiteren zeigt. Vorteilhaftsind weiterhin die einfache Implementierung und der geringe Berechnungs-aufwand einer einzelnen Differenzen-Approximation. Weitere Methoden
Es gibt eine Vielzahl weiterer Verfahren. Diese weisen jedoch meist an-dere Zielrichtungen auf, wie bspw. die
Boundary Element Methode und die
Source-Simulation-Technique , sind aufwendig zu implementieren, wie die
Spektral-Element-Methode und die
Pseudospektral-Methode , oder haben kei-nen offensichtlichen Vorteil für die hier untersuchte Aufgabenstellung, wiedie
Finite-Volumen Methode mit der Netzstruktur (b) in Bild 5.2, weshalbdiese Verfahren nicht weiter betrachtet werden. . Mehrdimensionale Integration der Wellengleichung Für zeitlich unveränderliche, stationäre Randbedingungen ist eine zeit-liche und räumliche Separation der Differentialgleichung möglich. Diese Be-dingungen sind im Nasaltrakt und genähert in der Mundhöhle bei bestimm-ten Lauten erfüllt. Hier kann dann eine direkte Berechnung im Frequenzbe-reich mit dem harmonischen Ansatz p = p x,y,z e − iωt erfolgen. Setzt man diese in die akustische Wellengleichung ein, so erhältman die Helmholtzgleichung ∆ + ω c ! p x,y,z = 0 . Das damit und durch die räumliche Diskretisierung entstehende Gleichungs-system kann dann entweder direkt oder durch iterative Algorithmen, wieRelaxation, gelöst werden.Alternativ besteht auch die Möglichkeit, die im vorhergehenden Ab-schnitt gefundenen Differenzenoperatoren als zeitdiskretes Filter zu betrach-ten, ähnlich den Rohrsegmenten aus Abschnitt 4. Das Übertragungsverhal-ten ergibt sich dann durch die Kopplung dieser Filter entsprechend der räum-lichen Diskretisierung. Der Unterschied zwischen diesen, von den Finiten-Differenzen abgeleiteten Filtern und den Kreuzgliedkettenfiltern liegt letzt-lich nur in den betrachteten Größen. Erstere betrachten Wellengrößen, wel-che aus der D’Alembert’schen Lösung der Wellengleichung resultieren, letz-tere erfassen die Wellengleichung direkt. Unterschiede und Gemeinsamkeitenwerden anhand eines Beispiels in Abschnitt 13 nochmals verdeutlicht unddort zur Verifizierung genutzt.Damit das Simulationssystem nicht auf statische Vokaltraktkonfigura-tionen beschränkt bleibt, wird auf die zeitliche Separation verzichtet. DieRechenzeit der direkten Simulation ist, insbesondere nach den in Abschnitt9.4 vorgestellten und vorgenommenen Optimierungen, ausreichend kurz. Dieunterschiedlichen Sichtweisen helfen jedoch beispielsweise, die in den Ab-schnitten 7 und 14 betrachteten Erweiterungen zu entwickeln.
Ist diese Separation des zeitabhängigen Teils der Lösung nicht möglichoder nicht praktikabel, gibt es nach [Oe95] eine Reihe numerischer Methodenum die Lösung zeitschrittweise zu bestimmen, die folgend kurz zusammen-gefasst sind. . Mehrdimensionale Integration der Wellengleichung
Euler-Verfahrens ist, aus der Tangentensteigung den näch-sten Funktionswert zu ermitteln: ∂ Φ ∂t ≈ △ Φ △ t = ⇒ ( Φ t +1 = Φ t + △ tf (Φ t ) explizit,Φ t +1 = Φ t + △ tf (Φ t +1 ) implizit.Bei der impliziten Methode lässt sich Φ t +1 nur durch Lösen eines Gleichungs-systems bestimmen. Dies bedeutet einen erheblichen Mehraufwand. Jedochführt das Verfahren in jedem Fall zu einem stabilen System. Die Genauigkeitdes Euler-Verfahrens kann erhöht werden, indem zwischen den Stützstellendie Ableitung bestimmt wird:Φ t +1 = Φ t + △ t f (Φ t ) + f (Φ t +1 )) . Dieses nach
Crank-Nicolson benannte Verfahren ist ebenfalls implizit, folg-lich numerisch stabil und rechenaufwendig. Der numerische Aufwand derimpliziten Verfahren kann mit der
Prädiktor-Korrektor-Methode gemindertwerden, indem Φ ′ t +1 durch das explizite Euler-Verfahren in einem Prädik-tionsschritt vorausgesagt und danach in einem Korrekturschritt ähnlich demCrank-Nicolson-Verfahren genauer bestimmt wird:Φ t +1 = Φ t + △ t (cid:0) f (Φ t ) + f (Φ ′ t +1 ) (cid:1) . Es zeigt sich jedoch, dass aufgrund der feinen Diskretisierung der Raum-koordinaten für die Integration in Zeitrichtung bereits das einfache Euler-Verfahren hinreichend genau ist. Insbesondere verdeutlichen die am Ende desAbschnitts 5.6 dargestellte Dispersionsrelationen, dass der höhere Aufwandzur Berechnung durch die anderen genannten Verfahren für die Untersu-chungen in dieser Arbeit nicht gerechtfertigt ist.
In diesem Abschnitt werden die Eigenschaften der Finite-Differenzen-Methode im Zeitbereich eingehend betrachtet. Hierfür werden zunächst Dif-ferenzen-Operatoren verschiedener Ordnungen entwickelt und hinsichtlichihrer Stabilität für ein Euler-Verfahren zur zeitlichen Integration analysiert.Abschließend wird für diese Operatoren der Finiten Differenzen-Methodedie Abweichung zur Lösung der partiellen Differentialgleichung untersucht.Für eine kompakte Darstellung des Weges wird dabei ein kubisches Diskreti-sierungsgitter zugrunde gelegt, bei dem aufgrund der hohen Symmetrie nurwenige Fälle betrachtet werden müssen.Um den Laplaceoperator ∆Φ = ∂ Φ ∂x + ∂ Φ ∂y + ∂ Φ ∂y der Wellengleichung zuapproximieren, führt man eine Taylorentwicklung der Funktion Φ aus. Im . Mehrdimensionale Integration der Wellengleichung h ) ≈ Φ + h x ∂ Φ ∂x + h y ∂ Φ ∂y + h z ∂ Φ ∂z + 12 h x ∂ Φ ∂x + h y ∂ Φ ∂y + h z ∂ Φ ∂z ! + h x h y ∂ Φ ∂x∂y + h y h z ∂ Φ ∂y∂z + h x h z ∂ Φ ∂x∂z + 16 h x ∂ Φ ∂x + h y ∂ Φ ∂y + h z ∂ Φ ∂z ! + h x h y h z ∂ Φ ∂x∂y∂z + 12 h x h y ∂ Φ ∂x ∂y + h y h z ∂ Φ ∂y ∂z + h x h z ∂ Φ ∂x∂z ! + 12 h x h y ∂ Φ ∂x∂y + h y h z ∂ Φ ∂y∂z + h x h z ∂ Φ ∂x ∂z ! + 124 h x ∂ Φ ∂x + h y ∂ Φ ∂y + h z ∂ Φ ∂z ! + 16 h x h y ∂ Φ ∂x ∂y + h y h z ∂ Φ ∂y ∂z + h x h z ∂ Φ ∂x∂z ! + 16 h x h y ∂ Φ ∂x∂y + h y h z ∂ Φ ∂y∂z + h x h z ∂ Φ ∂x ∂z ! + 14 h x h y ∂ Φ ∂x ∂y + h y h z ∂ Φ ∂y ∂z + h x h z ∂ Φ ∂x ∂z ! + 12 h x h y h z ∂ Φ ∂x ∂y∂z + h x h y h z ∂ Φ ∂x∂y ∂z + h x h y h z ∂ Φ ∂x∂y∂z ! . Man wählt ein Gitter mit der Weite h = 1, und bestimmt die benachbartenWerte, indem ihre Koordinaten in die Taylorreihe eingesetzt werden. Dabeiist es zweckmäßig, symmetrisch angeordnete Punkte zusammenzufassen. . Mehrdimensionale Integration der Wellengleichung r rr rr rrr rrrr rrr r rrr rr rr rrr r rr rr r (cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0) (cid:0)(cid:0)(cid:0) (cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0) (cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0)(cid:0) Bild 5.3:
Gitterausschnitt
Betrachtet man den in Bild 5.3 abgebildeten Gitterausschnitt, mit demzentralen Punkt (quadratisch markiert)Φ
Zentrum = Φ , so ergibt sich für die EckpunkteΦ Ecke = 13 D Φ + 2 D Φ + 4 D Φ + 8Φ , für die KantenpunkteΦ Kante = 13 D Φ + D Φ + 4 D Φ + 12Φ , für die FlächenpunkteΦ F l ¨ ache = 112 D Φ + D Φ + 6Φ , und für die entfernteren flächenzentrierten PunkteΦ F l ¨ ache = 43 D Φ + 4 D Φ + 6Φ . Dabei haben die Differentialoperatoren die Form: D i = ∂ i ∂x i + ∂ i ∂y i + ∂ i ∂z i ,D ii = ∂ i ∂y i ∂z i + ∂ i ∂x i ∂z i + ∂ i ∂x i ∂y i . . Mehrdimensionale Integration der Wellengleichung D hat, aus Linearkombinationen der Gitterpunkte zu bilden,ist: D ≈ Φ F l ¨ ache − Zentrum . Der verbleibende Fehler D ist vierter Ordnung. Er kann durch Hinzufü-gen von Eck- und Kantenpunkten nicht eliminiert werden, da diese von denFlächen- und Zentrumspunkten linear abhängig sind. Eine bessere Approxi-mation erhält man durch Berücksichtigung der Flächen zweiter Ordnung: D ≈ − Φ F l ¨ ache + 16Φ F l ¨ ache − Zentrum womit Fehler sechster Ordnung bleiben. Es verbleiben somit die zwei im letz-ten Abschnitt gefundenen Operatoren der Differenzen-Methode, dargestelltals Iterationsgleichung:Φ t +1 ,x,y,z = K (Φ t,x +1 ,y,z + Φ t,x,y +1 ,z + Φ t,x,y,z +1 +Φ t,x − ,y,z + Φ t,x,y − ,z + Φ t,x,y,z − ) − Φ t − ,x,y,z − (6 K − t,x,y,z , der 9-Punkt Operator, undΦ t +2 ,x,y,z = K (Φ t,x +2 ,y,z + Φ t,x,y +2 ,z + Φ t,x,y,z +2 +Φ t,x − ,y,z + Φ t,x,y − ,z + Φ t,x,y,z − ) − K (Φ t,x +1 ,y,z + Φ t,x,y +1 ,z + Φ t,x,y,z +1 +Φ t,x − ,y,z + Φ t,x,y − ,z + Φ t,x,y,z − )+16(Φ t − ,x,y,z + Φ t +1 ,x,y,z ) − Φ t − ,x,y,z + (90 K − t,x,y,z , der 17-Punkt Operator. Letzterer benötigt den doppelten Rechenaufwandund hat, da die Zeitebenen t + 2 und t − c innerhalb von ∆ t erreicht werden kann. Eine kompaktere Darstellung findetsich in [LiSB98] mit dem Kriterium: c ∆ th r a a ,
27. Die Operatoren lassen sich mit K = noch weiter vereinfachen, da dann die Koef-fizienten 6 K − K −
30 gleich null sind, der Term Φ t,x,y,z entfällt. Die Berechnungkann dann im Fall des 9-Punkt-Operators zeitlich alternierend auf jeden zweiten Gitter-punkt beschränkt werden, also beispielsweise für ( t + x + y + z ) mod 2 = 0. . Mehrdimensionale Integration der Wellengleichung a die Summe aller Koeffizientenbeträge der Differenzenapproximati-on in Zeitrichtung und a in Raumrichtung ist. Diese sind für den 9-Punkt-Operator 4 bzw. 12 K und somit folgt unter Berücksichtigung der Normie-rung c = h = ∆ t = 1: K . Das gleiche Ergebnis erzielt man mit dem 17-Punkt-Operator aufgrund von a = 64 und a = 192 K .Die Qualität der erhaltenen Lösungen misst man anhand von Disper-sion, Isotropie und Skalierungsunabhängigkeit. Da die erhaltenen Differen-zengleichungen wie die partiellen Differentialgleichungen linear sind, genügtes, hierfür die Dispersionsrelation ϕ ( k ) zu betrachten. Die Anisotropie kannhierbei durch den Vergleich verschieden gerichteter Wellenvektoren ermitteltwerden. Sinnvollerweise wählt man dazu die Extremalwerte, die Wellenaus-breitung entlang einer Gitterachse und die Wellenausbreitung entlang einerRaumdiagonale.Zunächst wird die Wellenausbreitung entlang einer Gitterachse betrach-tet. Hier führt der Ansatz einer ebenen Welle mit der Wellenzahl k = 2 πλ − ,Φ = sin( ϕ A t + kx ) , in den 9-Punkt Operator ( ϕ a ) und in den 17-Punkt Operator ( ϕ A ) einge-setzt, zu: cos ϕ a = 1 + K [cos( k ) − ϕ A = 4 − q K [cos ( k ) − πk ) + 7] . Eine in Richtung einer Raumdiagonalen fortschreitenden ebenen Welle,die durch den Ansatz Φ = sin (cid:18) ϕ R t + k x + y + z √ (cid:19) beschrieben wird, ergibt in die Operatoren eingesetztcos ϕ r = 1 + 3 K (cid:20) cos (cid:18) √ k (cid:19) − (cid:21) und cos ϕ R = 4 − s K (cid:20) cos (cid:18) √ k (cid:19) − (cid:18) √ k (cid:19) + 7 (cid:21) . Es ergibt sich ein interessanter Spezialfall, falls K = gewählt wird. Diebeiden Gleichungen vereinfachen sich dann zu ϕ r = ϕ R = k √ , . Mehrdimensionale Integration der Wellengleichung π π π π ππ √ πkϕ r ; ϕ R ϕ A ϕ a Bild 5.4:
Dispersionsrelation des 9- und 17-Punkt Operators mit K = einer proportionalen Beziehung zwischen Wellenzahl und Phasengeschwin-digkeit. Es tritt keine Dispersion auf.Man erkennt in Bild 5.4 im Bereich niedriger Frequenzen, k < π sowohlfür den 17-Punkt Operator, ϕ R und ϕ A , als auch für den 9-Punkt Ope-rator, ϕ r und ϕ a einen proportionalen Verlauf der Dispersionsrelation: dieauftretende Dispersion ist gering. Eine Anisotropie, in dem Diagramm als„Aufspaltung“ der Funktionenschar zu sehen, tritt ebenfalls erst bei höherenFrequenzen auf.Für den hörbaren Frequenzbereich k < π ergibt sich, dass die numerischhervorgerufenen Fehler sehr gering sind. Insbesondere zeigt sich, dass der 9-Punkt Operator hinreichend genau ist. Der Mehraufwand für den 17-PunktOperator ist nicht gerechtfertigt.Ein weiterer wichtiger Punkt ist die Vermeidung von Aliasing-Artefakten.Diese können durch die unterschiedlichen räumlichen Auflösungen hervor-gerufen werden. Eine Möglichkeit besteht in der Bandbreitenbeschränkungder Anregung auf Wellenzahl kleiner π , eine andere in der Bandbreitenbe-schränkung der Ergebnisse auf Wellenzahlen kleiner (2 −√ π ; beide werdengenutzt. . Mehrdimensionale Integration der Wellengleichung Während im letzten Abschnitt die Differentialgleichung im allgemeinenbetrachtet wurde, sind für eine konkrete Problemstellung die Randbedin-gungen wichtig, unter denen sie zu lösen ist.Diese Randbedingungen bilden den Ausgangspunkt der Beschreibung desVokaltrakts und werden im Laufe der Arbeit weiter an Erfordernisse desSprechtrakts bzw. dessen Datensätze angepasst.Bei einem schallweichen Abschluss, der in guter Näherung die Schall-abstrahlung von der Querschnittsfläche des Mundes oder der Nasenlöcherbeschreibt, ist der Schalldruck gleich Null, vgl. Abschnitt 4.5. Dieser Ab-schluss kann mit ϕ = 0 durch Dirichlet-Randbedingung realisiert werden,die einen Funktionswert ϕ auf dem Rand R festlegen:Φ R = ϕ R . Um diese Randbedingung im Kontext der Differenzenmethode zu formulie-ren, wird für den Differenzen-Operator exemplarisch ein Rand in positiverx-Richtung betrachtet, in der Mitte zwischen der beliebigen Position x undder und eins verschobenen Position x +1. Eine zweidimensionale Darstellunggenügt: In Bild 5.5 soll das rechte Teilgebiet dem Rand zugehören und andem ausgezeichneten Punkt die Randbedingung erfüllen. Durch eine Linea-risierung des Funktionsverlauf von dem zentralen Punkt des Operators Φ x über den Rand hinaus zu der nächsten Operatorstützstelle Φ x +1 erhält man:Φ x + Φ x +1 ϕ ⇐⇒ Φ x +1 = 2 ϕ − Φ x . Mit ϕ = 0 wird zur Festlegung eines schallweichen Randes die rechte Be-ziehung, Φ x +1 = − Φ x , in die 9-Punkt-Operatorgleichung aus Abschnitt 5.6eingesetzt.Senkrecht zu den schallharten Wänden des Vokaltrakts findet kein Schall-fluss statt und die Ableitung des Schalldrucks ist in diese Richtung an denWänden folglich gleich null. Dies wird durch Neumann-Randbedingung be-schrieben, die am Rand den Wert γ der Ableitung entlang der Normale n R des Randes festlegen: ∂ Φ R ∂ n R = γ R . Der Funktionsverlauf wird wiederum linearisiert und die Ableitung senk-recht zum Rand durch eine Differenz approximiert. Ein Vergleich mit Bild 5.5zeigt, dass sich der Rand im Zentrum der Differenzenapproximation befin-det. Folglich erhält man ohne weitere Schritte die Beziehung:Φ x − Φ x +1 = γ ⇐⇒ Φ x +1 = − γ + Φ x , die zur Modellierung einer schallharten Fläche mit γ = 0 in den 9-Punkt-Operator eingesetzt wird. . Mehrdimensionale Integration der Wellengleichung ❞❞ ❞❞ ❞ ✛ ✈ Φ x,y Φ x − ,y Φ x,y − Φ x +1 ,y Φ x,y +1 Bild 5.5:
Zweidimensionales Schema des Finite-Differenzen-Operators im Rand-bereich. Dicke Linien verdeutlichen die Struktur des Operators, dünne Linien dieRänder der Diskretisierung eines Ausschnitts des zugrunde liegenden Datensatzes.Kreise heben die zentrale Lage der Bezugsgröße des Operators in der Diskretisie-rung des Datensatzes hervor. Der jenseits des Randes liegende Bereich ist graudargestellt; der ausgefüllt hervorgehobene Kreis zeigt die Lage des Randwertes ϕ R und der Pfeil die Flächennormale n R des Randes. Anhand von Korrelationsanalysen, wie sie beispielsweise Bild 3.5 zu-grunde liegen, erkennt man, dass an der Glottisposition nur eine kleine Ein-schnürung des Vokaltrakts auftritt. Der dahinterliegende glottisseitige Ab-schluss des Vokaltrakts wird deshalb meistens reflexionsfrei modelliert, dadie Schallwellen auch im weiteren subglottalen Bereich wenige Rückreflexio-nen erfahren. Ein reflexionsfreier Abschluss ist auch hilfreich zur separatenakustischen Analyse von Teilbereichen, wie dem Nasaltrakt: Hierfür wird dieÖffnungsfläche des Velums mit diesen nicht reflektierenden Randbedingungversehen. [Sc99] schlägt zur Beschreibung eines reflexionsfreien Abschlussesdie Beziehung Φ x +1 ,t = Φ x,t − vor. Diese Beziehung unterdrückt Reflexionen von Schallwellen, indem sienur eine Teilmenge der D’Alambertschen Lösungen der Wellengleichung zu-lässt, nämlich die Wellenausbreitung in positive x -Richtung, Φ x − t . Rückre-flektierte Wellen mit umgekehrter Ausbreitungsrichtung, Φ x + t , sind durchdiese Randbedingung nicht mehr möglich. Diese Beziehung liefert für eineneindimensionale Formulierung der Finiten Differenzen eine exakte Randbe-dingung, ist jedoch aufgrund der Verwendung des D’Alambertschen Inte-gration nicht (oder nur approximativ) auf eine mehrdimensionale Formulie-rung übertragbar. Mit einem allgemeineren Ansatz wird eine für eine drei-dimensionale Formulierung besser geeignete Beschreibung in Abschnitt 14entwickelt. . Tomographische Daten Teil II
Akustik des Nasaltrakts
In diesem Teil der Arbeit wird die Extraktion der Akustik des Nasal-trakts aus seiner räumlichen Gestalt gezeigt. Hierfür werden zunächst ver-schiedene tomographische Verfahren zur Bestimmung der räumlichen Ge-stalt des Nasaltrakts evaluiert. Diese Verfahren liefern eine Abfolge zweidi-mensionaler Schichtbilder, in denen eine Dichte kodiert ist. Es zeigt sich, dassdiese Dichteverteilung eines Verfahrens präzisen Aufschluss über die Gestaltder Hohlräume des Nasaltrakts gibt. Jedoch ist auch bei diesem Verfahren ei-ne räumliche Auflösung bestimmter, wesentlicher Details nicht möglich. Umtrotzdem quantitativ die Akustik berechnen zu können, wird die Formulie-rung der Finiten Differenzen erweitert, so dass die bestimmte mittlere Dich-te der einzelnen Raumbereiche einbezogen wird. Diese Formulierung wird ineinem weiteren Schritt zur Berücksichtigung der im Nasaltrakt stark ausge-prägten Schalldämpfung durch Wechselwirkung mit den Hohlraumwändenergänzt. Mit der erweiterten Formulierung der Finten Differenzen ist einedirekte Übernahme der tomographischen Daten möglich; die Bestimmungder Akustik erfolgt durch Lösung der Wellengleichung in einem optimier-ten Zeitschrittverfahren. Der Simulation wird ein speziell für diese Akustikentwickelte Messung gegenübergestellt.
Die räumliche Gestalt des Nasaltrakts kann mit verschiedenen Verfahrenbestimmt werden. Der Rückgriff auf eine publizierte, bestehenden Untersu-chung — auf diese wird in den folgendem Abschnitt eingegangen — zeigt,dass ein nicht an den Erfordernissen ausgerichtetes Verfahren zu erheblichenUnsicherheiten führen kann. Zu den wichtigsten Erfordernissen zählen– hohe räumliche Auflösung in allen drei Raumrichtungen,– hoher Kontrast zwischen Hohlraum und Gewebe,– geringe Artefakte und– geringe Belastung für die untersuchte Person.Die erste Eigenschaft ist zwingend erforderlich, um wesentliche Details desNasaltrakts zu erfassen. Beispielsweise sind die Nasengänge durch Einbuch-tungen — wie später gezeigt wird — bereichsweise Weiten nur im Millimeter-bereich, in dem gleichen Bereich liegt der Durchmesser der Verbindunggän-ge zu den Nasenhöhlen. Ein hoher Kontrast erleichtert eine algorithmischeAufbereitung der Untersuchung, insbesondere die Verwendung von Schwell-werten zur Klassifikation von Hohlräumen und eine geringe Belastung fürdie untersuchte Person erleichtert die Handhabung des Verfahrens. . Tomographische Daten
Die in [Ra99] verwendeten Datensätze des
Visual Human -Projektes, diein [PeBB98] verfügbar sind, stammen von aus optisch, mittels Scanner abge-tasteten Kryosektionen. In der Ebene des Scanners wird eine Auflösung von0,33 mm erreicht. Die räumliche Auflösung der Kryosektionen ist entlang de-ren Schichtung mit 1 mm deutlich gröber. Durch eine Unterabtastung inder Scanner-Ebene wird eine einheitliche Auflösung von 1 mm in alle Raum-richtung hergestellt. Jedoch führt der Kryo-Prozess mit der nachfolgendenPräparation, zu einer Reihe von Artefakten: die Nasengänge treten beispiels-weise nicht hervor, Hohlräume sind teils mit einer blauen Substanz gefüllt,teilweise schwarz. Deshalb erfolgt die Separation von Gewebe und Hohlräu-men anhand der Bilddaten halbautomatische gefolgt von einer Berichtigungdurch einen Facharzt für HNO-Medizin anhand seiner Erfahrungen, vgl.S. 133. Bild 6.1 illustriert diesen Prozess.
Bild 6.1:
Übergang von Kryosektionen, links, zum Volumendatensatz, rechts:Durch eine Unterabtastung werden die Daten auf ein kubisches Gitter der Kan-tenlänge 1 mm gebracht, wie an der gröberen Randstruktur zu erkennen ist. Dieweiß dargestellten Hohlräume sind halbautomatisch klassifiziert.
28. Ein zweiter Datensatz des Visual-Human-Projects hat eine gleiche feine Auflösungin allen drei Raumrichtungen. Aber auch bei diesem sind erhebliche, präparationsbedingteArtefakte vorhanden. . Tomographische Daten Die Magnetresonanz- oder Kernspintomographie ist ein Verfahren, indem Atomkerne, hier Wasserstoffkerne räumlich aufgelöst in ihrer Konzen-tration dargestellt werden. Die Wasserstoffkerne werden hierfür in einemstarken äußeren Magnetfeld mittels einer elektromagnetischen Welle in einerzu der Magnetfeldstärke passenden Frequenz ausgerichtet und die durch ihreRelaxation entstehenden Radiowellen erfasst. Mittels eines dem Magnetfeldüberlagerten Gradienten wird das Verfahren ortsauflösend; die Tomogra-phien entstehen durch wiederholte Messung bei verschobenen Gradienten,vgl. bspw. [BrS10]. Während das die Hohlräume umgebende Gewebe zu ei-nem Großteil aus Wasser besteht und ein entsprechend starkes Signal liefert,emittiert die Luft in den Hohlräume praktisch keine Signal.Da das Verfahren ungefährlich, aufgrund des langen regungslosen Verhar-rens in einer engen Röhre aber wenig angenehm ist, hat der Autor sich dieserUntersuchung selbst unterzogen. Die Untersuchung an einem MRT-Systemdes Universitätsklinikums Frankfurt mit 1,5 Tesla Feldstärke dauert etwazwei Stunden. Die Aufnahmen geben jedoch die Strukturen des Nasaltraktsnur ungenügend wieder, wie in Bild 6.2 gezeigt, was eine Auswertung nichtmehr sinnvoll erscheinen lässt. Jedoch sind mittlerweile Geräte mit höhe-rer Feldstärke in Deutschland im Forschungseinsatz, wie bspw. [MPI07] und[Jü09] zeigen, die genauere Untersuchungen ermöglichen. Mit zunehmender
Bild 6.2:
MRT-Sagitalschnitt, nahe der Medianebene: Die Abgrenzungen der Sieb-beinzellen, Bildmitte halbrechts, die aus dünnen Knochen und Schleimhäuten ge-bildet wird, wird nicht deutlich. . Tomographische Daten
Eine Computertomographie zeichnet die Röntgenabsorption ortsaufge-löst auf, Bild 6.3 zeigt ein Beispiel. Die Messungen der Röntgenabsorptionerfolgen entlang verschiedener Geraden, was die räumliche Zuordnung derAbsorption an den Schnittpunkten der Geraden ermöglicht. Die zugrunde-liegende Berechnung, die
Radon-Transformation [Ra17], welche zu den To-mographien führt, und die Untersuchungsergebnisse für einige Gewebetypenwerden ausführlich beispielsweise in [Hs03] und in [Le04] beschrieben. DerAbsorptionsgrad oder — im medizinischen Sprachgebrauch — die Röntgen-dichte wird dabei in der Einheit
Hounsfield angegeben, abgekürzt HE oderauch HU für
Hounsfield Unit . Die Skala wird durch den Wert von Luft auf-1000 HE und Wasser auf 0 HE definiert.Durch den Einsatz ionisierender Strahlung ist die Methode nicht unge-fährlich, ihr Risiko wird in [ICRP00] diskutiert: Die Strahlenbelastung fürdie untersuchte Person ist prinzipbedingt um ein Vielfaches höher als beieiner Röntgenaufnahme. In Absprache mit dem Universitätsklinikum Frank-furt wurden deshalb die Daten zusammen mit einer medizinisch indiziertenUntersuchung und mit dem Einverständnis des Patienten erfasst. In diesemBild ist der hohe Kontrast zwischen den Hohlräumen, welche schwarz dar-gestellt sind, und der Schleimhaut, grau, zu sehen; ebenfalls zu erkennensind die scharfen Ränder zwischen diesen Gebieten. Von diesen Daten wur-de zunächst ein Volumendatensatz mit einer Auflösung von 0,5 mm in allenRaumrichtungen abgeleitet, bei dem Werte der Röntgenabsorption größer0 HE dem Gewebe zugeordnet wurden, während kleinere Werte als Hohl-raum klassifiziert wurden. Die sich so ergebende Oberfläche wurde zur visu-ellen Kontrolle dreidimensional dargestellt, Bild 6.4 zeigt eine Ansicht. Einerepräsentative Auswahl der zugrundeliegenden Computertomographien istim Anhang, Abschnitt ?? , abgebildet. . Partielle Volumen Trotz des verbesserten Datensatzes können bestimmte, wichtige Struk-turen mit dem beschriebenen Verfahren nicht quantitativ erfasst werden.Dazu gehören insbesondere die bereits erwähnten Querschnitte der Verbin-dungsgänge zwischen den Nasengängen und den Nasennebenhöhlen sowiein einigen Bereichen die Querschnitte der Nasengänge selbst. Die Verbin-dungsgänge haben einen Durchmesser von rund einem Millimeter, somitin der Größenordnung der Diskretisierung. Würde man eine Klassifizierunganhand eines Schwellwertes durchführen, sollten sich die resultierenden Dis-kretisierungsfehler zwar im Mittel ausgleichen und beispielsweise die ausdem Volumen der Verbindungsgänge bestimmten Helmholtzresonanzen (imZusammenwirken mit den Nasennebenhöhlenvolumen) nicht verändern. Eskann jedoch zu diskretisierungsbedingten Eigenresonanzen in den Gängenkommen. Gravierender sind darüber hinaus aus dem gleichen Grund unzu-
Bild 6.3:
Computertomographie, frontaler Schnitt: Gut zu erkennen sind dieschwarzen Hohlräume der Nasengänge und Nasennebenhöhlen, die sich von demumliegenden dunkelgrauen Gewebe abheben. . Partielle Volumen Bild 6.4:
CT-Daten: Oberflächendarstellung der nasalen Hohlräume. Die Stirnhöh-len sind oben zu erkennen, die Kieferhöhlen rechts und links. Weiß hervorgehobenist ein Schnitt durch die vorderen Nasengänge. treffende Querschnitte in der Ankopplung der Verbindungsgänge, vgl. Ab-schnitt 4.4, da diese die Güte der Resonanz beeinflussen, oder im Extremfallein Verschluss des Ganges durch eine ungünstige Lage im Diskretisierungs-raster.In diesem Abschnitt wird eine Methode entwickelt, die diese Artefaktebeseitigt, indem weitere Informationen aus den CT-Daten genutzt werden.Hierbei wird ausgenutzt, dass die Computertomographie eine mittlere
Dichteeines Volumenelements liefert.Der Nasaltrakt ist mit der Nasenschleimhaut ausgekleidet, die die Grenz- . Partielle Volumen Bild 7.1:
Skalierter Ausschnitt aus den CT-Daten, Bild 6.3, Mitte. Gezeigt ist derNasengang, wobei -1000 HE schwarz und 0 HE weiß dargestellt sind, die Zwischen-werte sind entsprechenden Grautöne zugeordnet. schicht zwischen den Hohlräumen und dem umliegenden Gewebe bildet. DerNasenschleimhaut kann in guter Näherung eine Röntgendichte von 0 HEzugeordnet werden, da sie größtenteils aus Wasser besteht. Betrachtet manein Volumenelement der Computertomographie an einem Ort x , welcher imRandbereich des Hohlraums und der Nasenschleimhaut sitzt, so kann nun fürdieses Volumenelement anhand der gemessenen Röntgendichte µ x bestimmtwerden, zu welchem Teil χ es noch mit Luft erfüllt ist beziehungsweise wieviel von dem Volumen durch die Nasenschleimhaut eingenommen wird. Diesgeschieht über einen linearisierten Ansatz, wobei µ Luft = − µ Wasser = 0 HE ein vollständig gefülltes Volumen abge-bildet werden. Werte darüber und darunter werden der Überlegung entspre-chend begrenzt: χ x = , für µ x ≤ µ Luft µ x − µ Wasser µ Luft − µ Wasser , für µ Luft < µ x < µ Wasser , für µ x ≥ µ Wasser . In Bild 7.1 ist ein Ausschnitt aus dem Bild 6.3 gezeigt, in dem diese Zuord-nung vorgenommen ist.Die je nach Grad der Füllung der Volumen geänderten akustischen Ei-genschaften lassen sich mit Finiten-Differenzen durch die Randbedingungennach Abschnitt 5.7 nicht unmittelbar berücksichtigen. Hierfür müsste dieräumliche Auflösung um die Quantisierung der CT, also um den Faktor1000, erhöht und der genaue Verlauf des Randes in der erhöhten Auflösungrekonstruiert werden. Dieser Umstand wird durch eine Anleihe aus demFormalismus des Rohrmodells vermieden; es werden die mittleren Eigen-schaften eines Volumens in Form der akustischen Impedanz in die Differen-zengleichung übertragen. Der akustischen Impedanz Z ak des Volumens wird . Partielle Volumen x − x x + 1 x + 2 t t t r rt r r Tabelle 7.1:
Vier Zeitschritte des Auftreffens eines normierten Druckimpulses aufeinen Impedanzsprung, verdeutlicht durch eine dünne vertikale Trennlinie zwischen x und x + 1. Der Impedanzsprung ist durch den Reflexionfaktor r charakterisiert. analog zu Abschnitt 4.2 formuliert: Z ak x = 1 χ x Z . Die teilgefüllten Volumen im Randbereich weisen eine erhöhte Impedanzauf; vollständig zur Nasenschleimhaut gehörende Volumen sind schallhart.Dieser in [RaL03a] entwickelte und untersuchte Formalismus wird imFolgenden eingehender betrachtet. Der Impedanzsprung an der Grenzschichtzweier Elemente kann nach Abschnitt 4.3 auch durch den Reflexionsfaktor r = − Z akx − Z akx +1 Z akx + Z akx +1 = χ x − χ x +1 χ x + χ x +1 beschrieben werden, konkretisiert für zwei nebeneinanderliegende Volumenmit x = x und mit x = x + 1. In Tabelle 7.1 ist die Ausbreitung einesauf einen Impedanzsprung auftreffenden Druckimpulses notiert. Ein Ver-gleich der Zeitschritte t und t mit den Koeffizienten eines eindimensionalenDifferenzen-Operators p t − ,x − p t,x + p t +1 ,x = p t,x − + αp t,x + βp t,x +1 ergibt α = − r , β = 1 − r . Aufgrund ihrer Ableitung aus dem Rohrmodell ist diese Erweiterung derFiniten Differenzen für transmittierte Wellen, wie sie in den bereits genann-ten rohrartigen Verbindungskanälen zwischen Nasengang und Nasenneben-höhlen auftreten, physikalisch zutreffend. Hier korrespondiert χ direkt mitder Querschnittsflächeninhalt des Verbindungsrohrs, wie es sich auch in derÄquivalenzbetrachtung in Abschnitt 13 zeigt. Die Reflexion einer Schallwellean einem schallharten Rand, der willkürlich zwischen das Diskretisierungs-raster gelegt ist, wird ebenfalls zutreffend beschrieben: Untersucht werdenfür eine senkrecht auf den Rand auftreffende Welle zwei Fälle, χ a = 0 , χ b = 0 ,
5, wobei die jeweils daneben liegenden Volumen links mit Luft, . Partielle Volumen χ = 1, und rechts vollständig mit Wasser, χ = 0, gefüllt sind. Die gewonne-ne Beschreibung des Randbereichs H H wird mit der exakten Lösungen derWellengleichung des Randbereichs H A verglichen: H Ha/b ( z ) = 1 + r a/b zr a/b + z mit r a = 2 / r b = 1 / ,H Aa ( z ) = z − / , H Ab ( z ) = z − / . Eine geometrische Interpretation zeigt Bild 7.2. Gleichung H H ergibt sichaus einer Betrachtung ebener Wellen nach den Abschnitten 4.1-4.3 mit H H = b /a = t /t , mit der zugrundeliegenden Betriebskettenmatrix T ,gebildet durch eine Abfolge von Impedanzsprung mit r a/b , einfacher Laufzeitund Impedanzsprung r = 1 für den schallharten Abschluss. Alle Übertra-gungsfunktionen sind Allpässe mit Einheitsverstärkung und stimmen folglichim Betragsgang überein. Die Übertragungsfunktionen sind im Z -Bereich de-finiert, dessen zugrundeliegende Zeitdiskretisierung gleich der Schallaufzeitfür das Durchqueren zweier Volumenelemente ist. In Abbildung 7.3 werdendie Gruppenlaufzeiten von H H und die reinen Laufzeiten H A verglichen.Es zeigt sich, dass die jeweiligen Abweichungen durch die hier vorgestellteBeschreibung des Randbereichs für den Frequenzbereich unter 50 kHz ge-ring und in dem für die Sprachakustik relevanten Frequenzbereich bis 8 kHzvernachlässigbar ist.Der dreidimensionale Differenzen-Operator wird auf dem gleichen Wegerstellt. Die Indizes bei r charakterisieren die Lage des Impedanzsprungs,wobei die tiefgestellten Indizes das Bezugselement spezifizieren und die hoch- Bild 7.2:
Verlauf der Schallwellen an einem Volumenelement mit gemittelter aku-stischer Impedanz, oben, und an einem scharfen Rand, unten. Die Zeitachse istvertikal aufgetragen. . Dämpfung p t +1 ,x,y,z − p t,x,y,z + p t − ,x,y,z = K h ( − r x +1 ,y,zx,y,z + r x − ,y,zx,y,z + r x,y +1 ,zx,y,z + r x,y − ,zx,y,z + r x,y,z +1 x,y,z − + r x,y,z − x,y,z ) p t,x,y,z + (1 − r x +1 ,y,zx,y,z ) p t,x +1 ,y,z + (1 − r x − ,y,zx,y,z ) p t,x − ,y,z + (1 − r x,y +1 ,zx,y,z ) p t,x,y +1 ,z + (1 − r x,y − ,zx,y,z ) p t,x,y − ,z + (1 − r x,y,z +1 x,y,z ) p t,x,y,z +1 + (1 − r x,y,z − x,y,z ) p t,x,y,z − i . Er stellt eine Erweiterung der in Abschnitt 5.6 diskutierten Finiten Dif-ferenzen dar. Insbesondere bleiben durch die Erweiterung die dort gezeig-ten Stabilitätsüberlegungen unberührt und sind weiterhin gültig, da sowohlSchallgeschwindigkeit als auch rechts- und linksseitige Koeffizientensummeunverändert bleibt.
Die Dämpfung der Schallausbreitung im Sprechtrakt erfolgt zu einemGroßteil durch den Schallaustritt am Mund und an den Nasenlöchern. Die-ser wird durch eine Reflexion der Wellen mit einem endlichen Verhältnisder akustischen Impedanzen zwischen dem Querschnitt der Schallaustritt-öffnung und dem sich daran anschließendem Halbraum Rechnung getragen.In der einfachsten Form erfolgt das durch einen abschließenden Reflexions-koeffizienten, dessen Betrag entsprechend kleiner 1 ist.Der Sprechtrakt und insbesondere der Nasaltrakt weist zudem eine in-nere Dämpfungen auf, welche die Resonanzeigenschaften beeinflussen. Diesetreten überwiegend an den Wänden auf und werden in den folgenden Ab- H Aa H Ab H Hb H Ha πωτ g Bild 7.3:
Vergleich der Gruppenlaufzeiten τ g zweier idealisierter Übertragungs-funktionen H A mit durch Filter approximierter Übertragungsfunktionen H H inAbhängigkeit der Kreisfrequenz ω . Bei der hier verwendeten Diskretisierung von0,5 mm entspricht π einer Frequenz von 340 kHz bei einer Schallgeschwindigkeitvon 340 m/s; der Bereich der Gruppenlaufzeit ist einem Schallweg von 1 mm äqui-valent. . Dämpfung Für die Dämpfung der Schallausbreitung sind eine Reihe von Ursachenbekannt, vgl. [Ra1896, MoI68, LeSW09]. Für kleine Lautstärken, wie sie imSprechtrakt auftreten, sind dies:– Wärmediffusion– Wärmekapazität der Wände– Viskose Reibung.Der erste Effekt beruht auf der thermischen Diffusion der in den Schall-wellen inhärenten Temperaturunterschiede, der Abweichung von der adia-batischen Beziehung zwischen Druck und Temperatur. Er wird bspw. in[MoI68] diskutiert und trägt wenig zur Dämpfung akustischer Systeme derhier betrachteten Größen und Frequenzen bei: Sie ermitteln bei 1000 Hz ei-ne Dämpfung von 10 dB auf einer Entfernung von 10 km. Auch wenn dieseDämpfung bei mehratomigen Gasen durch die Anregung von Molekülrota-tion und -schwingung stärker ist, wird sie aufgrund ihres letztlich kleinenBeitrags vernachlässigt.Dieser Effekt tritt jedoch bedeutend stärker zutage, wenn die Luft miteinem anderen Medium höherer Wärmekapazität im Kontakt ist, hier denWänden des Nasaltrakts. Verstärkt wird dieser Effekt durch die viskose Rei-bung der Schallschnelle an den ruhenden Wänden , welche ihre Ursacheebenfalls in der Diffusion der Gasmoleküle hat — mit dem Unterschied,dass hier nicht mehr ihre mittlere Bewegungsenergie, sondern der mittlereImpuls betrachtet wird, wie [Ki1868] ausführt.Ausgehend von den Navier-Stokes-Gleichungen und der Wärmeleitungs-gleichung, kann man eine erweiterte Differentialgleichung für die Schallaus-breitung entwickeln, vgl. [Ki1868, MoI68]: ∇ p = κc ∂ ∂t − l v c ∂∂t ∇ ! ( p − ατ )
29. Grundlegene Untersuchungen stammen von Helmholtz, der in [He1863b] den Rei-bungsmechanismus beschreibt, Le Roux, der in [Ro1862, Ro1867] eine abweichende Schall-geschwindigkeit in Röhren beobachtet, Regnault, der in [Re1868] zudem eine Dämpfungerkennt und eine Elastizitätsabnahme der Luft durch Wechselwirkung mit den Rohr-wände vermutet, Kundt, der in [Ku1868] die Abhängigkeit der Schallgeschwindigkeit vonu. a. Durchmesser und Frequenz experimentell untersucht und schließlich Kirchhoff, der in[Ki1868] eine passende mathematische Beschreibung dieser Effekte unter Berücksichtigungder Theorie reibungsbehafteter Strömungen von Stokes [St1845] bzw. der Gastheorie vonMaxwell [Ma1867] zeigt. So findet beispielsweise Kundt a a. O., S. 370, dass die Schallge-schwindigkeit bei einem Rohrdurchmesser von 3,5 mm und einer Wellenlänge von 18 cmum 9 % reduziert ist. . Dämpfung l h c ∇ τ = ∂∂t (cid:18) τ − κ − κα p (cid:19) . Hierbei ist τ die Differenz zur mittleren Temperatur, κ der Adiabatenkoef-fizient, α der Volumenausdehnungskoeffizient, l h und l v sind die mittlerenfreien Weglängen der Gasmoleküle. Man findet hierin eine Reihe von be-kannten Gleichungen zur Schallausbreitung, beispielsweise: ∇ p = κc ∂ ∂t p für reibungsfreie isotherme Schallausbreitung ( l v = 0, τ = 0) mit der um √ κ verringerten Ausbreitungsgeschwindigkeit; für die reibungsfrei adiabatischeSchallausbreitung ( l v = 0 und l h = 0, letzteres führt zu τ = κ − κα p ) dieakustische Wellengleichung aus Abschnitt 5.2: ∇ p = κc ∂ ∂t (cid:18) p − α κ − κα p (cid:19) = 1 c ∂ ∂t p Mit einer isobaren Betrachtung ( p = 0) erhält man schließlich ∇ τ = 1 l v c ∂∂t τ , die Wärmeleitungsgleichung und l v = l h . Die Randbedingungen für die Dif-ferentialgleichung sind näherungsweise u = 0 , τ = 0 , welche die ruhenden Wände und die höheren Wärmekapazität und -leitfähig-keit der Wände erfassen. In [MoI68] ist eine schrittweise Entwicklung derallgemeinen Lösung angegeben.Darüber hinausgehende Dämpfungsursachen, wie die Schalleinkopplungin das das umliegende Gewebe oder aus der turbulenten Reibung der Schal-lausbreitung, bleiben im Folgenden unberücksichtigt. Da der Nasaltrakt einaus Knochen und Knorpeln umgebener Hohlraum ist, was ihm eine ho-he Steifigkeit verleiht, ist der Beitrag ersterer entsprechend gering. Auchder nichtlineare Dämpfungsterm der turbulenten Reibung trägt für geringeSchallpegel wenig bei. Die lineare Differentialgleichung im Abschnitt zuvor führt zu einer Grö-ßenordnung der Konstante des exponentiellen Abfalls unterhalb der Git-terdiskretisierung, wie [MoI68] zeigt. Aus diesem Grund würde die direkte . Dämpfung c ∂ p∂t + R ′ ∂p∂t ! = ∆ p , wobei R ′ die Dämpfung charakterisiert. Entsprechend erweitert sich die inAbschnitt 5.6 gefundenen Differenzengleichung mit R = R ′ g/ c zu(1 + R ) p x,y,z,t +1 − p x,y,z,t + (1 − R ) p x,y,z,t − = ... . Die Dämpfung hat verschiedene Ursachen, deren Beiträge unterschied-lichen Gesetzmäßigkeiten gehorchen: Betrachtet man die Schallausbreitunglängs eines zylindrischen Rohrs, so ist die aus Wärmeleitung und viskoserReibung resultierende Dämpfung proportional zu der Wurzel der Frequenzund umgekehrt proportional zu der Wurzel der Querschnittsfläche. Weite-re Dämpfungen sind frequenzunabhängig und umgekehrt proportional derQuerschnittsfläche oder der Wurzel der Querschnittsfläche. Für den Nasal-trakt ist die Dämpfung im Bereich kleiner Querschnittsflächen maßgeblich.Entsprechend wird der Dämpfungskoeffizient R = 5 · − gewählt, so dassdie Differenzengleichungen in diesem Bereich das reale Verhalten approxi-mieren, wie in Tabelle 8.1 dargestellt. A/ [mm ] Modell Literatur3,00 11,0 12,39,25 7,2 6,634,25 4,2 3,3 Tabelle 8.1:
Dämpfung eines Rohrs mit der Querschnittsfläche A verglichen mitLiteraturwerten aus [MüM03] in [dB/m] bei f = 1 kHz. Die Frequenzabhängigkeit der Dämpfung ist in Bild 8.1 gezeigt. Durcheine zwei- oder mehrfache Berechnung der Übertragungsfunktion des Na-saltrakt mit Dämpfungskoeffizienten, die für die jeweilige Frequenz zutref-fend sind, kann dieser Abhängigkeit Rechnung getragen werden. Die gesamteÜbertragungsfunktion ergibt sich dann durch eine gewichtete Überlagerung . Dämpfung f/ [Hz] D [Np / m]
34 mm Bild 8.1:
Frequenzabhängige Dämpfung D der Schallausbreitung in Rohren unter-schiedlicher Querschnittsfläche, gekennzeichnet durch unterschiedliche Linientypen. Da die Dämpfungskoeffizienten klein sind, kann man die Approximationder Dämpfung auch in den Termen 1 + R und 1 − R durch e γ und durch e − γ darstellen, also ❀ e γ p x,y,z,t +1 − p x,y,z,t + e − γ p x,y,z,t − = ... mit γ = ln(1 + R ) − ln(1 − R )2 ≈ R .
Man gewinnt dadurch eine Separation von Dämpfung und Schallausbrei-tungsgeschwindigkeit, die sonst miteinander verknüpft sind. Die Separationwird ersichtlich, wenn man die Funktion p x,t = e − at sin( ωt − kx )als Lösungsansatz für den auf eine Dimension vereinfachten Fall betrachtet.Man erhält e γ e − a ( t +1) sin( ω ( t +1) − kx ) − e − at sin( ωt − kx ) + e − γ e − a ( t − sin( ω ( t − − kx ) = ... , was durch Dividieren mit e − at und durch a = γ in die aus Abschnitt 5.6bekannte Form übergeht. Eine Abhängigkeit zwischen ω und γ ist nichtentstanden. . Dämpfung Die Dämpfungskoeffizienten werden ähnlich den Volumenkoeffizientendes CT-Datensatzes dem Programm kodiert als Stapel tomographischer Da-teien bereitgestellt. Jede Datei korrespondiert dabei einer Datei der CT-Daten, sowohl in Lage als auch in Auflösung. Aus praktischen Erwägungensollten die Koeffizienten derart kodiert sein, dass die physikalische Beschrei-bung bei einer Translation oder Rotation der Datensätze invariant ist.Anhand der hier gefundenen Beziehungen lässt sich die eingangs gestell-te Forderung nach Invarianz untersuchen. Betrachtet man ein Volumenele-ment mit Dämpfung, umgeben von anderen ohne Dämpfung, so werden dieSchallwellen in diesem um e − at gedämpft. Verschiebt man nun das Gitterder Volumenelemente exemplarisch um eine halbe Gitterlänge, so sollen diebeiden jetzt beteiligten Volumen die gleiche Dämpfung verursachen, jedeeinzelne folglich √ e − at = e − at/ . Es ist sinnvoll, die Dämpfung durch denKoeffizienten a zu repräsentieren und diese bei Translation, Rotation undSkalierung linear zu interpolieren, da dann die physikalischen Eigenschaftennäherungsweise unverändert bleiben. Diese Parameterform hat zudem denVorteil, dass sich sowohl Bereiche geringer Dämpfung, wie die hier diskutier-ten Wände, als auch Bereiche hoher Dämpfung für reflexionsfreie Abschlüssean den Schallaustrittsöffnungen einheitlich in Festkommadarstellung abbil-den lassen. Die bisherigen Betrachtungen zur Dämpfung sind davon ausgegangen,dass der Rand mit dem Gitter zusammenfällt. Zur Berücksichtigung vonpartiellen Volumen nach 7 muss die Betrachtung erweitert werden. Hierbeisteht weniger eine Verbesserung des Dämpfungsmodells im Vordergrund, alsvielmehr das Ziel, beide Modelle gleichzeitig nutzen zu können.Betrachtet man hierzu die Fälle, dass der Rand auf dem Gitter liegt,und dass der Rand ein Volumenelement mittig durchquert. Iim ersten Fallwird die in Abschnitt 8.2 ermittelte Dämpfung zugewiesen. Eine einfacheVerallgemeinerung für den zweiten Fall ist: R x = R ((1 − χ x − ) + (1 − χ x +1 )) , die für die anderen Raumrichtungen durch entsprechende Summanden er-weiter wird. R ist der in dem genannten Abschnitt halbempirisch bestimmteDämpfungskoeffizient. . Implementierung und Optimierung Zur Anwendung der in den Abschnitten zuvor entworfenen Finite-Dif-ferenzen wird in diesem Abschnitt ihre programmtechnische Realisierungbetrachtet. Ziel ist es, ein Werkzeug zu entwickeln, mit dessen Hilfe aufPersonal Computern die erweiterte Wellengleichung für beliebige Randbe-dingungen aus Tomographien gelöst werden kann. Diese Zielsetzung lässtsich in drei Komponenten unterteilen:– die Daten-Schnittstelle,– die Berechnung der Wellendifferentialgleichung,– die graphische Benutzeroberfläche.Zur Realisierung des Programms wurde ein objektorientierter Ansatz un-ter Verwendung der Programmiersprache C++ gewählt. Dies erlaubt zumeinen den Zugriff auf verschiedene Bibliotheken für eine graphische Benutzer-schnittstelle und Datenschnittstelle, zum anderen eine Optimierung undParallelisierung der aufwendigen Berechnung der Wellendifferentialgleichung.Die Komponente zur Berechnung der Wellendifferentialgleichung wirdin Abschnitt 9.3 insbesondere im Hinblick auf die Effizienz der Berechnungbetrachtet, da die zur Berechnung herangezogenen Daten einen erheblichenUmfang haben. Die Daten-Schnittstelle bindet digitale Tomographiedatenein und liefert die zu verarbeitenden Randbedingungen. Das Format derDaten-Schnittstellen wird deshalb in Abschnitt 9.2 entwickelt. Die Anforde-rung an die Daten-Schnittstelle ist dabei eine möglichst hohe Integrierbarkeitmit bestehenden Anwendungen, um die anatomischen Daten letztendlichdem Werkzeug zugänglich zu machen. Die analoge Anforderung ergibt sichfür die gewonnen Ergebnisse, die für eine über die in der Benutzeroberflächeintegrierte Darstellung hinausgehende Analyse exportiert werden müssen.
Die graphische Benutzeroberfläche stellt eine interaktive Verbindung zwi-schen dem Anwender und dem Werkzeug selbst her. Der Anwender kannmit Hilfe der Benutzeroberfläche die Berechnung kontrollieren, indem siederen Ergebnisse in Form eines zeitlichen Schalldruckverlaufs an einem odermehreren ausgewählten Punkten visualisiert. Darüber hinaus bietet die Be-nutzeroberfläche die Möglichkeit, die untersuchte Geometrie wahlweise miteiner Überlagerung Schallausbreitung in Form eines zeitschrittweisen Ver-laufs von verschiedenen Perspektiven zu betrachten. Um die dreidimensio-nale Struktur zu erkunden, wird die Möglichkeit gegeben, diese in Form vonSagittal-, Frontal- oder Transversalschnitten darzustellen, welche senkrechtzu der Schnittebene verschiebbar sind. Da die graphische Benutzeroberflä-che lediglich ein Mittel zum Zweck ist und keine darüber hinausgehendenErgebnisse liefert, wird auf ihre Realisierung nachfolgend nicht eingegangen. . Implementierung und Optimierung Die aus anatomischen Untersuchungen gewonnene geometrische Beschrei-bung oder synthetische Geometrien werden über die Datenschnittstelle demWerkzeug eingangsseitig zugänglich gemacht; ausgangseitig müssen die ge-wonnenen Impulsantworten zur Analyse und Darstellung weiteren Program-men zur Verfügung gestellt werden. Dafür ergibt sich eine Reihe von Anfor-derungen, die und deren Lösung durch ein intermediäres Datenformat imFolgenden betrachtet werden.Das Format der Quelldaten ist abhängig von dem datenliefernden Sy-stem. So verwendet der Computertomograph proprietäre Dateiformate, wäh-rend die Kryoschnitte in einem Format gespeichert sind, das keine Metain-formationen zur Interpretation der Daten enthält und einer Komprimierungnach [We84] unterzogen ist; Kernspinresonanz-Daten liegen im in [DICOM]beschriebenen und ebenso genannten Datenformat vor. Für die Verifizierungder Modelle, der daraus abgeleiteten Algorithmen und ihrer programmtech-nischen Umsetzung sind zudem Tests anhand von synthetischen geometri-schen Strukturen mit bekannten akustischen Eigenschaften nützlich. Die Da-tensätze dieser Teststrukturen sollten möglichst einfach zu generieren seinund müssen in das Programm übernommen werden können.Für alle diese Datenformate hätte zur Integration der zugehörigen Schnitt-stellen in das Werkzeug eine erhebliche Zeit aufgewendet werden müssenund die Anwendung des Werkzeugs bliebe auf eben diese Datenformate be-schränkt. Effizienter und flexibler ist das stattdessen verwendete
Adapter-Pattern nach [GaHJV94]. Diesem Entwurfsmuster folgend bilden verschiede-nen Adapter jeweils die unterschiedlichen Datenformate auf das einheitlicheSchnittstellenformat des Werkzeugs ab. Das hierfür entwickelte Schnittstel-lenformat orientiert sich dabei an dem Prinzip der Tomographien: eine linea-re Abfolge von Bildern in dem weit verbreiteten, zweidimensionalen
Bitmap -Format nach [MiBMP] wird mit einer die Anordnung in er dritten Dimensionbeschreibende, klartext-basierten und parsebaren Metainformationsdatei er-gänzt, wie in Ausschnitt 9.1 gezeigt. Weitere Teile der Metainformationsdateisteuern die Interpretation der zweidimensionalen Bitmap-Dateien.Bestehende Programme bilden die Adapter. Daten der Kryosektionenkönnen mittels Photoshop, erweitert um eine einfache Skriptsteuerung, ge-lesen, skaliert und in das Bitmap-Format übertragen werden, wie bereits inAbschnitt 6.1 angesprochen. Die Daten der Computertomographie wurdenmittels EasyVision konvertiert, Daten aus dem MRT durch
DicomWorks aus [PuDICOM]. Das in [Fr98] beschriebenen Programm
NMRWIN liestproprietäre Datenformate von Computer- oder Kernspintomographen undkonvertiert sie in das Bitmap-Format, vgl. S. 133. Die Bitmap-Dateien sindfür die Schnittstelle auf eine Bit-Anzahl von 24 pro Punkt in der zweidi-mensionalen Bildebene festgelegt, die üblicherweise jeweils dyadisch zu 8 Bit . Implementierung und Optimierung
98 107 12428 79 143219 231 170 255 0255 255 255..\VISMAN\VM0043.BMP..\VISMAN\VM0044.BMP..\VISMAN\VM0045.BMP.....\VISMAN\VM0166.BMP..\VISMAN\VM0167.BMP
Ausschnitt 9.1:
Daten-Schnittstelle, durch die Datei-Endung .bnd gekennzeich-net. Die erste Zeile liefert die Ausdehnung in x -, y - und z -Richtung. In den folgen-den Zeilen werden die Wertetripel bzw. RGB-Darstellung der Bereiche Anregung,Aufzeichnungspunkt, schallweicher und schallabsorbierender Rand festgelegt. Die-sen schließt sich eine Liste von Pfadangaben für Dateien im Bitmap-Format an.Die Reihenfolge der Datei-Angaben entspricht dem Aufbau der dreidimensionalenStruktur. als rote, grüne und blaue Farbkomponente dargestellt werden. Durch eineRequantisierung in den Adaptern werden durch die Tomographien bestimm-ten Volumenparameter χ auf diese 8 Bit, entsprechend einem Wertebereichvon 256 abgebildet, und in allen drei Komponenten abgelegt. Mit die-ser Repräsentation ist eine visuelle Überprüfung und die die Erzeugungvon Teststrukturen mittels vorhandenen, betriebssystemeigenen Bildbear-beitungsprogrammen möglich und das Einlesen der Daten in das Werkzeugwird durch vorhandene Programmbibliotheken vereinfacht. In einem zweitenSchritt werden Bereiche der Schallanregung, schallabsorbierende und gege-benenfalls schallweiche Flächen sowie Aufzeichnungspunkte für das Simula-tionsergebnis durch bestimmte Wertetripel gekennzeichnet. Dies geschiehtwiederum mit den vorhandenen Bildbearbeitungsprogrammen. Durch einegeeignete Wahl der Wertetripel treten darin die besonderen Bereiche miteinem hohen farblichen Kontrast hervor.
30. Für die Analyse der Kryosektionen in [Ra99, RaSL99, RaL00b] werden 8 Bit ver-wendet, da die partiellen Volumen aus den in Abschnitt 6.1 genannten Gründen nichtangewendet werden. Die Kryosektionen werden in vier Bereiche kategorisiert:– Hohlraum,– absorbierende Rand,– Anregungsstelle und– schallharte Bereich, dem alle anderen Werte zugewiesen sind.31. Die Requantisierung verursacht keinen signifikanten Fehler. Die Daten der Compu-tertomographie, deren genutzter Wertebereich sich zwischen -1000 und 0 erstreckt, sindmit geringfügigen Messfehlern behaftet, wie sie auch in Bild 7.1 nach der Requantisierungerkennbar sind. Die Messfehler dominieren offenbar gegenüber der Requantisierung. . Implementierung und Optimierung erfolgt über standardisierte File-Streams, in denen der dezimal-kodiert Wert jedes Zeitschritts zeilenweise abgelegt wird. Diese Folge vonWert kann von anderen Applikationen, wie edit , Matlab und
Gnuplot zurÜberprüfung, weiteren Analyse und Darstellung unmittelbar gelesen wer-den. Der Dateiname wird durch eine Nummer gebildet, die im Falle mehrererAufzeichnungspunkten die Zuordnung erlaubt, und durch die Datei-Endung .out gekennzeichnet.
Die über die Datenschnittstelle eingelesenen Tomographien werden in ei-nem dreidimensionalen Array abgelegt, vgl. Ausschnitt 9.2 des Programm-textes. Anhand der Volumenparameter χ und der durch Wertetripel ausge-zeichneten Bereiche werden die Koeffizienten zur Berechnung der Finiten-Differenzen nach Abschnitt 7 und 8 über die Reflexionsfaktoren festgelegt,Speicheradressen der Aufzeichnungs- und Anregungspunkte bestimmt, so-wie die zu teilweise oder vollständig mit Luft gefüllten Raumpunkte in demquaderförmigen Datensatz ermittelt, auf die die rechenintensive Anwendungdes Finite-Differenzenoperators begrenzt wird. Im Anschluss erfolgt die Ein-prägung eines Einheitsimpulses in den Anregungspunkten. Zur Bestimmungdes Übertragungsverhalten werden meist 2 = 65536 Iterationen durch-geführt, was nach einer Fouriertransformation der Impulsantwort zu einerFrequenzauflösung für das Beispiel im Ausschnitt 9.1 von 8 Hz führt.Einer der wichtigsten und interessantesten Aspekte des Programms istdie Implementierung des Operators zur Berechnung der Wellengleichung,nicht zuletzt deshalb, weil im Vergleich die Ausführungszeiten aller anderenProgrammteile vernachlässigbar sind. Der zu analysierende Datensatz hatin dem genannten Beispiel eine Größe von 98 ∗ ∗ ≈ . .
000 Vo-lumenelementen, deren Speicherbedarf sich von jeweils 8 Byte für ein nichtam Rand liegendes Volumenelement auf andernfalls 44 Byte erstreckt. Füreine kurze Ausführungszeit der Berechnung ist zum einen die Datenmengebzw. die Speicherzugriffe möglichst gering zu halten, um die Ausführungnicht durch Zugriffslatenzzeiten fortwährend zu verlangsamen. Zum ande-
32. Für die Simulationsdaten wird ein Gleitkommaformat einfacher Genauigkeit ver-wendet.33. Die Werte ergeben sich im ersten Fall aus zwei Druckwerten zu je 4 Byte, im zweitenFall kommen die Koeffizienten für alle neun Punkte des Finiten-Differenzen-Operators mitjeweils der gleichen Größe hinzu.34. Moderne Betriebssysteme ermöglichen ein automatisches Auslagern von Daten ausdem Hauptspeicher auf Festplatten, falls dessen Kapazität überschritten wird. Ein erneuterZugriff auf ausgelagerte Daten verursacht jedoch eine erhebliche Wartezeit (typ. 10ms), bisdie Daten wieder bereitgestellt sind. Ebenso verhält sich der Speicher des Prozessors selbst,der sogenannten Cache, in Relation zum Hauptspeicher. Auch hier ist die Auslagerung vonDaten in den Hauptspeicher um rund 2 Größenordnungen langsamer. . Implementierung und Optimierung
In-Place -Verfahren, bei denen die Ergebnisse einer Itera-tion auf dann nicht mehr benötigte Variablen zurückgeschrieben werden.Dies kann — ein weiterer Vorteil expliziter Zeitschrittverfahren — genutztwerden, in dem man die ZeitebenenΦ t , Φ t +2 , Φ t +4 . . . sowie Φ t +1 , Φ t +3 , Φ t +5 . . . jeweils auf die gleiche Stelle im Hauptspeicher abbildet. Desweiteren vermei-det dieses Verfahren die Notwendigkeit, Datensätze zu kopieren beziehungs-weise zu verschieben. Die programmtechnische Umsetzung erfolgt durch ei-ne Erweiterung des Array um eine vierte Dimension, die die Zeitrichtung inForm der beiden Zeitebenen umfasst. Die Ausführungszeit des Programms zur Simulation der Wellenausbrei-tung mittels Finiter Differenzen liegt mit grundlegenden Optimierungen,vgl. Ausschnitt 9.2 und eine ausführlichere Analyse eines Aspekts in [Ra99],anfangs bei rund fünfzig Stunden. Wenngleich diese Zeit für bestimmte Be-rechnungen erträglich ist, so ist sie doch störend, wenn man Parameter opti-mieren möchte oder eine größere Menge von Datensätzen untersuchen will.Demgegenüber ermöglichen Fortschritte in der Halbleiterherstellung dieHerstellung von immer schnelleren und eine größere Anzahl von Elementenumfassenden Schaltungen auf einem Chip. Insbesondere bei Prozessoren er-laubt die Integration dieser zusätzlichen Elemente durch eine Erweiterungder Architektur einen Geschwindigkeitszuwachs weit über die Steigerungder Taktrate hinaus. Im Folgenden werden die Ergebnisse zweier Methodenbetrachtet, Fortschritte in Rechnerarchitekturen vorteilhaft zu nutzen, umdamit eine Reduzierung der Rechenzeit zu erzielen.
Während der ursprünglich eingesetzte Prozessor vom Typ
Pentium be-reits über eine – bezogen auf seine Taktfrequenz – leistungsfähige Rechen-einheit für Gleitkommazahlen besitzt, verfügen neuere Prozessoren vom Typ
Pentium III und nachfolgende zudem über ein vielfaches größeren integrier-ten Zwischenspeicher, der häufig benutzte Daten auf dem Chip vorrätig . Implementierung und Optimierung for( x = 1; x < Xmax - 1; x++) for( x = 1; x < Xmax - 1; x++)for( y = 1; y < Ymax - 1; y++) { for( y = 1; y < Ymax - 1; y++)float *uL = u[1-t][x][y]; for( z = 1; z < Zmax - 1; z++)float *ul = u[t][x][y]; switch( B.Typ( x, y, z ) ) {float *ulx = u[t][x-1][y];float *ulX = u[t][x+1][y]; case Bound::Inner:float *uly = u[t][x][y-1];float *ulY = u[t][x][y+1]; u[1-t][x][y][z] = kFlaeche * (u[t][x-1][y][z]for( zp = zi[x][y]; z = *zp; zp++) + u[t][x+1][y][z]uL[z] = kFlaeche * ( + u[t][x][y-1][z]ulx[z] + ulX[z] + u[t][x][y+1][z]+ uly[z] + ulY[z] + u[t][x][y][z-1]+ ul[z-1] + ul[z+1] ) + u[t][x][y][z+1] )+ kZentrum * ul[z] + kZentrum * u[t][x][y][z]- uL[z]; - u[1-t][x][y][z];for( zp = zr[x][y]; z = *zp; zp++) ...uL[z]=...; }...} Ausschnitt 9.2:
Implementierungen zweier Kerne der zeitlichen Iterationen zurBerechnung der Finiten Differenzen in C++. Der optimierte Kern ist links darge-stellt, rechts ist zum Vergleich der nur bezüglich des effizienten Zugriffs auf denLevel-1-Cache entworfenen Kern gezeigt. Der Zeitparameter t alterniert von Zeit-schritt zu Zeitschritt zwischen 0 und 1.Der Schalldruck ist in dem vierdimensionalen Feld u in Gleitkomma-Darstellunghinterlegt, das sich aus einer Zeit- und drei Raumdimensionen ergibt. Der Zu-griff erfolgt durch den Dereferenzierungsoperator [] . In beiden Implementierungenführt die innerste for -Schleife in der Raumdimension z die letzte Dereferenzierungdurch und greift somit auf dicht beieinander liegende Daten zu, die deshalb über-wiegend in dem latenzarmen Level-1-Cache vorrätig sind. Der links gezeigte Kernnimmt zudem die mehrfache Dereferenzierung aus der innersten Schleife heraus,wodurch die verbleibenden Operationen zum Zugriff auf das Datenfeld parallel zuden Gleitkomma-Berechnungen der Finiten-Differenzen durchgeführt werden undletztere nicht mehr wesentlich verlangsamen.Die switch..case -Fallunterscheidung, die optimierte Ausführungspfade für die ge-zeigten inneren, aufwendigeren randnahen und sonstigen Finite-Differenzen bereit-stellt, kann zur Vermeidung von Branch-Prediction -Fehlern ebenfalls aus der inne-ren Schleife herausgenommen werden. Durch Indexfelder zi für innere und zr fürRandelemente wird sie in die Initialisierungsphase des Programms verschoben, wo-durch die Befehls-Abarbeitungskette ( Pipeline ) des Prozessors im Kern ungestörtist und die Ausführungsgeschwindigkeit des Programms nochmals deutlich erhöhtwird. hält und schnell verfügbar macht. Dieser als Level-2-Cache bezeichnete Zwi-schenspeicher erlaubt eine sinnvolle und preiswerte Verwendung mehrererProzessoren. Hierbei greifen die Prozessoren auf einen gemeinsamen Haupt- . Implementierung und Optimierung
Symmetric Multi Processing , abge-kürzt
SMP .Für die mehrere Megabyte umfassenden Datensätze der Finiten Differen-zen muss diese Architektur durch eine geeignete Partitionierung der Datenunterstützt werden, damit sie ihren Vorteil voll entfalten kann: Die Datenmüssen so angeordnet und aufgerufen werden, dass sie möglichst häufig demCache entnommen werden, sonst würde die begrenzte Datenübertragungs-rate zum Hauptspeicher den Geschwindigkeitsgewinn vereiteln. Hierfür wirdin [RaL00a] eine räumliche und zeitliche Unterteilung der Berechnungen inQuader untersucht, vgl. Bild 9.1. Dabei wird ausgenutzt, dass sich der Fol-gewert des berechneten Schallfeldes an einem Raumpunkt aus diesem selbstund nur den benachbarten Werten bestimmen lässt: Wenn man in einem ku-bischen oder quaderförmigen Volumen sämtliche Werte zu einem Zeitpunktkennt, kann man daraus für den folgenden Zeitpunkt alle Werte bis auf dieRänder bestimmen; die Ausdehnung der Volumen verringert sich in jedeRaumrichtung also jeweils um 2. Sobald in einer Raumrichtung keine Rand-werte mehr für eine Berechnung vorliegen, sind die Berechnungen für diesesquaderförmige Volumen abgeschlossen. Die nächsten Quader können durcheine passende Wahl der Reihenfolge auf die vorausberechneten Werte der ab-geschlossenen Quader zugreifen und so aufgebaut werden und so fort. Wirddie Größe der Quader und Kuben nun so gewählt, dass sie jeweils komplettim Cache untergebracht werden können, und so sich die Hauptspeicherzu-griffe auf den Auf- und Abbau reduzieren. Die Anzahl der Speicherzugriffereduziert sich auf O (1 / √ n ), wie in [RaL00a] ausgeführt, wobei n die Anzahlder Raumpunkte der Teilvolumen bei maximaler Ausdehnung ist.Dieses Prinzip der Unterteilung nutzt die Caches und die Prozessoreneffizient und ist wohl auch als Datenstruktur für weitere Optimierungen wiein Abschnitt 9.6 geeignet. Für die hier betrachten Geometrien lässt das Ver-fahren zudem weiter vereinfachen, da die Daten mehrere tomographischeSchichten vollständig in dem Level-2-Cache untergebracht werden können.Bei diesen ist der Rand in Schichtebene durch Randbedingungen abgeschlos-sen, so dass das Prinzip lediglicht senkrecht zu den Schichten angewendetwerden braucht.Die Struktur der Datenzugriffe des Programms sind auch auf modernen,asymmetrischen NUMA -Architekturen, ein Akronym von
Non Unified Me-mory Access , vorteilhaft. Bei diesen Rechnerarchitekturen ist zusätzlich dieSchnittstelle zum Hauptspeicher auf dem Prozessorchip integriert, so dasssich die Datenübertragungsrate zum Hauptspeicher mit jedem Prozessorchiperhöht. Die Kommunikation zu anderen Prozessoren und daran angebundeneSpeicher erfolgt über dedizierte Schnittstellen. So nutzt die Software jetztein System mit acht
Opteron
Prozessoren, jeweils mit einer Taktrate von . Implementierung und Optimierung
21 3 475 6 8
Bild 9.1:
Schema der Datenunterteilung in Kuben, hervorgehoben, und Quaderin aufeinanderfolgenden Zeitschritten der Simulation. In den Abschnitten 1-7 istdie Abbauphase eines Kubus hellgrau hervorgehoben, dunkelgrau die nachfolgendberechnete Aufbauphase gefolgt von dem anscließenden Abbau in Abschnitt 8. DieZentren der Kuben sind ortsfest. zwei Gigahertz jeweils zwei Gleitkommaoperationen durchführen können.Die gesamte Berechnung von Impulsantworten des Vokaltrakts dauert mitden Optimierungen typisch nur wenige Minuten.
Ein weiterer Weg, die Rechenleistung zu steigern, liegt in der Verwen-dung eines Vektorrechners bzw. nach [Fl72] einer
Single Instruction Multi-ple Data -Architektur. Diese Architektur war lange die einzige Möglichkeitzu einer hohen Rechenleistung für Gleitkommazahlen [Cr76]. In integriertenProzessoren wird sie seit dem Pentium III ebenfalls unterstützt, jedoch ineiner reduzierten Form auf Vektoren der Länge vier. Diese ist zudem aufeine sehr stringente Platzierung der Daten angewiesen. Eine Untersuchungin [RaL00a] zeigte eine Geschwindigkeitssteigerung um den Faktor zwei fürdie Verwendung dieser Erweiterung.Eine deutlich höhere Steigerung ermöglicht der Einsatz moderner Gra-fikprozessoren. Zur Unterstützung von dreidimensionalen Darstellungen be-sitzen diese eine Vielzahl parallel arbeitender Gleitkommaeinheiten. Diesewerden ebenfalls über eine SIMD-Architektur programmiert und leisten übereine Billion Gleitkommaoperationen pro Sekunde. Der an diese Prozessorenangebundene Speicher besitzt eine hohe Bandbreite und hinreichende Grö-ße für diese Applikation [Ma08b, LiNOM08], so dass sie sich hiermit weiterbeschleunigen lässt.
0. Validierung
10 Validierung
Eine Validierung der Rechnungen hat hier mehrere Ziele. Ein Ziel ist dasAufdecken trivialer Fehler, bspw. in der programmtechnischen Umsetzung.Ein weiteres Ziel ist die physikalische Überprüfung, hier insbesondere die zu-treffende Modellierung der Randbedingungen. Letztlich kann die Validierungauch Fehlerquellen aufzeigen und lässt eine Beurteilung der Aussagekraftder Simulationen zu. Zur Validierung wurde ein geschlossenes akustischesSystem gewählt, in das definiert Schall eingekoppelt wird und in dem aneiner bestimmten Stelle der Schalldruckverlauf erfasst wird. Die folgendenUnterabschnitte geben einen Überblick über die verwendeten Methoden undResultate.
Die Umwandlung von Schall in elektrische Signale kann durch elektrody-namische oder elektrostatische Mikrofone erfolgen. Elektrostatische Mikro-fone zeichnen sich durch eine einfachere Bauform aus und sind daraus resul-tierend mit höherer Präzision zu fertigen. Solche Mikrofone wurden auch fürdie hier vorgenommenen Messungen verwendet, da sie kleinere Abmessun-gen besitzen, wodurch sie sich besser an den hier untersuchten Geometrienanordnen lassen. Der Hersteller
Bruel & Kjær hat zudem in [BK95] ihreakustische Rückwirkung untersucht, wodurch sich die Randbedingungen imBereich der Mikrofone definieren lassen.An eine zur Anregung von akustischen Systemen verwendete Schallquellewerden bei einer quantitativen Messung besondere Anforderungen gestellt.Meist werden elektroakustische Wandler eingesetzt, da diese sehr weit ent-wickelt sind und diesen Anforderungen sehr nahe kommen: Zunächst mussdas Übertragungsverhalten von elektrischen Signalen zu akustischen Signa-len bekannt sein, ebenso ihre akustische Rückwirkung. Desweiteren sind ho-he Linearität und hohe Schallpegel vorteilhaft.Übliche Lautsprecher wurden aufgrund ihrer Größe nicht in Erwägunggezogen, da ihr Durchmesser zur Erzeugung niedriger Frequenzen meist über5 cm liegt. Hier lässt sich zwar der Größenunterschied durch einen Adap-ter kompensieren, dessen akustische Eigenschaften sind aber nur schlechtzu bestimmen. Die Verwendung von miniaturisierten elektrodynamischenSchallwandlern aus Kopfhörern, welche in der Ohrmuschel platziert werden,erbrachten keine befriedigenden Resultate.Die Zielsetzung konnte unter inversem Betrieb eines weiteren Mikrofonsals Schallquelle erreicht werden. Hierzu wird die Elektrode mit einer demSignal proportionalen Spannung von typisch über 100 Volt betrieben, welchevon einer Gleichspannung von 200 Volt überlagert wird. Bauartbedingt gibtdiese Schallquelle jedoch insbesondere bei niedrigen Frequenzen nur geringeSchallleistungen ab.
0. Validierung Bild 10.1:
Schallwandler: oben Mikrofon mit angeschraubten Vorverstärker, untenSignalgeber. Beiden sind Konen aufgesetzt, um eine schalldichte Schalleinleitung inden Nasaltrakt zu gewährleisten.
Aufgrund der geringen Schallleistungen der Schallquelle ergeben sichniedrige Schall- und Signalpegel an der Mikrofonkapsel, die das thermischeEigenrauschen des Mikrofonvorverstärkers nicht völlig überdecken. Dieserstörende Effekt wird durch Mitteln über eine wiederholt durchgeführte Mes-sung reduziert. Die Rauschleistung reduziert sich hierbei reziprok zur An-zahl der Messungen, während die Signalleistung konstant bleibt. Der Signal-rauschabstand, definiert durch den Quotienten der Leistungen, wächst folg-lich proportional zu der Anzahl der Messungen. Diese Mittelung reduziertzudem auch Störungen durch andere, nicht korrelierte Quellen und liefert soein im Frequenzbereich von 1 - 10 kHz störarmes Signal.Zur automatisierten Durchführung der Messung, deren Mittelung undAuswertung mittels FFT wird ein Personal Computer genutzt, bei demdie Signalausgabe und -erfassung durch ein handelsübliche Audiointerface,
Emu10k , erfolgt. Für die Mittelung ist eine reproduzierbare Anregung undMessung erforderlich, insbesondere darf kein zufälliger Unterschied, wederin Abtastrate noch Phase, zwischen Ausgabe und Aufzeichnung auftreten.Während die Abtastraten durch das Prinzip der Audiointerfaceschaltungsich von dem gleichen Taktgenerator ableiten und diese Bedingung erfülltist, zeigt sich, dass Phasenunterschiede auftreten. Diese resultieren nicht auseiner ungleichmäßigen Reaktionszeit des Betriebssystems
Linux , sondern auseinem nicht an diese Anwendung angepassten Treiber. Die im Betriebssy-stem enthaltenen Treiber bewirken einen kleinen, aber variablen Zeitversatzzwischen Start der Aufnahme und Wiedergabe. Der Zeitversatz lässt sichdurch eine Modifikation des Treibers beheben, wie in [RaL01] gezeigt, beidem die Startzeitpunkte unter Rückgriff auf die Zeitbasis des Aduiointerfa-ces synchronisiert werden. Alternativ wird das ausgegebene Signal auf einenEingang der Soundkarte zurückgeführt, so dass das aufgezeichnete Zweika-nalsignal Anregungssignal und Systemantwort enthält.
0. Validierung Um die Ergebnisse der Simulation mit denen einer Messung vergleichenzu können, wird zur Untersuchung eine Hohlraumgeometrie gewählt, derenEigenschaften auch analytisch bestimmbar sind. Am einfachsten lässt sichdies durch einen zylinderförmigen Hohlraum, gebildet durch ein Messing-rohr, realisieren. Volumen und Länge werden so gewählt, dass sie dem Na-saltrakt entsprechen. In das Messingrohr werden Schallgeber und Mikrofoneingeschoben.Als Anregungssignale wurden frequenzmodulierte sinusförmige Signaleverwendet, bei denen die Frequenz exponentiell mit der Zeit erhöht wur-de, wodurch das Signal bei den problematischeren tiefen Frequenzen mehrEnergie enthält. Von der Soundkarte ausgehend wurden die Signale mittelseines Verstärkers
G.R.A.S. 14AA auf die in Abschnitt 10.1 genannten Pegelverstärkt. Das Signal des Verstärkers wird mittels des in Bild 10.1 gezeig-ten Adapters
G.R.A.S. RA0067 an der 1/2-Zoll Mikrofonkapsel
Bruel&KjærBK4134 angelegt. Die zweite Mikrofonkapsel des gleichen Typs diente zu-sammen mit dem Vorverstärker
BK5678 und dem Pegelverstärker
BK2610 zur Schallerfassung; deren Signale werden in den Line-Eingang des Audioin-terfaces zurückgeführt.Für die Simulation wird der Querschnitt des Rohrs in einem Bildbear-beitungsprogramm gezeichnet und diese Daten in die Simulationsumgebunghineingeladen. Die Anregung erfolgt mit einem Dirac-Impuls. In Bild 10.2sind die Ergebnisse von Simulation und Messung gezeigt, wobei der Betrags- [dB] f/ [kHz]01020304050 1 2 3 4 5 6 7 8 Bild 10.2:
Vergleich des Betragsganges einer Messung, oben, mit dem Betrags-gang einer Simulation, unten, der Schallausbreitung in einem Rohr mit einer demNasaltrakt ähnlichen Proportion. Die übereinstimmenden Resonanzfrequenzen wer-den deutlich. Durch den Verzicht auf Kompensation verbleiben in der Messung diezu niedrigen Frequenzen hin abfallende Schallleistung der unterhalb ihrer Eigen-resonanzfrequenz betriebenen elektrostatischen Schallquelle und deren zu höherenFrequenzen zunehmende Dämpfung.
0. Validierung
1. Analyse und Visualisierung Teil III
SPEAK
Wie bereits eingangs aufgezeigt, ist im Bereich der Mundhöhle der Auf-bau des Vokaltrakts zwar anatomisch komplexer; er besitzt jedoch eine ein-fachere Geometrie. Daher sollten die Untersuchungsmethoden durch finiteApproximationen der dreidimensionalen Schallwellenausbreitung auch fürdiesen Bereich geeignet sein. Da sich die Geometrie des Vokaltrakts beimSprechen schnell ändert, sind jedoch die vorgenannten tomographischen Ver-fahren wenig geeignet, um die Geometrie zu erfassen.Eine gute Alternative besteht darin, die räumliche Konfiguration desSprechtraktes aus den akustischen Eigenschaften des Sprachsignals zu schät-zen. Dabei werden Verfahren wie in Abschnitt 4.7 und 11.4 beschrieben ein-gesetzt, die treffende Querschnittsverläufe ergeben, wie zahlreiche Untersu-chungen beispielsweise in [MaG72, La05, Sc09] belegen. Bis dato ist eine Rei-he von Algorithmen entwickelt und implementiert worden, um Signale mitdieser Zielsetzung zu analysieren. Diese Programme verfügen jedoch über je-weils eigene Schnittstellen, sind in unterschiedlichen Programmiersprachenund für unterschiedliche Betriebssysteme verfasst, und unterscheiden sichzudem in ihrem Bedienkonzept. Um die daraus resultierenden Umständezu vermeiden, wurden wichtige Verfahren in dem Programm „SPEAK“,ein Akronym von Sprechakustik, verbessert und zusammengefasst. Durchdie einheitliche und vereinfachte Bedienung sowie die Möglichkeit, an vie-len Stellen interaktiv einzugreifen, eignet sich dieses Programm auch in derDidaktik der Akustik und Phonetik. Die folgenden beiden Abschnitte zei-gen die Möglichkeiten dieses Programms auf und geben Beispiele für derenAnwendung.
11 Analyse und Visualisierung
Im Folgenden wird ein Überblick über die wichtigsten Analysefunktio-nen und die korrespondieren Visualisierungsmöglichkeiten gegeben. Hervor-zuheben ist hierbei, dass diese Analysefunktionen – soweit sinnvoll – sowohlanalytisch anhand der Polynome der Übertragungsfunktionen als auch nu-merisch auf äquidistant zeitdiskretisierten Folgen arbeiten. Auch eine Kom-bination ist möglich, wie in dem folgenden Abschnitt 11.4 gezeigt. Für dienumerische Untersuchung sind die Signalquellen– weißes Rauschen,– periodische Pulse mit wählbarer Frequenz,– ein parametrierbares, typisches Glottissignal,
35. Einige Facetten dieser Anwendung werden anhand des Vorgängers
TubeDesigner in [RaL03c] betrachtet.
1. Analyse und Visualisierung
80– wahlweise periodische und abtastratenkonvertierte gespeicherte Folge,– mit einem Mikrofon erfasster Schallvorgesehen.
Im Zeitbereich kann der Signalverlauf und für Filter die Impulsantwortangezeigt werden; im Frequenzbereich werden neben des häufig benötigtenBetragsgang und der Gruppenlaufzeit auch modellbasierte Analysen verwen-det.Durch eine Fast-Fourier-Transformation mit vorhergehender Fensterge-wichtung können Sprachsignale im Frequenzbereich analysiert werden; zurVerfügung stehen Rechteck-, Dreieck-, Hamming-Fenster. Mit diesen Fen-sterfunktionen wird dabei zum einen der betrachtete zeitliche Abschnittdes Sprachsignals festgelegt. Zum anderen mildern die beiden letztgenann-ten Fensterfunktionen Auswirkungen der Abweichung zwischen wirklichenSprachsignalen, vgl. Abschnitt 2.6, und der der Fourier-Transformation zu-grunde liegende hypothetische Periodizität der Signale, wie es sich durchAnwenden der verschiedenen Fenster in SPEAK unmittelbar zeigt. Ebensoist die Analyse von Filterstrukturen möglich, hierbei kann zudem als Anre-gungssignal ein unkorreliertes Rauschen verwendet werden und die Darstel-lung des durch das Filter hervorgerufenen Betragsgang durch eine Mittelungin der Varianz vermindert werden, wie in Abschnitt 10.2 ausgeführt.Für Sprachsignale sind im Besonderen die in SPEAK integrierten mo-dellbasierten Analyseverfahren geeignet. Bei diesem wird durch die in denAbschnitten 3.3 und 4.7 behandelten Maximum-Likelihood- oder Maximum-Entropy-Analyse ein Pol-Modell des zugrundeliegenden Prozesses parame-trisiert. Die Lage der Pole wir durch eine Nullstellenbestimmung des rezi-proken System nach [Mu56] iterativ ermittelt und dargestellt. Wie in Bild11.3 zu erkennen ist, zeigt die Poldarstellung ein deutlich klareres Bild alsdie überlagerte Projektion der Pole auf den Einheitskreis, dem Betragsgangim Frequenzbereich. In Abschnitt 17 ist die zugrundeliegende mathemati-sche Beschreibung skizziert und in Abschnitt 11.3 wird auf die in SPEAKhierauf aufbauenden Möglichkeiten eingegangen.
Filter endlicher Impulsantwort oder kurz FIR-Filter werden üblicher-weise in der Form y k = P m b m x k − m durch b m parametrisiert, wobei m entsprechend auf einen endlichen Bereich beschränkt ist; x k ist hierbei dieEingangsfolge und y k die gefilterte Ausgangsfolge. Das besondere Merkmaldieser Filterform ist, dass jeder Koeffizient einem Wert der Impulsantwortentspricht, wodurch es möglich ist, direkt eine endliche Impulsantwort vor-zugeben.
1. Analyse und Visualisierung
Bild 11.1:
FIR-Filter in SPEAK. In der linken Fensterhälfte ist die Zeitbereichs-, inder rechten Hälfte die Frequenzbereichsdarstellung angeordnet; jeweils oben Real-und unten Imaginäranteil. In der interaktiven Darstellung kann jeder der vier Qua-dranten kann mit dem Maus-Zeiger manipuliert werden, wobei sich die Auswirkungin den anderen Quadranten unverzögert zeigt. Eine Beschränkung auf reelwertigeFilter, wie sie in diesem Bild gezeigt ist, ist mittels Tastenfeld ( R ) möglich. Z -Ebene Die Darstellung des Übertragungsverhaltens in der Z -Ebene ist, wie be-reits angedeutet, eine über die Darstellung im Frequenzbereich hinausgehen-de Ansicht. Hier ist es möglich, die charakteristischen Eigenwerte des Filterszu zeigen, aus welchen Frequenzgang, Phasengang und Gruppenlaufzeit re-sultieren. Die Eigenwerte werden hierfür aus den Nullstellen des Nenner- undZählerpolynoms des Filters mittels des bereits genannten Muller-Verfahrensin [Mu56] bestimmt sofern diese nicht bereits in einer Produktform vorliegen,
1. Analyse und Visualisierung Z -Ebene und dem Betragsgang auf der Frequenzachseaufzuzeigen, kann die dreidimensionale Darstellung der Betragsfunktion aufder Z -Ebene genutzt werden, wie in Bild 11.2 gezeigt.Umgekehrt ist es möglich, Filter durch Positionierung von Polen undNullstellen in der Z -Ebene zu definieren. Die Position wird mit der Mausfestgelegt oder verändert, wobei die Darstellungen im Zeit- oder Frequenzbe-reich praktisch unverzögert folgen. Für die interne Repräsentation der Filterwird eine verkette Form elementarer Filter erster Ordnung für reelwertigeExtremstellen und Filter 2. Ordnung für konjugiert komplexe Extremstel-len verwendet. Die ergänzend Erzeugung einer dreidimensionale Ansicht derBetragsfunktion in der Z -Ebene ist dadurch besonders einfach möglich. Bild 11.2:
Dreidimensionale Darstellung der Betragsfunktion eines Filters mit zweijeweils konjugiert komplexen Polen und Nullstellen, links, und einer reellen Null-stelle, rechts, auf der Z -Ebene. Der Einheitskreis ist als transparenter Zylinderdargestellt, so dass der Schnitt der Betragsfunktion mit dem Einheitskreis, der Be-tragsgang, deutlich wird. Die Analyse von Rohrmodellen des Sprechtraktes kann anhand von ma-nuell vorgegebenen Querschnittsverläufen erfolgen, wie in Bild 11.3 darge-stellt. Hierbei kann mit der Maus der Querschnitt jedes einzelnen Segmentesverändert und die Auswirkung auf bspw. Impulsantwort, Frequenzgang undPosition der Pole betrachtet werden. Ebenso leicht ist es möglich, den Quer-schnittsverlauf in einem Bereich abzuändern, indem man diesen mit derMaus vorgibt. Anhand des Querschnittsverlaufs kann wie in Abschnitt 4.2das Übertragungsverhalten des Rohrsystems analytisch bestimmt werden.
1. Analyse und Visualisierung Bild 11.3:
Darstellung eines Rohrquerschnittverlaufs ähnlich des Vokaltraktes, beidem links die Glottis sitzt und rechts die Mundabstrahlung durch einen ausgepräg-ten Querschnittssprung realisiert ist. Darunter die Impulsantwort des entsprechen-den Kreuzgliedkettenfilters, rechts daneben Gruppenlaufzeit, darüber Frequenzgangund Darstellung der Pole in der Übertragungsfunktion auf der Z -Ebene. Die so erhaltene Funktion kann zudem in ihre Eigenwerte zerlegt werden,welche Pole in der Z -Ebene bilden. Man erkennt auf diese Weise, wie sich diePole und damit das Resonanzverhalten in Abhängigkeit dieser Bewegungen— teilweise überraschend — verschieben, aufteilen oder zusammenfallen.Man kann bspw. ersehen, welche Schwierigkeiten die frühen Formantensyn-thesizer (vgl. Abs. 3.2) gehabt haben müssen, dies nachzubilden.Alternativ besteht die Möglichkeit, den Vokaltraktverlauf anhand vongesprochener Sprache zu ermitteln. Das kann unmittelbar durch ein an denRechner angeschlossenes Mikrofon erfolgen, oder über digital aufgezeichneteSprachproben. In beiden Fällen lassen sich Preemphasen schätzen oder vor-geben, um die spektrale Färbung durch das Abstrahlverhalten des Mundesund durch die Anregung aus der Glottis zu berücksichtigen. Anhand des be-reinigten Signals können mittels des Burg-Algorithmus oder eines neueren,hierfür entwickelten Verfahrens die Reflexionskoeffizienten des Rohrmodells
1. Analyse und Visualisierung
2. Besonderheiten der Implementierung
12 Besonderheiten der Implementierung
Im Folgendem werden einige Aspekte der Implementierung betrachtet,die sich als nützlich für die umfangreichen Funktionen des Programms her-ausgestellt haben. Diese Aspekte betreffen verschiedene Ebenen, angefan-gen bei der Systemtopologie, die den grundlegeneden Datenfluss und daraufeinwirkende Verknüpfungselemente umfasst, bis hin zur Auswahl einer Pro-grammiersprache, die die Implementierung praktikabel macht.
Wie in dem vorangegangenen Abschnitt gezeigt, können mit SPEAKeine Vielzahl von Untersuchungen durchgeführt werden. Um dies nicht aufeinzelne Systeme zu beschränken, hat SPEAK sechs Elemente, die über zweiKlassen von Verbindungen miteinander kombiniert werden können:– Signalquellen– Analysewerkzeuge — Signalsenken– Lautsprechersymbol — Signalsenken– Filter– Rohre — Kreuzgliedkettenfilter– Knotenpunkt — MehrtoradaptorenWährend Filter und die meisten Signalquellen und -senken über einen gerich-teten Signalfluss miteinander verbindbar sind, erfordern Rohrsysteme undMehrtoradaptoren Verbindungen, die hin- und rücklaufende Größen bein-halten, wie in Abschnitt 4.2 ausgeführt. Damit diesen Wellengrößen einephysikalische Bedeutung zugemessen werden kann, enthält die bidirektiona-le Verbindung zudem Informationen über den Querschnitt des zugehörigenRohrsegmentes, aus denen an Mehrtoradaptoren Reflektionen und Trans-missionen berechnet werden.An jeden Ausgang eines Elements können zudem ein oder mehrere Signal-senken oder Filter angeschlossen werden. Erstere, insbesondere die Analyse-werkzeuge, erlauben die Betrachtung einer oder mehrerer Signaleigenschaf-ten über ein komplexeres System hinweg. Mit letzteren besteht beispielwei-se die Möglichkeit, komplexere Abschlussbedingungen an einem Rohr oderRohrsystem nachzubilden, wenn der Ausgang des Filters wieder zu demRohrsystem zurückgeführt wird. Ein anderes Beispiel ist ein Preemphasefil-ter zwischen Signalquelle und Rohrbeginn oder Rohrende und Signalsenke,um realistische Signalverhältnisse zu erzielen.
Eine der für die Sprechakustik wichtigsten Funktionen ist die Signalsyn-these und Wiedergabe, die dieses Programm fortwährend und mit vernach-
2. Besonderheiten der Implementierung Bild 12.1:
Darstellung eines Rohrquerschnittverlaufs ähnlich des Vokaltraktes, beidem links die Glottis sitzt und rechts die Mundabstrahlung durch einen ausgepräg-ten Querschnittssprung realisiert ist. Darunter die Impulsantwort des entsprechen-den Kreuzgliedkettenfilters, rechts daneben Gruppenlaufzeit, darüber Frequenzgangund Darstellung der Pole in der Übertragungsfunktion auf der z -Ebene. lässigbarer Verzögerung realisieren kann. Damit kann nicht nur ein visuellesFeedback über die genannte mehr oder weniger abstrakte Darstellung ge-geben werden, sondern es wird auch eine direkt auditiv wahrnehmbare Re-präsentation gegeben. Das gehörte Synthesesignal beinhaltet eine Vielzahlvon Informationen, die von dem menschlichen Gehirn auf unterschiedlichenEbenen ausgewertet werden. Gerade der letztlich nur subjektiv möglicheVergleich mit einer Vielzahl von gehörten Sprachäußerungen erlaubt so eineBeurteilung der Natürlichkeit. Des weiteren werden auch Zusammenhängevon Phänomenen in spektraler oder zeitlicher Darstellung, ihre Wirkung undihre perzeptive Bedeutung nachvollziehbar.
2. Besonderheiten der Implementierung Ein wesentlicher Schritt zu der erfolgreichen und effizienten Realisierungeines Programms ist die Wahl der passenden Werkzeuge. Wie eingangs er-wähnt waren einige der Algorithmen bereits anderweitig implementiert; eingutes Beispiel ist in [Ra99] der
TubeDesigner in C++ . Bei dieser ursprüng-lichen Implementierung erweisen sich insbesondere Datenstrukturen in derunter C++ üblichen
Standard Template Library in der Implementierungzeitaufwendig. Darüber hinaus sind sie, wie der Name bereits andeutet, alsFormvorlage der Sprache hinzugefügt und kein eigentliches Sprachmittel.Dies erschwert das sogenannte
Refactoring , eine semiautomatische Restruk-turierung des Programms, was im Laufe der Entwicklung einer umfangrei-chen Software häufig erforderlich ist. Auch die Programmiersprache C , inder eine Reihe umfangreicherer Projekte realisiert wurden, wird aus diesemGründen nicht in Erwägung gezogen, zudem unterstützt sie eine zeitgemäßeobjektorientierte Programmierung nicht. Andere Sprachen, wie etwa Delphi ,scheiden aufgrund ihrer geringen Verbreitung aus.Die gewählte Programmiersprache
Java besitzt die die genannten Ein-schränkung nicht. Insbesondere im Zusammenspiel mit der Entwicklungsum-gebung
Eclipse zeigt sich, dass es problemlos möglich ist, ein Programm mitetwa 30.000 Zeilen Quelltext zu handhaben. Die Einschränkung von Java,keine Definitionen von Operatoren für komplexe Zahlen zu beinhalten oderfür neue Datentypen zu erlauben, fiel nicht allzu sehr ins Gewicht, da diemathematischen Ausdrücke der Algorithmen nur einen geringen Anteil amQuelltext haben. Ebenso erweist sich die Befürchtung über ein Java inhären-tes Merkmal letztlich als unbegründet, dass die häufige Instanziierung vonDaten- bzw. Objektstrukturen oder der
Garbage-Collector , der deren Spei-cherplatz nach Gebrauch wieder freigibt, das Programm verlangsamt. DasLaufzeitverhalten ist durch passend gewählte und optimierte Algorithmennicht beeinträchtigt.Als besonders leistungsfähig erweisen sich die Grafikfunktionen von Ja-va, welche durch durchgängiges
Double Buffering , aber auch durch passendeSchnittstellen die Implementierung der dynamischen Benutzerschnittstel-len vereinfachten. Ebenso leicht ist die dreidimensionale Darstellung der Z -Ebene möglich. Wichtig für die Struktur des Programms ist zudem das Visitor -Schema[GaHJV94], welches eine Separation nach [Re78] von Visuali-sierung und Berechnung ermöglicht; dies lässt sich mit den
Inner Classes vonJava umsetzen. Letztlich erlaubt die gewählte Klassenstruktur durch Verer-bung eine schnelle und einfache Erweiterung, falls für andere Anwendungenweitere Funktionen benötigt werden.
3. Äquivalenz zwischenFinite-Differenzen und Kreuzgliedkettenfilter Teil IV
Akustik des Vokaltraks
Man kann mit Finite-Differenzen auch die Akustik des Mundhöhle unddes Rachens vorteilhaft simulieren, wie die nachfolgenden Abschnitte zei-gen. Es zeigt sich das Rohrmodel und die Finiten-Differenzen bei kleinenQuerschnittflächen hier perfekt übereinstimmen, während mit zunehmen-den Querschnitt mit den Finiten Differenzen Effekte erfasst werden, diedie laterale Wellenausbreitung beeinflussen und bei einer natürlichen Quer-schnittskontur dann Quermoden hervorrufen. Abschließend werden verein-fachte Modelle gezeigt, die diese Effekte treffend berücksichtigen.
13 Äquivalenz zwischenFinite-Differenzen und Kreuzgliedkettenfilter
Eine Identität von Finite-Differenzen und Kreuzgliedketten-Filter in derBeschreibung der Schallausbreitung lässt sich nur bei einer eindimensiona-len Betrachtung zeigen, da einerseits Kreuzgliedkettenfilter nur die Schall-ausbreitung entlang einer Raumrichtung beschreiben, andererseits Finite-Differenzen zur Beschreibung einer mehrdimensionalen SchallausbreitungDispersion aufweisen würden.Die Identität für den eindimensionalen Fall lässt sich analytisch gewin-nen. Hierfür eignet sich ein übersichtliches, aber nicht triviales akustischesRohr mit drei äquidistanten Querschnittssprüngen, quantifiziert durch dieReflexionsfaktoren r , r , r , vgl. Bild 13.1. Mit der in den Abschnitten 4.1– 4.6 gezeigten Betriebskettenmatrixgleichung kann man die Übertragungs-funktion bestimmten. In Druckdarstellung ergibt sich die Betriebskettenma-trix T zu T = z − z !
11 + r r r ! z − z !
11 + r r r ! z − z ! ·
11 + r r r ! z − z ! = 1(1 + r )(1 + r )(1 + r ) r r + ( r r + r r ) z − + z − r z + ( r + r r r ) + r z − r z + ( r r r + r ) + r z − z + ( r r + r r ) z + r r ! . Die Übertragungsfunktion H ( z ) ist dabei der Kehrwert des Matrixelements t . Erweitert mit z − gewinnt sie die übliche Form: H ( z ) = (1 + r )(1 + r )(1 + r ) z − r r + r r ) z − + r r z − .
3. Äquivalenz zwischenFinite-Differenzen und Kreuzgliedkettenfilter X Yp p p p p p r r r Bild 13.1:
Schema eines Rohrabschnitts mit drei äquidistant aufeinanderfolgendenQuerschnittssprüngen. Oben ist die Lage der Einkopplungsstelle X und Auskopp-lungsstelle Y des Kreuzgliedkettenfilters gekennzeichnet, in der Mitte die Positionender Bezugsgrößen p · · · p der Finite-Differenzen. Die Reflexionsfaktoren r · · · r charakterisieren die Querschnittssprünge. Dieses Rohr lässt sich auch eindimensional mit Finite-Differenzen be-schreiben. Für die unterschiedlichen Querschnitte werden die in Abschnitt 7entwickelten partiellen Volumen verwendet. Es entsteht dadurch eine direk-te Korrespondenz zwischen den verwendeten Reflexionsfaktoren. Die Finite-Differenzen-Gleichung für partielle Volumen, das Resultat aus Abschnitt 7,vereinfacht sich für den eindimensionalen Fall: Die schallharte Begrenzungsenkrecht zur Schallausbreitungsrichtung x wird durch Reflexionfaktorenmit dem Wert 1 berücksichtigt, also r x,y ± ,zx,y,z = 1, r x,y,z ± x,y,z = 1 und somit p t +1 ,x − p t,x + p t − ,x = K [(1 − r x +1 x ) p t,x +1 − (2 − r x +1 x − r x − x ) p t,x + (1 − r x − x ) p t,x − ] . Mit der Stabilitätsanalyse in Abschnitt 5.6 ergibt sich durch a = 4 und a = 4 K der Stabilitätsbereich K
1, womit K = 1 gesetzt werden kann,um Dispersion zu vermeiden. Diese Gleichung lässt sich weiter bezüglich deszentralen Summanden und durch die gekürzte Indizierung r x +1 x = r x undentsprechend r x − x = − r xx − = − r x − vereinfachen, so dass p t +1 ,x + p t − ,x = (1 − r x ) p t,x +1 − ( − r x + r x − ) p t,x + (1 + r x − ) p t,x − verbleibt. Diese bekommt im Z -Bereich die Form: zP x + z − P x = (1 − r x ) P x +1 − ( − r x + r x − ) P x + (1 + r x − ) P x − . Löst man die Gleichung nach P x auf, ergibt sich: P x = (1 − r x ) P x +1 + (1 + r x − ) P x − z + ( − r x + r x − ) + z − . Die reflexionsfreie Schallleitung rechtsseitig und linksseitig lässt sich durchabsorbierende Randbedingungen nach Abschnitt 5.7 erfassen, die rechtseiti-
3. Äquivalenz zwischenFinite-Differenzen und Kreuzgliedkettenfilter p t,x +1 = p t − ,x ,p t,x − = p t − ,x . Diese Randbedingungen haben im Z -Bereich die Form P x = z − P x − ,P x = z − P x +1 . Zur Einkopplung des Anregungssignals X wird zwischen den Elementen P und P ein passend skalierter Druckunterschied eingeprägt, womit sichfür das Rohr aus den gezeigten Beziehungen das Gleichungssystem P = z − ( P − X ) ,P = (1 − r ) P + P + 2 Xz − r + z − ,P = (1 − r ) P + (1 + r ) P z + ( − r + r ) + z − ,P = (1 − r ) P + (1 + r ) P z + ( − r + r ) + z − ,P = P + (1 + r ) P z + r + z − ,P = z − P ergibt. Das zwischen P und P liegende Ausgangssignal Y ( z ) lässt sichentsprechend sich aus dem Mittelwert der beiden Größen bestimmen. Die-ses Gleichungssystem liefert nach sukzessivem Einsetzen und Auflösen nach Y ( z ) /X ( z ) die Übertragungsfunktion des Rohrsystems, H ( z ) = Y ( z ) X ( z ) = (1 + r )(1 + r )(1 + r ) z − r r + r r ) z − + r r z − . Diese ist erwartungsgemäß identisch mit der Beschreibung des Rohrs durchKreuzgliedkettenfilter. Die hier auf kurzem Weg erzielten Ergebnisse deckensich mit den Überlegungen in [Mc87], bei denen hin- und rücklaufende Wel-len separat betrachtet werden.
4. Reflexionsfreier Abschluss
14 Reflexionsfreier Abschluss
Ein reflexionsfreier Abschluss ist in üblichen Modellen der Vokaltrak-takustik als Randbedingung zur Beschreibung des glottalen bzw. subglot-talen Abschlusses notwendig. Der reflexionsfreie Abschluss in der geradedurchgeführten Äquivalenzbetrachtung eignet sich in dortiger Form jedochnur zur Beschreibung von eindimensionalen Strukturen. Im Folgenden wirduntersucht, wie sich dieser Abschluss auf eine dreidimensionale Formulierungder Finite-Differenzen übertragen kann.Ein reflexionsfreies Verhalten lässt sich auf verschiedene Weise appro-ximieren. Es ist sicher naheliegend, sich an der Geometrie der Trachea zuorientieren und den nahezu reflexionsfreien Verlauf durch ein hinreichendausgedehntes Rohr mit geringer Dämpfung wie in Abschnitt 8.2 nachzubil-den. Diese Herangehensweise hat jedoch den Nachteil, dass das Volumen desAbschlusses und damit auch der Rechenaufwand gegenüber dem des Vokal-trakts überwiegen. Vorteilhaft ist die Formulierung einer Randbedingung,die das Verhalten des Abschlusses widerspiegelt. Die zusätzlichen Rechnun-gen bleiben damit auf den deutlich kleineren Randbereich beschränkt.
Der Operator, der diese Randbedingung approximieren soll, muss nähe-rungsweise, d. h. bei niedrigen Frequenzen, folgende Eigenschaften haben:1. Er leitet den Schall mit der Geschwindigkeit c zum Rand hin.2. Er verändert die Schallamplitude nicht.Diese beiden Forderungen ergeben sich aus der ungestörten Schallleitungim Randbereich. Betrachtet man den Finite-Differenzen-Operator direkt ne-ben dem Rand-Operator, so ist es erforderlich, dass auch sein Randelementdie senkrecht auf den Rand auftreffende, durch ihn hindurch propagierendeSchallwelle möglichst ungestört erhält.Der Operator, betrachtet an dem Rand x zum Zeitpunkt t , hat drei Frei-heitsgrade, da einer der Koeffizienten von Φ x +1 ,t , Φ x,t − , Φ x,t und Φ x,t +1 durch Normalisierung entfällt: Der Koeffizient von Φ x +1 ,t wird gleich 1 ge-wählt. Die anderen Koeffizienten erhalten in der genannten Reihenfolge dieBezeichnungen p , o , q . Bild 14.1 illustriert die Struktur des Operators. Die Koeffizienten der allgemeinen Form q Φ x,t +1 = o Φ x,t + p Φ x,t − + Φ x +1 ,t lassen sich anhand einer harmonischen Welle weiter eingrenzen. Wählt manΦ x,t = a x ( ω ) e i ( ωt − kx )
4. Reflexionsfreier Abschluss ❝❝ ❝❝ o Φ x,t p Φ x,t − Φ x +1 ,t q Φ x,t +1 Bild 14.1:
Struktur und Koeffizienten des absorbierenden Rand-Operators, dieZeitachse t ist in Blattlängsrichtung projiziert, die mit x bezeichnete Raumrichtungin Blattquerrichtung. Der von rechts kommende Schall hat durch die Orientierungdes Koordinatensystems eine negative Geschwindigkeit. mit der orts- und frequenzabhängigen Amplitude a und setzt dieses ein,ergibt sich mit der Vereinfachung der Indizierung x = 0 und der Normierung a ( ω ) = 1 qe i ( ωt + ω ) = oe iωt + pe i ( ωt − ω ) + a ( ω ) e i ( ωt − k ) . Eine weitere Vereinfachung ergibt sich durch die beiderseitige Division durch e iωt , so dass qe iω = o + pe − iω + a ( ω ) e − ik verbleibt.Aus der 1. Forderung, konstante Schall- bzw. Transportgeschwindigkeit c bei niedrigen Frequenzen, folgt k = ω/c für ω, k →
0. Setzt man ersteresein und entwickelt die Gleichung nach Taylor um ω = 0, ergibt sich: q + qiω = o + p − piω + a (0) − a (0) iω/c + a ′ (0) . Aus der 2. Forderung, der unveränderten Schallamplitude bei niedrigenFrequenzen, ergibt sich die notwendige Bedingung a ( ω ) = a ( ω ) = 1 und a ′ ( ω ) = 0 für ω = 0 und somit q = o + p + 1 . Die Gleichung zuvor vereinfacht sich durch Einsetzen dieser Abhängig-keiten und einer beidseitigen Division durch iω zu q = − p − /c , die Koeffizienten sind somit bis auf den freien Parameter p bestimmt.
4. Reflexionsfreier Abschluss Der Operator hat nun die Form − ( p + 1 /c )Φ x,t +1 = − (2 p + 1 /c + 1)Φ x,t + p Φ x,t − + Φ x +1 ,t , die durch die folgende Darstellung besser strukturiert wird:0 = 1 /c (Φ x,t +1 − Φ x,t ) + (Φ x +1 ,t − Φ x,t )+ p (Φ x,t +1 − x,t + Φ x,t − ) . Die erste Zeile enthält mit ihren beiden Differenzenoperatoren erster Ord-nung die Diskretisierung der Transport-Differentialgleichung cf ′ + ˙ f = 0.Deren Lösungen f ( x + ct ) erfüllen beide Forderungen. Der Parameter p legtdas zeitliche Zentrum der Differenzen-Approximation des Terms ˙ f fest. Mit p = 0 liegt, wie aus der Gleichung ersichtlich, das Zentrum mittig zwischen t und t + 1, eine rechtseitige Approximation. Mit p = − / c ergibt sich0 = 1 / c (Φ x,t +1 − Φ x,t − ) + (Φ x +1 ,t − Φ x,t ), eine zentrale Approximati-on, und mit p = − /c ⇒ /c (Φ x,t − Φ x,t − ) + (Φ x +1 ,t − Φ x,t ), einelinksseitige Approximation.Betrachtet man den Operator als zeitdiskretes und -invariantes Filter,wobei Φ x +1 den Eingang und Φ x den Ausgang darstellt, ergeben sich die Ei-genschaften des Operators aus der Übertragungsfunktion H des Filters. Wiein Bild 14.2 zu sehen, handelt es sich um ein rekursives Filter 2. Ordnung.Sein Übertragungsverhalten H in der z -Ebene ist H ( z ) = − z − p + 1 /c − (2 p + 1 /c + 1) z − + pz − . Mit p = 0 hat es beispielsweise eine Polstelle bei z = 1 + c und ist somitfür Transportgeschwindigkeiten c im Intervall ] − ,
0[ stabil, da dann diePolstelle im Einheitskreis liegt (Stabilitätskriterium aus Abschnitt 17). z − z − z − ✍✌✎☞ + ❄✛❄ ✲ ✻❄ ✻ rr p +1 /c +1 p +1 /c − pp +1 /c − p +1 /c Y X
Bild 14.2:
Struktur und Koeffizienten der Filteranalogie zum absorbierendenRand-Operator.
4. Reflexionsfreier Abschluss D [dB] ω/π -10-20-30-40-50-60 Bild 14.3:
Logarithmische Darstellung der Reflexionsdämpfung D bei c = 1 / √ p = 0 (linke Kurve) und p = − , ω = 0 ..π/ Die Abweichung von der gewünschten Übertragungsfunktion H T , derLaufzeit τ = − /c , die durch den Zeitschritt und den Transport mit derGeschwindigkeit c entsteht, H T ( z ) = z /c , ergibt sich nun als Betragsquadrat der Differenzen der Übertragungsfunktio-nen und ist für c = −√ K = − / √ p dargestellt. Man erkennt, dass sich der nutzbare Frequenzbereichbei p = − , p = 0 je nach gewünschter Reflexionsunterdrückungverdoppelt oder verdreifacht. Dieser beträgt bei 40 dB etwa 0 , π . Verwendetman eine andere Zielfunktion, wie die dispersionsbehaftete Wellenausbrei-tung aus Abschnitt 5.4, variiert das Ergebnis geringfügig. In Bild 14.4 ist eineSimulation im Zeitbereich gezeigt, die die Dämpfungseigenschaft in einem | Y | dB ω/π Bild 14.4:
Vergleich der logarithmierten Betragsgänge zweier Rohre. Die kamm-artig deutlich sichtbaren Eigenresonanzen bei einem schallharten Abschluss, grau,werden bei einem absorbierenden Abschluss, schwarz dargestellt, fast vollständigunterdrückt. Der Ordinatenbereich umfasst 160 dB; das „Grundrauschen“ lässt sichauf die Quantisierung der verwendeten 24 Bit-Gleitkommamantisse zurückführen.
4. Reflexionsfreier Abschluss Bild 14.5:
Vergleich der logarithmierten Betragsgänge eines Rohrmodells mit dendurch die Reflexionsfaktoren r = − r = 1 / r = − / ω = 0. Die hohe Genauigkeit der Überein-stimmung ergibt sich aus Rohrlänge. Erlaubt man rechtsseitig eine Frequenzab-weichung von 1%, kann die Rohrlänge nach Abschnitt 5.6 auf jeweils 6 reduziertwerden. Die Abszissenskalierung bezieht sich auf die Systemfunktion des Rohrmo-dells H = [1 − z − − z − ] − mit z = e iω . breiten Frequenzbereich bestätigt: Die Betragsgänge zweier einseitig offener( r = −
1) Rohre mit Einheitsquerschnittsfläche und einer exemplarischenLänge von 72 werden für den reflektierenden und den diskutierten absorbie-renden Abschluss auf der Gegenseite verglichen. Als Systemantwort y wirdder Signalverlauf direkt vor dem schallweichen Abschluss aufgezeichnet. Derschallweiche Abschluss bewirkt eine entgegengesetzte Schallwelle, die zu ei-ner Interferenz führt, welche durch eine inverse Filterung in Form einer In-tegration des Zeitsignals kompensiert wird. Die Simulation umfasst 2 Zeit-schritte, die durch eine Fouriertransfomation in den Frequenzbereich über-tragen werden. Mit einem ausgeprägten Kaiser-Fenster nach [Ka74], β = 15,werden dabei Blockgrenzeffekte praktisch gänzlich vermieden. Das Fensterbewirkt jedoch eine schwache Gewichtung der anfänglichen Impulsantwort,weshalb die Übertragungsfunktion des absorbierenden Rohres einen niedri-geren Pegel aufweist.Die gerade betrachtete Struktur stimmt mit der üblichen Rohrkonfigu-ration zur Modellierung des Vokaltrakts überein, die einerseits mit einemschallweichen Abschluss die Schallabstrahlung am Mund beschreibt und an-dererseits mit einem nicht reflektierenden bzw. absorbierenden Abschlussden subglottalen Bereich nachbildet. Das Ergebnis einer nicht minder re-levanten Simulation an dieser Struktur zeigt Bild 14.5: Die Genauigkeit
4. Reflexionsfreier Abschluss Zeitschritten der Simulation schnell abfällt, isteine Fensterfunktion zudem nicht erforderlich.
Wenngleich der gefundene Operator bereits gute Resultate liefert, seiabschließend noch eine weitere Verbesserungsmöglichkeit angesprochen. Beiden sogenannten
Perfectly Matched Layers [Be94, KaTT94] wird in einerSchicht nur eine endliche Dämpfung erzielt und der absorbierende Randdurch eine hinreichend große Anzahl von Schichten angenähert. Eine Schall-reflexion beim Eintritt und innerhalb dieser Schichten wird durch gleicheSchallkennimpedanz vermieden.
5. Anwendung am Beispiel eines Laterallauts
15 Anwendung am Beispiel eines Laterallauts
In diesem Abschnitt werden mit den vorangegangenen ÜberlegungenAkustiken des realitätsnahen Vokaltrakts untersucht. Auch hier wird einVergleich zu einer eindimensionalen Schallausbreitung in einem Rohrmodellgezogen und die zusätzlichen Erkenntnisse betrachtet, die man durch ei-ne dreidimensionale Berechnung der Schallausbreitung gewinnt. Interessantsind hierfür insbesondere Vokaltraktkonfigurationen für Laute, bei denender Vokaltrakt stark von der für Rohrmodelle in Abschnitt 4.1 verwende-ten Hypothese eines runden Querschnitts abweicht und sich im Sprachfre-quenzbereich Quermoden bilden können. Wenngleich das bereits, wie in Ab-schnitt 5.1 gezeigt, bei dem Vokal /a/ auftritt, ist es naheliegend, dass derEffekt aufgrund des höheren Aspektverhältnisses von Weite zu Höhe desVokaltraktquerschnitts bei Approximanten und Laterallauten ausgeprägterist. Um auf bestehende MRT-Aufnahmen zurückgreifen zu können, wird ei-ne Kontur des Laterallauts [l] verwendet, die in [ZhEWT03] publiziert ist.Von der Betrachtung und Nachbildung der für Laterallaute typischen Auf-spaltung der Schallausbreitung um den vorderen Zungenbereich wird dabeiabgesehen, um die hiervon hervorgerufenen Effekte nicht mit denen zuvermischen, die für eine Mehrzahl von Lautklassen erheblich sind.Es zeigt sich, dass die Auswirkung auf das Spektrum von separaten Ef-fekten herrührt, die im Folgenden in zwei Schritten betrachtet werden. Der Übergang von kleinen Querschnittsflächeninhalten zu natürlichenFlächeninhalten wird schrittweise an einer runden Querschnittskontur vor-genommen, vgl. Bild 15.1. Auf diese Weise ergeben sich graduelle Verände-rungen der Übertragungsfunktion, die sich bestimmten akustischen Effektenzuordnen lassen. Bild 15.2 zeigt die Ergebnisse.Für kleine laterale Ausdehnungen ergibt sich eine sehr gute Übereinstim-mung mit der Übertragungsfunktion der Kreuzgliedkettenfilter des Rohrmo-dells. Die immer bessere Übereinstimmung bei abnehmender lateraler Aus-dehnung hat sich bei einer Reihe weiterer Simulationen bestätigt. Diesererwartungsgemäße Befund resultiert aus der für diesen Fall guten Appro-ximation der Schallwellenausbreitung durch das Rohrmodell, das als eindi-mensionaler Wellenleiter für geringe laterale Ausdehnung adäquat ist.Eine deutliche Abweichung tritt mit zunehmender lateraler Ausdehnungauf, insbesondere bei der ausgeprägtesten Resonanz um 2 kHz. Eine wei-tere Untersuchung mit sowohl verdoppelter lateraler Ausdehnung als auch
36. Die Effekte aus der bereichsweisen Aufspaltung der Schallpassage im Vokaltrakt sindu. a. in [ZhEWT03] erörtert. Sie äußern sich in Nullstellen im Schallsignal, wie sie auchin Bild 2.4 als Vertiefung im Frequenzgang zu erkennen sind.
5. Anwendung am Beispiel eines Laterallauts Bild 15.1:
Durch ein Rohrmodell approximierter Querschnittsverlauf des Vokal-trakts (Glottis links, hervorgehoben) während der Artikulation des Lauts [l]. DerQuerschnittsverlauf in
Speak ist anhand des Sprachsignals aus Abschnitt 2.6 un-ter Anwendung einer zweifachen, adaptiven Preemphase und der Burg-Methodeberechnet. Das Rohrmodell hat eine Länge von 19 cm und einen Durchmesservon 3,6 cm bei einer hypothetischen runden Querschnittskontur. Das Verhältnisvon Querschnittsflächeninhalt zu Rohrlänge entstammt den MRT-Aufnahmen aus[ZhEWT03], wobei auch der gesamte Querschnittsverlauf mit diesen Aufnahmengut übereinstimmt. verdoppelter Rohrsegmentlänge weist praktisch keinen Unterschied zu demin Bild 15.2 oben gezeigten Betragsgang, grenzt andere Abhängigkeiten ausund bestätigt den Zusammenhang zwischen Resonanzverschiebung und Aus-dehnungs-Längen-Verhältnis. Diese Resonanzverschiebung lässt sich mit ei-ner Mündungskorrektur nach [Co1860, Mo02, MüM03] erklären, wie sie anImpedanz- bzw. Querschnittsflächensprüngen auftritt, die hier innerhalb desRohres eine Resonanz bewirken. Eine beispielhafte Berechnung verdeutlichtdies: Ausgehend von einer engen, sich rasch erweiternden Querschnittsfläche,wie sie in Bild 15.1 an siebter Stelle von rechts zu finden ist, die einen Durch-messer d von rund 1 cm aufweist und einer effektiven Resonanzrohrlänge l von 3,5 cm für einen λ/ l = d von Cavaillé-Coll abschätzen: der korrigierte Resonator hateine Länge von 5,2 cm und eine Resonanz bei 1,7 kHz. Selbige Abschätzunggilt auch für einen λ/
5. Anwendung am Beispiel eines Laterallauts log | H | [dB] f/ [kHz] Bild 15.2:
Vergleich von Betragsgängen des Vokaltrakts, bestimmt durch Finite-Differenzen und durch ein Rohrmodell-Kreuzgliedkettenfilter. Die obere Kurve zeigtdas Ergebnis der FD-Simulation für zylindrische Rohrsegmente gemäß Bild 15.1,deren (maximale) Querschnittsfläche A m und Länge l mit den MRI-Untersuchungenin Bild ?? übereinstimmt, √ A m /l = 0,17; die Kurven darunter zeigen FD-Simulationen mit verringertem Verhältnis der lateralen Ausdehnung zur Länge, √ A m /l = 0,068 und 0,007. Deutlich tritt die sich mit zunehmenden Querschnitts-verhältnis von 2,4 kHz auf 2,1 kHz verschiebende Resonanz hervor, sowie die bei6,7 kHz hinzukommende Pol-Nullstellenkombination. Zum Vergleich ist der Be-tragsgang des Rohrmodells aus Bild 4.5 gezeigt, der sich merklich nur in der etwashöheren Frequenz der ausgeprägtesten Resonanz bei 2,4 kHz und in Folge davon imniederfrequentere Betragsgang geringfügig unterhalb und im höherfrequenteren ge-ringfügig oberhalb liegenden Kurvenverlauf von der Finite-Differenzen-Simulationmit kleinem Querschnittsverhältnis unterscheidet. Die beim Übergang von einer runden zu einer natürlichen Querschnitts-form auftretende Veränderung des Resonanzschemas ist im Bild 15.3 zu se-hen. Die vom Verlauf des Querschnittsflächeninhalts hervorgerufenen Längs-moden bleiben in weiten Bereichen nahezu unverändert. Die geringen Ver-schiebungen der Resonanzen bei 5,8 kHz und 6,9 kHz zu höheren Frequenzenlässt sich durch eine aufgrund der Querschnittsform abgeschwächte Mün-dungskorrektur erklären, wie in [In53] untersucht.Auffällig sind die starken Abweichungen im Bereich zwischen 3 und 5kHz, die aus der Veränderung der Querschnittsform herrühren. Auch hier-bei handelt es sich augenscheinlich um Pol-Nullstellenkombinationen ausQuermoden, deren niedrige Frequenzen sich aus der großen lateralen Aus-dehnung des Querschnitts ergeben: Geht man schrittweise von der runden
5. Anwendung am Beispiel eines Laterallauts log | H | [dB] f/ [kHz] Bild 15.3:
Vergleich von Betragsgängen der Vokaltraktkonfiguration mit einer run-den Querschnittskontur, grau, und einer aus MRT gewonnenen Querschnittskontur,schwarz. Beide weisen bereichsweise Übereinstimmung auf, so ist der Verlauf bisüber die Resonanz bei 1,3 kHz hinweg praktisch identisch und die Resonanzen bei2,1 kHz, 5,8 kHz und 6,9 kHz sind in Frequenz und Güte nur wenig verändert. ImFrequenzbereich zwischen 3 und 5 kHz zeigen sich hingegen deutlich Unterschiede.
Querschnittsform zu einer zunehmend langgezogenen Ellipse über, bis die-se die durch MRI bestimmte Querschnittsform approximiert, kann man denVerlauf der Resonanzen und Nullstellen verfolgen und die Extrempunkte zu-ordnen. So spaltet sich die Pol- und Nullstellenkombination bei 6,7 kHz inein Paar auf, dass offensichtlich mit einer vertikalen und horizontalen Modekorrespondiert: Mit zunehmender Exzentrizität der Ellipse und entsprechendzunehmender lateraler Breite verringert sich die Resonanzfrequenz der einenKombination bis hinab zu 3 kHz, die andere verschiebt sich zu größerenFrequenzen mit abnehmender Resonatorhöhe. In gleicher Weise gelangt ei-ne ausgeprägte Nullstelle aus einer höherfrequenten Mode des runden Rohrsvon 12 kHz hinunter zu 3,5 kHz. Diese niedrigen Resonanzen haben auch eineAuswirkung auf darunterliegende Längsresonanzen. Sie verursachen durcheine zusätzliche Laufzeit eine effektive Verlängerung des akustischen Wegsund damit eine Reduzierung der Resonanzfrequenz der Längsmoden, wie siebei 2 kHz zu beobachten ist.Diese Effekte treten auch bei Vokalen auf, eine Mehrzahl von ihnen kannauch mittels Finite-Elemente-Modells nachgewiesen werden. So hat bereitsBild ?? die komplexe Modenstruktur gezeigt. Die zugehörige Publikationgeht insbesondere auf die Pol-Nullstellen-Komplexe ein, die in sehr ähnli-cher Form — wenn auch bei etwas höheren Frequenzen — in der dort un-tersuchten Vokalkonfiguration des Sprechtrakts auftreten. Speziell für den
5. Anwendung am Beispiel eines Laterallauts
Bei der Lösung des inversen Problems, aus einem Sprachsignal die erzeu-gende Vokaltraktkonfiguration zu schätzen, sind Modelle mit einer möglichstkleinen Parameteranzahl gewünscht, wie in Abschnitt 4.7 diskutiert. Moti-viert durch die erfolgreiche Verwendung des elliptischen Querschnitts zurKlärung der Resonanzeigenschaften wird abschließend betrachtet, wie gutsich das aus der Querschnittsform resultierende Betragsspektrum durch einvereinfachtes Modell approximieren lässt, dessen longitudinaler Verlauf desQuerschnittsflächeninhalts vorgegeben ist und dessen laterale Querschnitts-kontur nur durch einen Parameter, die Exzentrizität, beschrieben wird. DasErgebnis ist in Bild 15.4 gezeigt. Mit Ausnahme von nur einer Resonanzfre-quenz, die um 5% Prozent verschoben ist, ergibt sich eine sehr gute Über-einstimmung.Insbesondere für iterativ arbeitende Algorithmen für inverse Problemeund die dafür erforderliche vielmalige Bestimmung des Betragsspektrums isteine möglichst einfache, mit geringem Aufwand verbundene Berechnung vor-teilhaft. Es sei deshalb abschließend noch auf eine diese Vorteile realisierendeBeschreibung hingewiesen, die sich aus dem Formalismus der partiellen Vo-lumen ergibt. Die Approximation durch Ellipsen mit deutlicher Exzentritätund die in dem Abschnitt zuvor gefundene Aufspaltung der Resonanzen,von denen offenbar nur die Horizontalmoden in dem hier betrachteten Fre-quenzbereich relevant sind, legt eine zweidimensionale Beschreibung des Vo-kaltrakts mit Finiten Differenzen nahe. Die Fläche liegt dabei senkrecht zurSagittalebene und folgt der Trajektorie des Vokaltrakts, ist also im vorderenMundbereich näherungsweise horizontal. Die senkrechten Luftsäulen überjedem Flächenelement werden als partielle Volumen kodiert, wobei die „Fül-lung“ χ auf eine größte oder größtmögliche Luftsäule bezogen wird. Durchden Verbleib nur einer Schicht, dem für zwei Dimensionen größeren Wert für K sowie den vereinfachten Differenzenoperator ergibt sich eine Laufzeitver-besserung der numerischen Simulation von ein bis zwei Größenordnungen. usammenfassung log | H | [dB] f/ [kHz] Bild 15.4:
Vergleich von Betragsgängen der Vokaltraktkonfiguration mit einerelliptischen Querschnittskontur, schwarz, und einer aus MRT gewonnenen Quer-schnittskontur, grau. Die Verläufe stimmen gut überein. Eine nennenswerte Abwei-chung tritt nur bei der 4,8 kHz-Resonanz auf und beträgt weniger als 5%. Die Pro-portion der Ellipse √ A/b = 0,34 unterscheidet sich leicht von der des MR-Schnittes,0,38.
Zusammenfassung
In dieser Arbeit werden verschiedene Methoden zur Untersuchung derAkustik des Sprechtrakts gezeigt und exemplarisch auf bestimmte Lautegeeigneter Lautklassen angewendet. Dabei wird das bekannte Rohrmodellmit der Finite-Differenzen-Methode im Zeitbereich zu einem eigenen neuenModell für den Sprechtrakt zusammengeführt.Die Entwicklungsgeschichte der akustischen Modelle des Sprechtraktswird in dieser Arbeit eingehend betrachtet; dabei werden wichtige bekannteund auch weniger bekannte, relevante Untersuchungen auf diesem Gebieterörtert. Diese Betrachtung gibt einen Überblick über die akustischen Pro-zesse des Sprechens und zeigt im Besonderen einen ungebrochener Trend,dass jede substantielle Verfeinerung des akustischen Sprechtraktmodells we-sentliche neue Erkenntnisse erbringt. Die essentiellsten Fortschritte erge-ben sich beim Übergang von dem Resonatormodell einzelner Resonanzen[Kr1781, PV1783] zu den Rohranalogien des Sprechtrakts, zuerst bei derReproduktion von Lauten anhand von Verläufen der Querschnittsflächenin-halte aus Röntgenaufnahmen [Du50, KeL62], kurz darauf bei der Analyse desgesamten Resonanzspektrums aus Sprachsignalen. Diesen Trend fortführendwird durch eine Reihe von Modellen die Schallausbreitung dreidimensionalim Sprechtrakt oder in Bereichen des Sprechtrakts erfasst. Überwiegend sind usammenfassung korrespondieren direkt mit den Voxeln tomographischer Datensätze. Schall-absorption durch die prominente Wechselwirkung mit den Hohlraumränderndes Sprechtrakts wird durch eine Nachbildung der linearen Grenzschicht-prozesse an den Rändern Rechnung getragen. Hierbei zeigt sich, dass dieseeinfache phänomenologische Nachbildung ohne bedeutenden Mehraufwandin die Formulierung der FDTD integriert werden kann, und dass sie fürtypische Querschnittsflächen gut mit Literaturwerten übereinstimmt.Die in dieser Arbeit geschaffene unmittelbare Korrespondenz zwischender Datenstruktur der Finiten Differenzen und den Voxeln erlaubt die direk-te Übernahme verschiedener tomographischer Untersuchungsmethoden. ZurUntersuchung der Akustik des Nasaltrakts werden in dieser Arbeit drei ver-schiedene tomographische Verfahren miteinander verglichen: Kryosektionen,Kernspinresonanztomographie und die röntgenabsorptionsbasierte Compu-tertomographie. Die Computertomographie zeichnet sich dabei als das mitAbstand vorteilhafteste Verfahren hinsichtlich Auflösung und Artefaktfrei-heit aus, um die filigranen geometrischen Strukturen des Nasaltrakts zuerfassen. Die akustische Impedanz jedes Voxels wird aus der Röntgendichtedurch eine lineare Gleichung bestimmt, womit der gesamte Informationsge-halt der Computertomographie übernommen und genutzt wird.Die gefundenen akustischen Eigenschaften des Nasaltrakts lassen sichmit einem Vergleich zu bereits veröffentlichten akustischen Untersuchungenverifizieren, beispielsweise anhand von Resonanzfrequenzen von Nasenne-benhöhlen. Für eine über die bereits im Vorfeld dieser Arbeit durchgeführtwpunktuelle Betrachtung hinausgehende akustische Untersuchung wird in die-ser Arbeit ein eigenes Messverfahren entwickelt: Mit der Verwendung vonkapazitiven Schallwandlern gelingt die Erzeugung präziser Schallpegel mitbekannter Quellimpedanz. Die inhärent geringen Schallpegel dieser Wandlerwerden mittels eines PC-basierten Messsystems ausgeglichen, das mit einemhierfür modifizierten Betriebssystem Einzelmessungen phasenstarr akkumu-liert. Dieses sehr kompakte Messsystem (verglichen mit zuvor bekannten,Bild ?? ) liefert eine bereichsweise Übereinstimmung des Übertragungsver-haltens mit der Simulation; ein erwartungsgemäßes Ergebnis, da akustischeMessung und tomographische Untersuchung nicht an den gleichen Proban-
37. in der Rohranalogie sind es Rohrabschnitte konstanten Querschnittsflächeninhalts usammenfassung
Speak geschaffen.
Speak bietet zahlreiche Signalquellen, Filterty-pen und Analysemöglichkeiten, die frei kombinierbar sind. So wird gezeigt,wie man damit einfache und verzweigte Rohrmodelle des Sprechtrakts bildenkann, wie man die mittels Finiten Differenzen berechneten, Transmittanzund Impedanz des Nasaltrakts beschreibenden Impulsantworten mit einemRohrmodell des Vokaltrakts kombinieren kann, und wie man ein Rohrmodelldes Sprechtrakts anhand von Sprachsignalen parametrisiert. Letzteres istinsbesondere nützlich für eine Modellierung des zeitvariablen Sprechtraktbe-reichs, der Mundhöhle. Durch die implementierten Entropiemaximierungs-und Partial-Correlation-Methode sowie mit einem erweiterten Verfahren,welches Dämpfung und Abstrahlung des Vokaltrakts mit einbezieht, wirdder relative Querschnittsverlauf eines Rohrmodells bestimmt. Aus diesemwird der absolute Querschnittsverlauf durch Skalierung anhand einer Quer-schnittsfläche aus einer MRI-Untersuchung gewonnen. Auf diese Weise wirdzum einen ein Referenz-Rohrmodell mit bekannter Akustik, zum anderen eingeometrisches Modell für die weitere Untersuchung durch Finite-Differenzenbestimmt.Durch den Bezug auf die Akustik einer einfachen Rohranalogie gelingtin dieser Arbeit sowohl die wechselseitige Verifikation beider Modelle beikleinen Querschnittsflächen als auch eine Quantifizierung der Vorteile derdreidimensionalen Betrachtung der Schallausbreitung in der Mundhöhle beinatürlichen Querschnittsflächen. Einzelne Formanten verschieben sich durchden Übergang auf natürliche Flächeninhalte um bis zu 20 % in der Reso-nanzfrequenz. Diese Untersuchungen der Mundhöhle werden in perfekterWeise durch Ergebnisse akustischer Untersuchungen in [TaMK10] bestätigt:Die dort durchgeführten aufwendigen Messungen zeigen eine ausgezeichneteÜbereinstimmung bereits zu einer einfacheren für Vokale nutzbare FDTD-Simulation.Das in dieser Arbeit entwickelte Modell zur Beschreibung des Sprech-trakts eignet sich für die meisten Lautklassen, wie exemplarische Untersu-chungen zeigen. Die partiellen Volumen erfassen physikalisch treffend dieAkustik von Strukturen des Nasaltrakts, die für die Entstehung der Nasa-le ([m], [n], [ŋ]) und der nasalierten Vokale wesentlich sind. Die Artikula-tionsgeometrie und Akustik des Lateralapproximanten [l] wird eingehendbetrachtet. Die gewonnenen Erkenntnisse lassen sich auf die einfachere Geo-metrie der Approximanten ([j] etc.) und, wie auch im Vergleich mit [Mo02]deutlich wird, auf die Artikulation der Vokale übertragen. Unbenommenist auch die Übertragbarkeit auf Diphthonge und Plosive oder – genereller– auf zeitvariable Vokaltraktkonfigurationen durch Verzicht auf eine zeit-unabhängige Darstellung. Gerade die kleinen Zeitschritte der Zeitbereichs-betrachtung und die daraus folgenden kleinen Schritte in der Geometrieän- usammenfassung
Thread . Die damit möglich gewordeneBerechnung „über Nacht“ beschleunigt auch die Weiterentwicklung des Mo-dells erheblich — mittlerweile sind mit diesen und weiteren FortschrittenBerechnungen der Impulsantworten in wenigen Minuten möglich.Bedeutsamer als diese eher praktische Sicht ist für die Untersuchungder Sprechtraktakustik eine Betrachtung von Möglichkeiten, das Modell ansich zu vereinfachen. Wie in dieser Arbeit ausgeführt wird, heben diese Ver-einfachungen wesentliche Merkmale der Sprechtraktakustik hervor, solangeweiterhin eine gute Übereinstimmung des akustischen Verhaltens bestehenbleibt. Basierend auf diesem Kriterium zeigt sich, dass für den pharyngal-oralen Bereich Skalierung des Querschnittsflächeninhalt und Exzentrität ei-ner elliptischen Kontur zusätzlich zu dem relativer Querschnittsverlauf wich-tige Merkmale sind. Mit diesen beiden weiter Merkmalen vergrößert sichder Parametersatz, der bereits bei einem einfachen Rohrmodell typischer-weise mehr als 10 Parameter für den relativen Querschnittsverlauf umfasst,nicht erheblich und das Modell bleibt gängigen Schätzverfahren zur Bestim-mung dieser Parameter aus dem Sprachsignal zugänglich. Insbesondere füreine Anwendung von iterativen Verfahren ist zudem ein weiter vereinfachtes,zweidimensionales Modell gezeigt; die damit erreichbare nochmalige Redu-zierung des Berechnungsaufwandes ebnet den Weg für deren Anwendungtrotz der für diese Verfahren erforderlichen mehrfachen Berechnung desÜbertragungsverhaltens — und somit für eine akustisch und geometrischtreffende Bestimmung der Vokaltraktkonfiguration aus Sprachsignalen.Im Ergebnis erweist sich das in dieser Arbeit entwickelte Verfahren dererweiterten Finiten Differenzen im Zeitbereich für die Untersuchung derAkustik des Sprechtrakts sowohl für den Nasal-Bereich als auch für Mund-höhle und Pharynx als gut geeignet. Es ist einfach und flexibel zu handha-ben, bildet mit hoher Genauigkeit die akustischen Prozesse nach und kannzur Beantwortung einer Reihe von Fragestellungen verwendet werden, wiesie in dieser Arbeit exemplarisch gezeigt sind und durch hierfür entwickelteMessmethoden untermauert werden.06
Teil V
Anhang
6. têtes parlantes de l’abbé Mical
16 M M. de Milli, le Roy, Lavoisier, Laplace, Fer-rier et Vicq d’azir ont rendu Compte des deuxtêtes parlantes de M. l’abbé Mical L’examen des machines de ce genre est curieux parceque, faites pourimiter la nature dans la prononciation des sons, elles peuvent aussi jetterquelques yeux sur le mecanisme de la voix. Nous avons donc consideré dansle plus grand detail toutes les pieces de la machine dont-il s’agit. M. l’abbéMical a eu la complaisance de les demonter devant nous. Il a même permis que nous infissions une courte description : Il desire seulement que le compteque nous allons curendre ne soit point publié, au moins Sans Son aveu ; etnous avons cru pouvoir prendre cet engagement avec lui au nom de l’aca-demie. Tous les mouvents de la machine sont disposés de manière à faireprononcer par deux têtes, comme en dialogant les deux phrases suivantes. Le Roi a donné la paix à L’Europe. La paix fait le bonheur des peuples.Avant d’aller plus loin, nous croyons devoir dire que ces deux phrases nesont pas prononcées distinctement dans toutes leurs parties ; Surtout la der-niere : ce qui tient sans doute(ant) que le sonds de la voix produite parcette machine est très different de la voix humaine ; à ce que certaines Syl-labes resultant de la combinaison de plusieurs Sons, leuer réunion ne sefait pas avec toute la précision possible ; Et aussi à ce que la prononciationde plusieures consonnes a besoin encore d’être perfectionnée. Malgré cesdefauts que M. l’abbé Mical lui même ne se dissesseule pas, le mechanismede cette machine nous a paru interessant. On peut y considerer deux par-ties très differentes. 1 e . Une chambre à vent, dans laquelle un soufflet portel’air et de laquelle ce fluide s’echappe lorsque differentes soupapes s’elevent.L’air est alors dirigé par des conduits vers les cavités, ou il est modifié,et ou il devient fondre. 2 e . Un cylindre qui ucent des leviers, et qui leuerdonne l’impulsion nécessaire, soit pour lever a propos les soupapes de lachambre à vent, soit pour donner aux differentes cavités où le son se modifieles formes necessaires a ses diverses changemens. Nous decrirons sommai-rement chacune des parties de la machine. Le Soufflet, la chambre à vent,les soupapes qui ferment les conduits, et les condiuits eux-mêmes n’ontrien de particulier. Leur Structure est la même que celle que l’on observedans les orgues. Les cavités on [en ?] boîtes dans lesquelles le son est mo-difié meritent une attention plus particuliere. Toutes ces boîtes sont formees dans leuer partie inferieure par une cloison au Diaphragme très tendue,formé d’une peau très fine, située horizontalement au milieu de laquelleest un trou ellyptique, qui repond au conduit à vent, et se trouve place im-mediatement au dessus. Cette ouverture est recouvert par une languette,dont une des extremités est attachée à un des points de la circonference dela Boîte, tandi que l’a.t.. qui depasse une peuletruce, peut vibrer lorsquel’air du tuyau à vent est dirigé vers cette ouverture. Ce sont les vibrations
6. têtes parlantes de l’abbé Mical produisent le son. M. l’abbé Mical à observé que laplus ou moins grande tension de la membrane au milieu de laquelle est letrou influe peu sur le son. Mais il n’en est pas de même de la languettevibrante, une petite plaque de metal est placé sur celles de ses extremitésqui tient á la circonference de la boîte, et peut parle moyen d’une verge êtreplus ou moins avancé sur cette languette, vers le trou Ellyptique, qu’ellerecouvre. Plus cette plaque de metal s’avance sur la languette qui devientalors plus courte, plus le son qu’elle produit est aigu ; et au contraire ilest d’autant plus grave, que la longeuur de la languette est plus grande.C’est par ce moyen que que l’abbé Mical rend uniformes les differens sons dechaque boîte qui sans cela seraient dissonans. Cette circonstance nous aparu remarquable, parce qu’elle est la seule qui puisse, dans la machine dontnous avons examiné le mécanisme produire des tons [sons ?] differens ; tousles autres details qui nous exposerons n’a[...] etes destiné qu’a modifier lemême ton de maniere à prononcer des sillabes mais sans changer l’inflixionde la voix. M. l’abbé Mical a essayé determiner ses conduits à vent, parune ouverture plus ou moins etroite, qui produisait des sons du même genre que ceux des flûtes ou des jeux d’orges à Bizeau. Mais ces tentatives ne luiont point réussi. Il n’a pu obtenir des sons analogues a ceux de la voix hu-maine et susceptibles des modifications dont il a fait usage, que par le moyend’une languette qui ressemble évidemment à la plaquette qui vibre dansle jeu à Au[...] de l’orgue et dont le ton est changé comme celui de la langue par une tension plus ou moins grande ; d’ou il resulte que si on trouvele moyen d’avancer plus ou moins et dans des proportions determinées laplaque de métal sur la languette, on pourrer changuer de ton et faire chanterla machine, il est au moins probable qu’elle est susceptible dace dagré deperfection. Les boîtes dans lesquelles les sons se modifient et dont nous avonsdecrit Diaphragme ou la cloison, sont construites de differente manière.1 e . Les unes sont formées de deux moitiés a peu près égales tou.. deuxconcaves, arrondies et ajoustées l’une sur l’autre de manière à s’ouvrir parle moyen d’une charniere et formant un angle plus ou moins grand. 2 e . Lesdeux moities des autres boîtes sont disposées de façon que la superieure peuts’enlever tout à fait et ensuite en contact avec l’inferieure dans laquelle esttoujours le Diaphragme percé d’un trou et recouvert d’une languette. e .D’autres boîtes sont toutes d’une piece, alles ont la même forme que les pré-cedentes qui sont ovoiides. Leur partie superieure est percée dans quelquesunes d’un seul trou rond, dans d’autres de plusieurs qui sont tous recouvertspar des Soupapes. 4 e . Il y a quelques Boîtes qui different de celles-cy, ence qu’etant d’une seule piece, elles sont beaucoup moins elevées. Il sembleque pour les former on ait tronqué les premieres ; elles sont percées d’untrou qu’une Soupape recouvre et le diaphragme disposé comme il a été ditplusieurs fois, est tendu le bas de especes de gadets. 5 e . Une de ces boîtesréunit le mécanisme des autres c’est à dire que la moitie supérieure peut semou[...] dessus de l’inferieure en formernt un angle plus ou moins ouvert et
6. têtes parlantes de l’abbé Mical cettemoitie est percée d’un trou qu’une Soupape recouvre. 6 e . Enfin l’interieurede ces boîtes vû au-dessous du Diaphragme, n’est pas b[...] dans chacuneet les variations contribuent encore à modifier le son. Cette premiere partiede la machine composée de la chambre à vent, des conduits et des gadetson Boîtes sonores, etait la plus importante à considerent Leur donner uneidée de la seconde partie qui est composée d’un cylindre et de leviers,il suffira de dire que les leviers [...] par le cylindre paraissent être divisésen trois ordres. Les uns levent et baissent les Soupapes de la chambre àvent ; les autres recouvent les moities superieures des boîtes sonores ou lesSoupapes qui recouvrent leurs ouvertures ; les troisiemes enfin repondentaux têtes et ne contribuent en rien aux sons. Nous [...], l’academie a por-tée de juger de ces pieces en lui exposant leur [...] dans la prononciation dequelques lettres ou Syllabes. Nous avons choisi celles que l’on entend de lamaniere la plus distincté. 1 e . La.. A se pronence dans une des grandes boîtes(1) [...] de deux moities mobiles l’une sur l’autre pour que l’on entendecette lettre il faut que la boîte restent immobile, sa moitie[ ? ...] supérieureetant demeurant ouverte a 40 dégrès à peu près. Le son de la lettra a dans la prononciation naturelle résulte d’une dispo-sition analogue, pendant que la ..ngue est fixée dans le fonds de la bouche,son dos se relevant un peu, les deux machoires sont et demeurent ouvertestant que l’on entend le même son. 2 e . La lettre o se modifie dans une boîtede la même grandeur et de la même forme que la lettre a, avec cette dif-ference que la moitie superieure n’est point mobile, mais seulement percéed’une ouverture ronde (2). en effet lorsqu’on prononce la lettre a, si onretrecit l’ouverture de la bouche, sans changer la situation de la langue leson o se fait entendre au lieu du premier. 3 e . L’ouverture de la bouchelorsque l’on prononce la lettre e tient le milieu entre celles requises par lalettre a et pour la lettre o ; aussi le vase dans lequel (I) la lettre e se faitentendre, at-il une ouverture plus grande que celui de la’article précedentet plus petite que celui de la lettre a dont-il diffère encore en ce qu’il n’y apoint de partie superieure detailée et mobile, et en ce qu’il est en total pluscourt que les deux premiers. La proportion de ces ouvertures est d’accordavec celles observées et determinées par M. Kratzenstein qui a remportéle prix de l’academie de Petersbourg en 1781. Sur un sujet analogue (page15 de ce Memoire). 4 e . Il est facile de prononcer la avec la Boîte destinée àla voyelle a. Il suffit pour cela que l’air partoant parle conduit et soulevantla languette mobile un moment avant qu’aucun autre mouvement s’execut ce que M. l’abbé Mical appelle préparation ; la moitie superieure s’eleve(d) et passe un angle avec l’inferieure. L’angle etant de 25 degrès le sonest distinct et il devient plus net encore ; si l’ouverture est plus grande ; pourprononcer la avec la bouche, on ouvre de même cette cavité et l’on écarteles machoires. 5 e . La Syllabe pe se forme dans un vase court qui n’a qu’uneouverture couverte d’une Soupape. (I). Il faut aussi une préparation. L’air
6. têtes parlantes de l’abbé Mical Soupape s’eleve prusquement (2) etle cours de l’air est interrompu dans le conduit à vent. On fait absolumentla même chose avec la bouche lorsque l’ouvert prononce cette Syllabe. 6 e La Syllabe fai s’entend aussi très bien. M. l’abbé Mical à employè un moyen particulier pour sa formation. Il se sert d’une boîte divisée en deux moi-ties articulées par une charniere (3) mais l’extremité du levier très mincesouleve la languette vibrante. L’air passe et produit un sifflement ; alors lalanguette cessant d’être soulevé retombe et vibre. La partie supérieure duvase s’ouvre et l’on entend fa, fè ou fai. Suivant les degrès d’ouverture. sansle sifflement produit par le mécanisme dont nous avons parlé, on aurait aou e ou la ou le suivant que les deux parties du vase aurai enteté ouvertes ouqu’elles se écartées dans le moment de la prononciation. En reflechissantsur la maniere dont on prononce pai, il est facile de se convaincre que cettesyllabe est en effet composée de ai et d’une sifflement. C’est ce que M. l’abbéMical à executé. 8 e . Oa se prononce en deux tems dans un vase (i) dont lesdeux moities sont articulées, la moitie supérieure etant de plus percée d’untrou rond, recouvert d’une soupape. cette soupape se leve et on entendla lettre O ; alors la motie supérieure du vase se leve. sur l’inférieure et onentend la lettre A. ces deux neanmoins se sucéedent avec rapidité ; l’oreilleentend oa. la bouche dans cette prononciation fait apeuprès la même chose.9 e . Nous terminerons en détails en exposant comment M. l’abbé Mical faitprononcer la lettre R par la machine que nous avons éxaminés au dessus dela chambre à vent est une cavité prticuliere ou une languette plus forte quecelle des Boîtes sonores est mise en resonance[ ?] par une Colonne d’air.Elle vibre et produit des frémissemens ou battemens qui expriment le sonde la lettre R et suivant que telle et telle Boîte sonore joue en même temson en obtient le son RA, RO ye la langue produit dans la bouche le mêmeeffet que le mécanisme emploié par M. l’abbé Mical. Nous en avons ditassez pour faire voier qu’il a toujours cherché à imiter la nature et c’estsans ce rapport que son travail nous a paru si interessant. La chambre àvent fait l’office des poumons ; le conduit a veut fait celui de la trachéeartère ; le trou de la cloison repond à la glotte, la cloison et la [...]me vibranteaux lèvres de la glotte et aux ligamens du Larianx ; la cavité de la boîtesonore doit être comparée aux fosses nazales, palatines et Buccales et lesdifferentes ouvertures de la Boîte à celles de la bouche elle-même, commenous l’avons en parlant de chaque son en particulier. Nous pensons quel’academie doit applaudier aux efforts de M. l’abbé M. que sa machine estingénieuse, que ses travaux meritent d’être encouragés et que son essai quoiqu’imparfait encor est très digne de l’approbation de l’Academie. Aus [PV1783, Lü10], ergänzt um Zeilennummern Z -Transformation Z -Transformation In diesem Abschnitt wird die Z -Transformation vorgestellt, die verwen-deten Eigenschaften gezeigt und kurz erörtert. Abschließend wird ihre An-wendung auf lineare Differenzengleichungen mit konstanten Koeffizientenskizziert, die häufigen zeitdiskreten Systemen entsprechen.Die Z -Transformation ist eine lineare Abbildung einer reell- oder kom-plexwertigen Folge x auf eine Funktion über der komplexen Ebene. Eineübliche Definition[Ví64] istX = Z{ x } ⇔ X( z ) = ∞ X k =0 x k z − k , z ∈ C , wobei die Bildfunktion durch eine Majuskel gekennzeichnet wird. Die Z -Transformation enthält die zeitdiskrete Fouriertransformation der Folge,X( ω ) = P ∞ k =0 x k e − iωk , ω ∈ R , als Spezialfall: Die Reihe ergibt sich für z = e iω , also als Funktionswerte von X( z ) auf dem Rand des Einheitskreisesder komplexen Bildebene. Mit der Z -Transformation lässt sich eine größereMenge von Folgen betrachten. Damit die Fouriertransformation auf einemGebiet konvergiert, muss die Folge x den Grenzwert null haben. Die Z -Transformation konvergiert bereits, wenn x durch eine Exponentialfolge a k majorisiert wird — die Konvergenz erfolgt im Gebiet | z | > a .Beiden Transformationen gemein ist der Faltungssatz . Wird eine Folge y k durch die Faltung der Folgen w k und x k bestimmt, so ergibt sich die Z -Transformierte aus dem Produkt im Bildbereich:Y( z ) = W( z )X( z ) . Eine in dieser Arbeit nützliche Eigenschaft ist der
Verschiebungssatz .Eine Folge y k = x k + n die um n Glieder gegenüber der Folge x verschobenist, hat die BildfunktionY( z ) = ∞ X k =0 y k z − k = ∞ X k =0 x k + n z − k = ∞ X k =0 x k z − k + n = z n X( z ) ,
38. Unter einem zeitdiskreten System wird hier ein Tupel aus dem Zustand s ∈ K n mit dem Anfangswert i ∈ K n , dem Eingangswert x ∈ K m , dem Ausgangswert y ∈ K l , derAbbildung A ∈ K n + m → K n + l verstanden, wobei initial s = i und die folgenden Zeitschrittemittels ( s, y ) = A ( s, x ) gebildet werden; n, m, l ∈ N .39. Die Z -Transformation wurde 1952 zur Analyse abtastender Systeme als eine Spezia-lisierung der Laplace-Transformation L{·} vorgestellt, R( z ) = L{ r ( t ) P ∞ n = −∞ δ ( t − nT ) } mit dem Zeitsignal r ( t ), vgl. [RaZ52]. Die Autoren weisen darauf hin, dass bereits in [Hu47]die gleiche Transformation, wenngleich namenlos und über erzeugende Funktionen herge-leitet, zur Stabilitätsanalyse zeitdiskreter Systeme gezeigt ist; sie irren aber darin, die Ein-führung dieser Analyse von Differenzengleichungen Laplace zuzuschreiben, vgl. [Mo1730].40. Die Beschränkung auf Folgen N → R ist zulässig, da die in dieser Arbeit durchge-führten physikalischen Betrachtungen einen Anfang haben und kausal sind. Eine weitereBeschränkung auf endliche Folgen, wie sie sich durch definitionsgemäß endliche Messungbegründen liese, würde jedoch einige Aspekte verbergen. Z -Transformation z . Damit können lineare Differenzengleichungen mit konstanten Koeffizien-ten a i untersucht werden. Diese Gleichungen lassen sich in der Form N X n =0 a n y k − n = w k darstellen. Die Folge y gibt die Entwicklung der Differenzengleichung wieder,und die Folge w bestimmt, ob es sich aufgrund w k = 0 ∀ k ∈ N um einehomogene oder andernfalls inhomogene Differenzengleichung handelt. Durchdie Z -Transformation gewinnt man N X n =0 a n z − n Y = W . Einsichten über die Eigenschaften der Differenzengleichung gewinnt mananhand der Eigenwerte λ i , die Nullstellen des charakteristischen Polynoms P Nn =0 a n z N − n sind, und den dazugehörigen Eigenfolgen λ ki . Die Eigenwer-te lassen sich in Polarkoordinaten re − iω darstellen; hierbei ist ω die Eigen-oder Resonanzfrequenz und r = | λ | ein Maß der Resonanzgüte und der Sta-bilität. Für komplexwertige Eigenwerte ergeben sich reelle Eigenfolgen ausder Überlagerung mit dem konjugierten Eigenwert y k = ( re iω ) k ± ( re − iω ) k =2 r k sin( ωk ) und 2 r k cos( ωk ). Ist r > r = 1 erhält man eine unge-dämpfte, für r <
41. Der Verschiebungsatz ist nicht auf n ∈ N beschränkt: eine Erweiterung auf Q ergibtsich über ein kürzeres Abtastintervall gefolgt von einer ganzzahligen Unterabtastung.42. Der Name „Differenzengleichung“ stammt von der Darstellung mittels Differenzen-operators △ y = y k +1 − y k und dessen Potenzen in Form wiederholter Anwendung, die zuder hier gezeigten Form äquivalent ist, vgl. englische Ausgabe von [Ví64].43. Der Zusammenhang wird durch Darstellung der homogenen Differenzengleichung N -ter Ordnung (mit a = 1) als System von Differenzengleichungen 1. Ordnung offen-sichtlich: y k = A y k − mit y k = y k y k − y k − ... y k − N +1 , A = − a − a · · · − a N − − a N · · · · · · · · · . Dieses System führt mit dem Ansatz y k = λ y k − , λ ∈ C zu der Eigenwertgleichung λ y k − = A y k − . Die Lösungen der Eigenwertgleichung, die Eigenwerte λ i , ergeben sichaus der charakteristischen Funktion det( A − λ i E ) = P Nn =0 a n λ N − ni = 0. Die dazugehörigenEigenfolgen haben aufgrund des Ansatzes die Gestalt y k = λ ki . Ausgenommen hiervonsind Nullstellen der charakteristischen Funktion im Ursprung; um diese Spektralwerte zuerfassen, muss der Eigenwertbegriff erweitert werden. Z -Transformation w durch eine Diffe-renzengleichung aus einer Eingangsfolge x gebildet wird. Die Differenzen-gleichung und deren Z -Transformation haben dann die Form N X n =0 a n y k − n = M X m =0 b m x k − m Z −→ N X n =0 a n Y( z ) z − n = M X m =0 b m X( z ) z − m , wobei die Koeffizienten b m der Eingangsfolge zugeordnet sind. Die Übertra-gungseigenschaften H dieses Systems lassen sich anhand des Verhältnissesder Bildfunktionen von Ausgangs- zur Eingangsfolge bestimmen:H( z ) = Y( z )X( z ) = P Mm =0 b m z − m P Nn =0 a n z − n Insbesondere ist die Impulsantwort – wenn also zur Anregung als Eingangs-folge die Einheitsimpulsfolge { , , , ... } verwendet wird, deren BildfunktionX( z ) = 1 ist – des Systems gleich der Übertragungsfunktion.Damit ist die Analyse dieser Systeme auf die Analyse einer rationalenFunktion zurückgeführt. Diese rationale Funktion lässt sich, abgesehen voneinem Faktor, durch Produkte ihrer Pole und Nullstellen darstellen. Diessind die Nullstellen des Nenner- und des Zählerpolynoms, erstere folglichdie bereits diskutierten Eigenwerte. Die Faktoren des Zählerpolynoms, (1 − n i z − ), sind im Zeitbereich gewichtete gleitende Mittlungen, y k − n i y k − ,die Signale oder Signalkomponenten des Typs y k = n ki auslöschen. ITERATUR
Literatur [AlS95] Alipour, F., Story, B. H.
A three-dimensional solution of the wave equation in a model of thevocal tract
J. Acoust. Soc. Am. Volume 98, Issue 5, p. 2930, 1995[AtS67] Atal, B. S., Schroeder, M. R.
Predictive coding of speech signals
Proc. AFCRL/IEEE Conference on Speech Communication andProcessing, pp. 360-361, 1967[AtS70] Atal, B. S., Schroeder, M. R.
Predictive coding of speech signals
Bell System Technical Journal, vol. 49, pp. 1973-1986, 1970[Ba08] Baltes, C., Radzwill, N. I., Bosshard, S. C., Marek, D., Rudin, M.
Routine high resolution MRI in small animals at 9.4 Tesla using acryogenic quadrature transceive RF probe
ISMRM 2008[BaLMG83] Baer, T., Löfqvist, A., McGarr, N. S.
Laryngeal vibrations: A comparison between high-speed filming andglottographic techniques
J. Acoust. Soc. Am. Volume 73, Issue 4, pp. 1304-1308, 1983[BaO98] Baken, R. J., Orlikoff, R. F.
Clinical Measurement of Speech & Voice
Singular Pub, 2. Ed., San Diego, 1998[Be37] Bell Telephone Labs
High Speed Motion Pictures of the Vocal Cords
Bureau of Publication, New York, 1937[Be58] Berg, J. v. d.
Myoelastic-aerodynamic theory of voice production
J. of Speech and Hearing Research, Vol. 1, pp. 227-244, 1958[Be94] Berenger, J.
A perfectly matched layer for the absorption of electromagnetic wa-ves
Journal of Computational Physics 114, pp. 185-200, 1994[BeZD57] Berg, J. v. d., Zantemam, J. T., Doornenbal (Jr.), P.
On the Air Resistance and the Bernoulli Effect of the Human La-rynx
J. Acoust. Soc. Am. Volume 29, Issue 5, pp. 626-631, 1957[BiJK06] Birkholz, P., Jackèl, D., Kröger, B. J.
Construction and Control of a three-dimensional Vocal Tract Model
ICASSP 06, 2006
ITERATUR
SMASH, SENSE, PILS, GRAPPA
Top. Magn. Reson. Imaging, vol. 15, pp. 223-236, 2004[BrS10] Brown, M. A., Semelka, R. C.
MRI: Basic Principles and Applications
John Wiley & Sons, Hoboken, New Jersey, 4th Ed., 2010[BK95] Bruel & Kjær
Microphone HandbookFor the Falcon Range of Microphone Products
Bruel & Kjær, BA 5105–12, Nærum, 1995[Bu67] Burg, J. P.
Maximum entropy spectral analysis th Meeting of the Society of Exploration Geophysisists, 1967 (reprinted in [Ch78]) [Bu68] Burg, J. P.
A new analysis technique for time series data
NATO Advanced Study Institute on Signal Processing with Em-phasis on Underwater Acoustics, Enschede, 1968 (reprinted in [Ch78]) [Ch78] Childers, D. G. (ed.)
Modern Spectrum Analysis
IEEE Press, New York, 1978[ChG28] Chapuis, A., Gélis, E.
Le Monde des Automates
Paris, 1928[ChK41] Chiba, T., Kajiyama, M.
The vowel - It’s nature and structure.
Tokyo-Kaiseikan, Tokyo, 1941 (reprint: Phonetic Society of Japan, Tokyo, 1958) [Co1860] Cavaillé-Coll, A.
De la détermination des dimensions des tuyaux d’orgues par rapportà leur intonation
Note lue à l’Académie des sciences de Paris, le 23 janvier 1860.[Co53] Cooper, F. S.
Some Instrumental Aids to Research on Speech
Report on the Fourth Annual Round Table Meeting on Linguisticsand Language Teaching, Georgetown University Press, pp. 46-53,1953.[CoFL28] Courant, R., Friedrichs, K., Lewy, H.
Über die partiellen Differenzengleichungen der mathematischenPhysik
Math. Ann., Bd. 100, S. 32–74, 1928
ITERATUR
Singing Synthesis With an Evolved Physical Model
IEEE Trans. o. Audio, Speech a. Lang. Process., vol. 14, no. 4,pp. 1454-1461, 2006[Cr25] Crandall, I. B.
The sounds of speech.
Bell System Technical Journal, vol. 4, pp. 586-624, 1925 [Cr64] Cramer, B.
Sprachsynthese zur Übertragung mit sehr niedriger Kanalkapazität
NTZ, Heft 8, S. 413-424, 1964[Cr76]
Cray-1 Hardware Reference Manual
Cray Research Incorporated, 1976[CuMC95] Cummings, K. E., Maloney, J. G., Clements, M. A.
Modelling Speech Production using Yee’s Finite Difference Method
ICASSP-95, 1995[DaH95] Dang, J., Honda, K.
Acoustic characteristics of the human paranasal sinuses derivedfrom transmission characteristics measurement and morphologicalobservation
J. Acoust. Soc. Am., Vol. 100, No. 6, pp. 3374-3383, 1996[DaHS94] Dang, J., Honda, K., Suzuki, H.
Morphological and acoustical analysis of the nasal and the paranasalcavities
J. Acoust. Soc. Am., Vol. 96, No. 4, pp. 2088-2100, 1994[De34] Delaunay, Boris
Sur la sphère vide
Otdelenie Matematicheskikh i Estestvennykh Nauk 7: 793–800,1934[DICOM] Medical Imaging & Technology Alliance
Digital Imaging and Communication in Medicine dicom.nema.org[Du38] Dudley, H.
System for the artificial production of vocal or other sounds
United States Patent Office: 2,121,142, 1938[Du50] Dunn, H. K.
The calculation of vowel resonances, and an electrical vocal tract
J. Acoust. Soc. Am., vol. 22, pp. 740-753, 1950[Du94] Dutoit, T.
A Comparison of Four Candidate Algorithms in the Context of HighQuality Text-To-Speech Synthesis
Proc. ICASSP: pp. 565-568, 1994
ITERATUR
The MBROLA PROJECT HOMEPAGE tcts.fpms.ac.be/synthesis/mbrola.html [Eb96] Ebert, M. et. al.
Nuclear magnetic resonance imaging with hyperpolarised helium-3
Lancet, vol. 347, pp. 1297-1299, 1996[Ei96] Eichler, M.
Zeitvariable Rohrsysteme für eine artikulatorisch parametrisierteSprachsynthese
Diplomarbeit, Institut für Angewandte Physik,Johann Wolfgang Goethe-Universität, Frankfurt am Main, 1996[En97] Englert, F.
Acquisition of a Diphone Database for German
H.-W. Wodarz (Hrsg.): Speech Processing —Selected Topics from the Czech-German Workshop, S. 23-32Hector: Frankfurt am Main, 1997[Fa57] Fabre, P.
Un procédé électrique percutané d’inscription de l’accolement glot-tique au cours de la phonation: glottographie de fréquence; premiersrésultats
Bulletin de l’ Académie Nationale de Médecin 141, pp. 66-69. 1957[FaM62] Fant, G., Mártony, J.
Speech synthesis. Instrumentation for parametric synthesis (OVEII)
STL-QPSR, 3(2), pp. 18-19, 1962[Fe84] Fellbaum, K.
Sprachverarbeitung und Sprachübertragung
Springer: Berlin; Heidelberg; New York; Tokyo, 1984[Fi1868] Fitzinger, L. J.
Geschichte des kais. kön. Hof-Naturalien Cabinetes zu Wien
Sitzungsber. d. Kais. Akad. d. Math.-Naturw. Classe, Bd. 57, 1868[Fl65] Flanagan J. L
Speech Analysis Synthesis and Perception
Springer: Berlin; Heidelberg; New York, 1965[Fl72] Flynn, M.
Some Computer Organizations and Their Effectiveness
IEEE Trans. Comput., Band C-21, pp. 948-960, 1972[FlL68] Flanagan J. L, Landgraf L. L.
Self-Oscillating Source for Vocal Tract Synthesizers
IEEE Tr. Audio and Electracoustics, 16, pp. 57-64, 1968
ITERATUR
Speech Synthesis
Dowden, Hutchington & Ross, Stroudsburg, 1973[Fr98] Friedlinger, M.
Automatisierte Segmentierung und Volumetrie bispektralerMagnetresonanz-Bilddaten des Gehirns
Dissertation, Fakultät für Elektrotechnik der Universität Karlsruhe,1998[Fr09] Freeston, D.
Dynamic Control of a 2-D Waveguide Model of the Vocal Tract
KTH CSC, Stokholm, 2009[GaHJV94] Gamma, E., Helm, R., Johnson, R., Vlissides, J.
Design Patterns
Addison-Wesley, Boston [u. a.], 1994[GeWPP03] Gérard, J.-M., Wilhelms-Tricarico, R., Perrier, P., Payan, Y.
A 3D dynamical biomechanical tongue model to study speech motorcontrol
Research Developments in Biomechanics 1, pp. 49-64, 2003[Ge94] Gessinger, J.
Auge und Ohr
Walter de Gruyter: Berlin; New York, 1994[Ge96] Gerland, C.
SprachsyntheseZur Gewinnung der Steuerparameter aus fließender Sprache für einSprachsynthesesystem auf der Basis von Rohrmodellen
Diplomarbeit, Institut für Angewandte Physik,Johann Wolfgang Goethe-Universität, Frankfurt am Main, 1996[GoA06] Gordon, M., Applebaum, A.
Phonetic structures of Turkish Kabardian
Journal of the International Phonetic Association 36(2), pp. 159-186, 2006[Gr76] Großmann, E.
Synthese von Sprache aus Sprachlauten
ACUSTICA, Vol. 35, No. 4, S. 258—265, 1976[Gr10] Gray, R. M.
Linear Predictive Coding and the Internet Protocol: A survey ofLPC and a History of of Realtime Digital Speech on Packet Net-works
Now Publishers, Boston, 2010
ITERATUR
Linear predictive coding and the Burg algorithm for speech analysisand synthesis
J. Acoust. Soc. Am., vol. 64, Issue S1, p. S159, 1978[GrS06] Grimm, J., Schmitt, F.
MR-Tomographie (MRT) bei 7 Tesla
Medical Solutions, S. 94-100, März 2006[HaS95] Hankins, T. L., Silverman, R. J.
Instruments and the Imagination
Princeton University Press, Princeton, New Jersey, 1995[He1863] Helmholtz, H.
Die Lehre von den Tonempfindungen als physiologische Grundlagefür die Theorie der Musik.
F. Vieweg, Braunschweig, 1863 vlp.mpiwg-berlin.mpg.de/references?id=lit3483 [He1863b] Helmholtz, H.
Über den Einfluss der Reibung in der Luft auf die Schallbewegung
Verh. d. nat.-hist.-med. Ver. z. Heidelb., 1863
Selected sentences created with the Pattern Playback [Hs03] Hsieh, J.
Computed tomography: principles, design, artifacts, and recent ad-vances
SPIE-Press, Bellingham, 2003[HoH80] Holmes, J. N., Holmes, W. J.
Speech synthesis and recognition
Taylor & Francis: London; New York, 2nd ed. 2001[Hu47] Hurewicz, W.
Filters and servosystems with pulsed data in: James, H. M., Nichols, N. B., Phillips, R. S.
Therory of Servomechanisms
McGraw-Hill: New York; Toronto; London, pp. 231-261, 1947[In53] Ingard, U.
On the Theory and Design of Acoustic Resonantors
J. Acoust. Soc. Am., vol. 25, pp. 1037–1061, 1953[ICRP00] International Commission on Radiology Protection
Managing Patient Dose in Computer Tomgraphy
Elsevier, Publication 87, Annals of the ICRP, Vol. 30, No. 4, 2000
ITERATUR
Synthesis of Voiced Sounds From a Two-Mass Model of the VocalCords
The Bell System Technical Journal, 51 (6), 1233-1268, 1972[IsM72] Ishizaka K., Matsuidara M.
Fluid mechanical considerations of vocal cord vibration
SCRL Monograph, 1972[ItS68] Itakura, F., Saito, S.
Analysis synthesis telephony based upon the maximum likelihood me-thod
Reports of 6th Int. Cong. Acoust., Tokyo, 1968[ItS69]
Itakura, F., Saito, S.Speech Analysis-Synthesis System Based on the Partial Autocorre-lation CoefficientAcoust. Soc. of Japan Meeting, 1969 (Zitiert nach [MaG72]) [IPA99] International Phonetic Association
Handbook of the International Phonetic Association
Cambridge University Press: Cambridge, 1999[ITG94]
ITG-Empfehlung „Terminologie der Sprachakustik“
ITG 4.3.1-1, 1996[Jü09] „9komma4“ Hirnforschung für die Zukunft
Forschungszentrum Jülich, 2009[Ka74] Kaiser, J. F.
Nonrecursive Digital Filter Design Using the IO-sinh Window Func-tion
Proc. IEEE Symp. Circuits and Systems, pp. 20-23, 1974[KaTT94] Katz, D. S., Thiele, E. T., Taflove A.
Validation and extension to three dimensions of the Berenger PMLabsorbing boundary condition for FDTD meshes
Microwave and Guided Wave Letters, IEEE 4, pp. 268-270, 1994[Ke1791] Kempelen, W. v.
Mechanismus der menschlichen Sprache nebst Beschreibung einersprechenden Maschine
Wien, 1791 (Faksimile-Nachdruck: F. Frommann, Stuttgart, 1970) [KeL62] Kelly, J. L., Lochbaum, C. C.,
Speech Synthesis
Proc. Fourth Int. Congr. Acoust., Paper G42, 1-4, 1962 (Reprinted in [FlR73])
ITERATUR
Ueber den Einfluß der Wärmeleitung in einem Gas auf die Schall-bewegung
Annalen der Physik (Pogg. Ann.), Bd. 134, S. 177-193, 1868 gallica.bnf.fr/ark:/12148/bpt6k15219b/f188.image [Kn1780] Knauss, F. v.
Selbstschreibende Wundermaschienen, auch mehr andere Kunst-und Meisterstückuns so viele nunmehr ungelöste Probleme [...]Wien, 1780[Ko99] Kohler, K.
Handbook of the International Phonetic Associtation – German
Cambridge University Press: Cambridge, pp. 86-89, 1999[KoNR02] Kob, M., Neuschaefer-Rube, C.
A method for measurement of the vocal tract impedance at the mouth
Medical Engineering & Physics 24, pp. 467–471, 2002[Kr1781] Kratzenstein, C. G.
Tentamen resolvendi problema ab Academia Scientiarum ImperialiPetropolitana ad annum 1780 publice propositum
Petersburg, 1781 (Digitalisat: Niedersächsische Staats- und Universitätsbibliothek Göttingen) [KrKE64] Krech, E. M., Krech H., Eber, W.
Wörterbuch der deutschen Aussprache
Bibliographisches Institut: Leipzig, 1964
Großes Wörterbuch der deutschen Aussprache ab der hier verwendeten 5. Aufl., 1982[Ku1868] Kundt, A.
Untersuchungen über die Schallgeschwindigkeit der Luft in Röhren
Annalen der Physik und Chemie (Pogg. Ann.),Bd. 135, S. 337-372, S. 527-561, 1868[KuSW06] Kunkel-Razum, K., Scholze-Stubenrecht, W., Wermke, M.(Hrsg.)
Duden Deutsches Universalwörterbuch
Dudenverlag: Mannheim; Leipzig; Wien; Zürich, 6. Auflg., 2006[KüW56] Küpfmüller, K., Warns, O.,
Sprachsynthese aus Lauten
Nachrichtentechnische Fachberichte 3, S. 28-31, 1956[Ku30] Kurzel-Runtscheiner, E. v.
Ludwig Knaus und Friedrich von Knaus
Blätter für Geschichte der Technik, 5. Heft, S. 21-41, 1938[La82] Laine, U. K.
Modelling of Lip Impedance in z-Domain
ITERATUR
Digitale Filer, eine Einführung in zeitdiskrete Signale und Systeme
R. Oldenbourg: München; Wien, 4. Aufl., 1996[La05] Lacroix, A.
Speech Production – Acoustic, Models and Applications in Communication Acoustics , J. Blauert (Ed.)Springer: Berlin; Heidelberg, 2005[Le36] Lewis, D.
Vocal Resonance
J. Acoust. Soc. Am., vol. 8, pp. 91-99, 1936[Le99] Levelt, W. J. M.
Models of word production
Trends in Cognitive Sciences, Vol. 3, No. 6, 1999[Le04] Lehnertz, K.
Röntgen Computertomographie (CT)
Universität Bonn, Unverstitätsklinikum, Präsentation, 2004 [LeSW09] Lerch, R., Sessler, G., Wolf, D.
Technische Akustik
Springer: Berlin; Heidelberg, 2009[Li98] Liu, M.
Zeitdiskrete Modelle für den Stimmtrakt auf der Basis akustischerRohrsysteme
Dissertation, Fachbereich Physik,Johann Wolfgang Goethe-Universität, Frankfurt am Main, 1998[LiNOM08] Lindholm E., Nickolls, J., Oberman S., Montrym J.
NVIDIA Tesla: A unified graphics and computing architecture
IEEE Micro, Volume 28, Issue 2, pp. 39-55, 2008[LiS72] Lindqvist, J., Sundberg, J.
Acoustic Properties of the Nasal Tract
STL-QPRS 1/1972, Royal Institute of Technology, Stockholm,pp. 13-17, 1972[LiSB98] Lines, L. R., Slawinski, R., Bording, R. P.
A recipe for stability analysis of finite-difference wave equation com-putations
CREWES Research Report — Volume 10, 1998[LiA64] Lisker, L., Abramsons, A. S.
A Cross-Language Study of Voicing in Initial Stops: Acoustical Mea-surements
Word, Volume 20, No. 3, pp. 384-422, 1964
ITERATUR
Transkription und Übersetzung der S. 202 u. 203 aus [PV1783]
Unveröffentlicht, 2010[Ma1867] Maxwell, J. C.
On the Dynamical Theory of Gases
London Phil. Trans. vol. 157, pp. 49-88, 1867[Ma72] Markel, J. D.
Digital Inverse Filtering – A New Tool for Formant Trajectory Esti-mation
IEEE Trans. Audio Electroacoust., AU-20, pp. 129-137, 1972
Reprint in [FlR73] [Ma82] Maeda, S.
The role of the sinus cavities in the production of nasal vowels
Proceedings of ICASSP, Vol. 2, pp. 911-914, 1982[Ma99] Mattingly, I. G.
A short history of acoustic phonetics in the U.S.
Proceedings of the XIVth International Congress of PhoneticSciences, pp. 1-6, 1999[Ma08a] Maddieson, I.
Glottalized Consonants.
In: Haspelmath, M., Dryer, M. S., Gil, D., Comrie, B.
The World Atlas of Language Structures Online. wals.info/feature/7 [Ma08b] Mantor, M.
Entering the Golden Age of Heterogeneous Computing
C-DAC PEEP2008, AMD, pp. 11, 2008[Ma08c] Mayer, J.
Linguistische Phonetik
Universität Potsdam, 2008 )[MaG72] Markel, J. D., Gray, A. H.
Linear Prediction of Speech
Springer-Verlag, Berlin, Heidelberg, New York, 1972[Mc87] McGowan, R. S.
Articulatory Synthesis: Numerical Solution of a Hyperbolic Diffe-rential Equation
Haskins Laboratories Status Report on Speech Research SR-89/90,1987
ITERATUR
Articulatory model for the study of speech production
J. Acoust. Soc. Am., vol. 53, pp. 1070–1082, 1973[Me08] Mechel, F. P. (Ed.)
Formulas of Acoustic
Springer, Berlin, Heidelberg, New York, 2nd Edition, 2008[MeS65] Mermelstein, P., Schroeder, M. R.
Determination of the Smoothed Cross-Sectional Area Functions ofthe Vocal Tract from Formant Frequencies
J. Acoust. Soc. Am., vol. 53, pp. 1070–1082, 1973[MiBMP]
Bitmap Storage
Microsoft, msdn.microsoft.com/de-de/library/dd183391%28en-us,VS.85%29.aspx[MPI07]
Presseinformation
Max-Planck-Gesellschaft PRI FP / 2007 (102)[Mo1730] De Moivre, A.
Miscellanea Analytica de Seriebus Et Quadraturis.
J. Tonson & J. Watts, London, 1730 (Faksimile-Nachdruck: Gale Ecco, 2010) [Mo02] Motoki, K.
Three-dimensional acoustic field in vocal-tract
Acoust. Sci. & Tech. 23, (4), pp. 207-212, 2002[MoI68] Morse, P. M., Ingard, K. U.
Theoretical Acoustics
McGraw-Hill, Princeton, 1968[Mu56] Muller, D. E.
A Method for Solving Algebraic Equations Using an AutomaticComputer
Mathematical Tables and Other Aids to Computation, 10, pp. 208-215, 1956[MüM03] Müller, G., Möser, M. (Hrsg.)
Taschenbuch der Technischen Akustik
Springer, Berlin [u. a.], 3., erw. u. überarb. Aufl., 2003[MuVBT95] Munhall, K.G., Vatikiotis-Bateson, E., Tohkura, Y.
X-ray Film database for speech research
J. Acoust. Soc. Am., vol. 98, pp. 1222-1224, 1995 [Oe95] Oertel, H.
Numerische Strömungsmechanik
Springer, Berlin, Heidelberg, New York, 1995
ITERATUR
Estimation of source paramters by frequency analysis
Proc. Eurospeech-93, pp. 99-102, 1993[OpS75] Oppenheim, A. V., Schafer, R.
Digital Signal Processing
Prentice-Hall: Englewood Cliffs, 1975[Pa30] Padget, R.
Human Speech: Some Observations, Experiments, and Conclusionsas to the Nature, Origin, Purpose and Possible Improvement of Hu-man Speech
Routledge Chapman & Hall, Totton, 1930[PeB52] Peterson, G. E., Barney H. L.,
Control methods used in a study of the vowels
J. Acoust. Soc. Am., vol. 24, pp. 175-184, 1952[PeBB98] Peitgen, H. O., Berghorn, W., Biel, M.
The Complete Visible Human
Springer, Berlin, Heidelberg, 1998[Po96] Portele, T.
Ein phonetisch-akustisch motiviertes Inventar zur Sprachsynthesedeutscher Äußerungen
Max Niemeyer Verlag, Tübingen, 1996[Pr1795] Prony, R.
Essai éxperimental et analytique: sur les lois de la dilatabilité defluides élastique et sur celles de la force expansive de la vapeur del’alkool, à différentes températures
Journal de l’École Polytechnique Floréal et Plairial, an III, volume1, cahier 22, 24-76, 1795
Digitalisat, Bibliothèque nationale de France:gallica.bnf.fr/ark:/12148/bpt6k433661n/f32 [PuDICOM] Puech, P.
DicomWorks
Procès-verbaux
Académie royale des sciences, T. 102, Paris, S. 149, S. 202-203, 1783
Digitalisat, Bibliothèque nationale de France:gallica.bnf.fr/ark:/12148/bpt6k557782/f408 [Ra1896] Rayleigh, J. W. S.
Theory of Sound, Volume I u. II
Macmillan, London, 1877 bzw. 1878, erweiterte Aufl. 1894 u. 1896,
Reprint: Dover Publications, 2003
ITERATUR
Über die Bestimmung von Funktionen durch ihre Integralwerte ent-lang gewisser Mannigfaltigkeiten
Ber. Verh. Sächs. Akad. Wiss., 69, pp. 262-277., 1917[Ra99] Ranostaj, F.
Entwicklung neuer Methoden zur Modellierung des Nasaltrakts inSprachsynthesesystemen
Diplomarbeit, Institut für Angewandte Physik,Johann Wolfgang Goethe-Universität, Frankfurt am Main, 1999[Ra04] Ranostaj, F.
Untersuchungen zum akustischen Verhalten des Nasaltrakts in Signaltheorie und Signalverarbeitung — Akustik und Sprachaku-stik — Informationstechnik
Studientexte zur Sprachkommunikation, Bd. 29, Hrsg. D. Wolf,R. Hoffmann, Dresden, S. 154-163, 2004[RaL00a] Ranostaj, F., Lacroix, A.
Aspekte der Implementierung zeitdiskreter Algorithmen der nume-rischen Akustik
DAGA 2000, DEGA Oldenburg, pp. 700-701, 2000[RaL00b] Ranostaj, F., Lacroix, A.
Acoustic Models of the Nasal Tract
Proc. 10 th Czech-German Workshop Speech Processing, Prag,Ed. Vích, R., p. 10, 2000[RaL00c] Ranostaj, F., Lacroix, A.
Bestimmung des Übertragungsverhaltens des Nasaltrakts aus com-putertomographischen Daten
ITG-Fachbericht 161 Sprachkommunikation, VDE-Verlag, Berlin-Offenbach, pp. 131-134, 2000[RaL01] Ranostaj, F., Lacroix, A.
Acoustical Measurements for Verification of Speech Production Mo-dels
Proc. 11 th Czech-German Workshop Speech Processing, Ed. Vích,R., Prag, 2001[RaL02a] Ranostaj, F., Lacroix, A.
Messung und Simulation der Akustik des Nasaltrakts
DAGA 2002 Bochum, DEGA Oldenburg, Hrsg. Jekosch, U., pp. 648-649, 2002[RaL02b] Ranostaj, F., Lacroix, A.
Simulation und Messung der Akustik des Nasaltrakts
13. Konferenz Elektronische Sprachsignalverarbeitung, Bd. 24,Hrsg. Hoffmann, R., pp. 245-252, 2002
ITERATUR
Speech Modeling Using TUBEDESIGNER
Proc. 12 th Czech-German Workshop Speech Processing, Ed. Vích,R., Prag, pp. 30-31, 2002[RaL03a] Ranostaj, F., Lacroix, A.
Bestimmung der Randbedingungen von numerischen Simulationender Schallausbreitung aus computertomographischen Daten
DAGA 2003 Aachen, Hrsg. Vorländer, M., DEGA Oldenburg,pp. 576-577, 2003[RaL03b] Ranostaj, F., Lacroix, A.
Ein Experimentalsystem zur Sprechakustik und Sprachproduktion
14. Konferenz Elektronische Sprachsignalverarbeitung, Karlsruhe,Hrsg. Hoffmann, R., Bd. 28, pp. 280-285, 2003[RaL03c] Ranostaj, F., Lacroix, A.
Multimediale Darstellung von Problemen der Rohrakustik mit Hilfedes
TubeDesigners
DAGA 2003 Aachen, Hrsg. Vorländer, M., DEGA Oldenburg, CD,pp. 474-475, 2003[RaL04a] Ranostaj, F., Lacroix, A.
Speak — A Multimedia System for Speech Acoustics and SpeechProduction Models
Proc. 13 th Czech-German Workshop Speech Processing, Ed. Vích,R., Prag, pp. 16-22, 2004[RaL04] Ranostaj, F., Lacroix, A.
Modelle der Nasalierung in
Speak
15. Konferenz Elektronische Sprachsignalverarbeitung, Cottbus,Studientexte zur Sprachkommunikation, Hrsg. Fellbaum, K.,Bd. 30, pp. 215-221, 2004[RaSL99] Ranostaj, F., Schnell, K., Lacroix, A.
Modellierung des Nasaltrakts
Zehnte Konferenz Elektronische Sprachsignalverarbeitung Görlitz,Studientexte zur Sprachkommunikation Bd. 16, Hrsg. Mehnert, D.,pp. 58-63, 1999[RaZ52] Ragazzini, J. R., Zadeh, L. A.
The analysis of sampled-data systems
Trans. Am. Inst. Electr. Eng., 2, Appl. ind., pp. 225-234, 1952. (British Library) [Re78] Reenskaug, T. M. H.
MVC XEROX PARC 1978-79
ITERATUR
Sur la vitesse de propagation des ondes dans les milieux gazeux
Compt. Rend. LXVI, pp. 209-220, 1868[Ri95] Richard, G., Liu, M., Snider, D., Duncan, H., Lin, Q.,Flanagan, J. L., Levinson, S., Davis, D., Slimon, S.
Numerical Simulations of Fluid Flow in the Vocal Tract
EUROSPEECH ’95, pp. 1297-1300, 1995[Ro1862] Le Roux, M. F.-P.
Recherches expérimentales sur la vitesse de propagation d’un ébr-anlement sonore dans un tuyau cylindrique
Compt. Rend. LV, pp. 662-664, 1862[Ro1867] Le Roux, M. F.-P.
Détermination expérimentale de la vitesse de propagation d’un ébr-anlement sonore dans un tuyau cylindrique
Ann. de Chim. et de Phys. 4. série, XII, pp. 345-418, 1867[Ru28] Russel, G. O.
The Vowel
The Ohio State University, Columbus, Ohio, 1928 (Reprint: McGrath Publishing Company, College Park, 1970) [Sa09] Sara, S. I. P ibn S¯ın¯a — Ris¯alah: P asb¯ab è uduw T P al- è uruwfA Treatise on Arabic PhoneticsTranslation, Notes & Comments LINCOM Studies in Phonetics, München, 2009[SaI66] Saito, S., Itakura, F.,
The theoretical consideration of statistically optimum methods forspeech spectral density
Report No. 3107, Electrical Communication Laboratory, NTT, To-kyo, 1966
Auszugsweiser Nachdruck in: [Gr10] [SaMM03] Sasaki, K., Miki, N., Miyanaga, Y.
FEM Analysis Based on 3-D Time-Varying Vocal Tract Shape
EUROSPEECH, pp. 2357-2360, 2003[Sc1842] Schmalz, E.
Ueber die Sprechmaschiene des Hr. Faber
Wochenschrift für die gesamte Heilkunde, No. 49, 1842[Sc1897] Scheier, M.
Die Anwendung der Röntgenstrahlen für die Physiologie der Stimmeund Sprache
Deutsche Medicinische Wochenschrift, No. 25, 1897
DOI:10.1055/s-0029-1205046
ITERATUR
Verfahren zur besseren Ausnutzung eines Übertragungsweges
Reichspatentamt, Patentschrift Nr. 594 976, 1932[Sc67] Schroeder, M. R.
Determination of the Geometry of the Human Vocal Tract byAcoustic Measurement
J. Acoust. Soc. Am., vol. 4, no. 2, pp. 1002-1010, 1967 [Sc83] Schönle, P. W. et. al.
Ein elekromagnetisches Verfahren zur simultanen Registrierung vonBewegungen im Bereich des Lippen-, Unterkiefer und Zungensy-stems
Biomed. Technik 28, S. 263-267, 1983[Sc90] Schönbach, B.
Schallausbreitung in gekoppelten Rohrsystemen
Dissertation, Fachbereich Physik, Johann Wolfgang Goethe-Univer-sitätVDI-Verlag, Düsseldorf, 1990[Sc93] Schwarz, H. R.
Numerische Mathematik
B. G. Teubner: Stuttgart, 3. Aufl., 1993[Sc96] Schnell, K.
Sprachsynthese mit erweiterten Rohrmodellen
Diplomarbeit, Institut für Angewandte Physik,Johann Wolfgang Goethe-Universität, Frankfurt am Main, 1996[Sc98] Schnell, K., Lacroix A.
Erweiterte Rohrmodelle für die Sprachproduktion
DAGA-Tagungsband: Zürich pp. 384-385, 1998[Sc98a] Schnell, K. persönliche Mitteilung [Sc99] Schuhmann, K. persönliche Mitteilung [Sc09] Schnell, K.
Modellbasierte Sprachanalyse und -synthese
Habil.-Schr., Frankfurt am Main, 2009[ScRL04] Schnell, K., Ranostaj, F., Lacroix A.
Parameter Estimation of Vocal Tract Model in SPEAK
CFA/DAGA ´04, Gemeinschaftstagung ieme Congrés Francaisd‘Acoustique CFA / 30. Deutsche Jahrestagung für Akustik DA-GA, Straßburg, 2004
ITERATUR
Grundzüge der Phonetik zur Einführung in das Studium der Laut-lehre der indogermanischen Sprachen
Breitkopf & Härtel, Leipzig, 1881[Sp08] Speed, M. D. A.
Modelling Sound Propagation in the Vocal Tract With a Three-Dimensional Digital Waveguide Mesh
KTH CSC, Stockholm, 2008[St1845] Stokes, G. G.
On the Theories of the Internal Friction of Fluids in Motion, andof the Euilibrium of Motion in Elastic Solids
Cambridge Phil. Trans., vol. VIII, p. 297, 1845 [St22] Stewart, J. Q.
An Electrical Analogue of the Vocal Organs
Nature 110, pp. 311-312, 1922[St35] Steinberg, J. C.
Application of sound measuring instruments to the study of phoneticproblems
J. Acoust. Soc. Am., vol. 6, Issue 1, pp. 16-24, 1934[St08] Story, B. H.
Comparison of magnetic resonance imaging-based vocal tract areafunctions obtained from the same speaker in 1994 and 2002
J. Acoust. Soc. Am., vol. 123, Issue 1, pp. 327-335, 2008[SuNS95] Suzuki, H., Nakai, T., Sakakibara, H.
Proc. EUROSPEECH, pp. 1301-1304, 1995[SuNS96] Suzuki, H., Nakai, T., Sakakibara, H.
Analysis of Acoustic Properties of the Nasal Tract Using 3-D FEM
Proc. ICSLP 96, Philadelphia (USA) 1996, vol. 2, pp. 1285[TaMK10] Takemoto, H., Mokhtari, P., Kitamura, T.
Acoustic analysis of the vocal tract during vowel production by finite-difference time-domain method.
J. Acoust. Soc. Am. vol. 128, Issue 6, pp. 3724-3738, 2010[To25] Tondorff, W.
Die Mechanik bei der Stimmlippenschwingung und beim Schnarchen
Z. Hals-, Nasen- u. Ohrenheilkunde 12, S. 241-245, 1925[Tr95] Traill, A.
Phonetic and Phonological Studies of !Xóõ Bushman.
Quellen zur Khoisan-Forschung, Bd. 1., Hrsg. Voßen, R.Helmut Buske, Hamburg, 1985
ITERATUR
Geschichte der Sprachsynthese [Tr03] Traunmüller, H.
Clicks and the idea of human protolanguage
PHONUM 9, S. 1-4, 2003[TrW35] Trendelenburg, W., Wullstein, H.
Untersuchungen über die Stimmbandschwingung
Sitzungsb. preussichen Akad. Wissensch. Berlin,Phys. Math. Klasse, S. 399-426, 1935[UeZVKMF10] Uecker, M., Zhang, S., Voit, D., Karaus, A.,Merboldt, K.-D., Frahm, J.
Real-time magnetic resonance imaging at a resolution of 20 ms
NMR in Biomedicine 23, pp. 986–994, 2010
MRI-Sequenz: en.wikipedia.org/wiki/File:Real-time MRI - Speaking (English).ogv [VaMT91] Valbret H., Moulines E., Tubach J.
Voice Transformation Using PSOLA Technique
Proceedings of Eurospeech 91, pp. 345-348, 1991[Ví64] Vích, R.
Z-Transformation, Theorie und Anwendung
Verlag Technik, Berlin, 1964Erweiterte englische Fassung:
Z-Transform Theory and Application.
D. Reidel, Dordrecht, 1987[Vr03] Vries, M. P. d., Hamburg, M. C., Schutte, H. K., Verkerke, G. J.,Veldman, A. E. P.
Numerical simulation of self-sustained oscillation of a voice-producing element based on Navier-Stokes equations and the finiteelement method
J. Acoust. Soc. Am., vol. 113, Issue 4, pp. 2077-2083, 2003[Wa1705] Wallet, R.
The Life of Dr. Robert Hooke in The Posthumous Works of Robert Hooke
London, 1705 (Faksimile-Nachdruck: Gale Ecco, 2010) [We84] Welch, T. A.
A Technique for High Performance Data Compression
IEEE Computer, vol. 17, no. 6, pp. 8-19, 1984[Wi1828] Willis, R.
On the Vowel Sounds, and on Reed Organ-Pipes
Trans. Cambridge Philosophical Society, Vol. III, p. 231, ReadNov. 24, 1828
ITERATUR
High-speed cineloop ultrasound vs. video ultrasound tongue imaging:comparison of front and back lingual gesture location and relative ti-ming
Proceedings of the Eighth International Seminar on Speech Produc-tion, Strasbourg. pp. 57-60, 2008[Ze95] Zec, D.
Sonority constraints on syllable structure
Phonology 12, pp. 85-129, 1995[Ze07] Zeng, T.
Understanding Flapping in Xiangxiang Chinese: Acoustic and Ae-rodynamic Evidence
ICPhS XVI, pp. 393-396, 2007[ZhEWT03] Zhang, Z., Espy-Wilson, C., Tiede, M.
Acoustic Modeling of American English Lateral Approximants
Eurospeech, 2003[ZhHH08] Zharkova, N., Hewlett, N., Hardcastle, W.
An Ultrasound Study of Lingual Coarticulation in Children andAdults
Proceedings of the Eighth International Seminar on Speech Produc-tion, Strasbourg, pp. 161-164, 2008Anmerkung: Die Referenzen sind bei selteneren Werken mit einer Angabezu einer Bezugmöglichkeit versehen.33
Danksagung
Die Vielseitigkeit in der Thematik dieser Arbeit, die selbst bei der Be-trachtung nur einer Schicht der Sprachentstehung verblieben ist, wäre indieser Breite und Tiefe nicht ohne ein Mitwirken vieler bewerkstelligbar ge-wesen, für das sich der Autor an dieser Stelle bedanken möchte:Der Autor dankt Herrn Prof. Lacroix für die Aufnahme in die Arbeits-gruppe und für die Betreuung der Dissertation. Für die vielzähligen kon-struktiven Gespräche und das angenehme Umfeld in der Arbeitsgruppe be-dankt sich der Autor bei den Herren Karl Schnell, Ralf Thomas Pietsch undMartin Eichler; ein besonderer Dank gilt darüber hinaus Herrn Christian Lü-ke, der für diese Arbeit den Bericht über die
Têtes Parlantes entziffert undübersetzt hat und Frau Hermine Reichau, die mit Hinweisen zur sprachüber-greifenden Grammatik zu dieser Arbeit beigetragen haben. Ebenso danktder Autor den Herrn Alexander Weber, Hals-Nasen-Ohrenklinik, JohannWolfgang Goethe-Universität, für die Unterstützung bei der Interpretati-on der Kryosektionen; Herrn Bernd Turowski für die Anfertigung des CT-Datensatzes und die Einweisung und Bereitstellung des
Easy Vision zur Ana-lyse und Aufarbeitung des Datensatzes im Institut für Neuroradiologie, Kli-nikum der Johann Wolfgang Goethe-Universität; Herrn Nasredin Abolmaalifür die Durchführung der MRT-Untersuchung im Institut für Diagnostischeund Interventionelle Radiologie, Johann Wolfgang Goethe-Universität. NM-RWin wurde freundlicherweise von Herrn Wang, Mitarbeiter des Institutsfür Computer Graphik der Fraunhofer Gesellschaft, zur Verfügung gestellt.Der Autor dankt Frau Karolina Ostapkowicz, Frau Isolde Asbeck und HerrnMartin Eichler für das Korrekturlesen der Arbeit.Für die außerhalb des wissenschaftlichen Umfeldes erhaltene Unterstüt-zung dankt der Autor Herrn Reinald Pasedag und Herrn Roland Pasedag,die ihm in ihrer Firma den Freiraum zur Vollendung diese Arbeit gegebenhaben. Ein umfassender Dank des Autors gilt seiner Familie und SandraWegener, die ihn – nicht nur während dieser Arbeit – fortwährend unter-stützt haben und den Familien von der Heyden, Wojdyno und Heine für dasmotivierende Interesse an dieser Arbeit.34
Nachtrag
Beiträge von Galen und Mersenne.
Nach dem Verfassen dieser Arbeit ist der Autor auf weitere Dokumentegestoßen, mit denen sich ein zusammenhängenderes Bild der Entwick-lungsgeschichte ergibt, und die deshalb nicht unerwähnt bleiben sollen.Bereits in der Antike hat Galen gemäß [Ba62, Ma68] den Larynx de-tailiert beschrieben und dabei ausgeführt, dass die Stimme im Kehlkopfentstehe und dafür die Glottis notwendig sei. Die Bezeichnung Glottis über-trägt Galen dabei von dem Rohrblatt-Mundstück des Blasinstruments Aulos auf das menschliche Organ aufgrund der Ähnlichkeit in der Gestalt und derUnabdingbarkeit beiderorts zur Tonentstehung. Er erkennt, dass die Stim-me durch Nerven und Muskeln gesteuert werde, die auch die Öffnung derGlottis formen und so die Tonhöhe bestimmen. Der Ton werde erst nach-folgend, vor allem durch die Zunge zur Sprache geformt. Zur Akustik indesergeben Galens überlieferte Ausführungen keine zusammenhängende Dar-stellung, die sich mit der modernen Vorstellung deckt: Er beschreibt zwarzutreffend, dass bei der Stimmentstehung die Membranen des Kehlkopfesdurch einen Luftstoß geöffnet werden können und sich dann sofort wiederschließen, aber an anderer Stelle beispielsweise, dass der knorpelige Teil derTrachea die Stimme vorbereite/hervorbrächte und zum hörbaren Anschla-gen der Luft durch die Knorpel ihre genaue Härte ganz wesentlich wäre.Als im 17. Jahrhundert Marin Mersenne zur Stimmentstehung recher-chiert, erhält er von Pierre Trichet in [Tr1631] Hinweise auf diese Untersu-chungen von Galen und auf funktionelle Ähnlichkeiten zwischen den Ele-menten des menschlichen Sprechtraktes und denen einer Orgelpfeife. ZurLokalisierung der Tonentstehung zieht Trichet einen Vergleich zwischen derLarynx und und der Stimmzunge ( languette ) einer Lingualpfeife, währender deren Resonator dann dem Mundraum zuordnet. Ein weiterer Korrespon-dent, Christophe Villiers, teilt in [Vi1633] diese Ansicht und schreibt Mer-
44. Eine weitere Untersuchung, etwa zeitgleich zu Kempelen, Mical und Kratzenstein,vgl. Abschnitt 3.1 – hier verdeutlichend, dass die Suche nach Sprechmaschinen seinerzeithalb Europa überspannt hat – stammt von Erasmus Darwin. Den daraus resultierendenAufbau, der Silben mit Plosiv, Vokal und Nasal hervorbringt, beschreibt er in [Da1803],Note XV kurz:[...]
I contrived a wooden mouth with lips of soft leather, and with a valve over theback part of it for nostrils, both which could be quickly opened or closed by the pressure ofthe fingers, the vocality was given by a silk ribbon about an inch long and a quarter of aninch wide stretched between two bits of smooth wood a little hollowed; so that when a gentlecurrent of air from bellows was blown on the edge of the ribbon, it gave an agreeable tone,as it vibrated between the wooden sides, much like a human voice. This head pronouncedthe p, b, m, and the vowel a, with so great nicety as to deceive all who heard it unseen,when it pronounced the words mama, papa, map, and pam; and had a most plaintive tone,when the lips were gradually closed. vox humana :[...] de tous les instruments nul n’aproche de si prez les organesdes la voix de l’homme que l’orgue qui a, ce semble, les soufletspour poulmon, le porte-vent pour trachea artere, et pour le larinx,glotte, epiglotte et cavité depuis iceux jusqu’au palais, le tuyau del’orgue et ses partyes, en sorte mesme que de cette analogie, jeconclurois l’orgue plus antienne que pas un autre instrument,n’ayant esté fait sur d’autre prototype que celuy des partyes de-diees à la voix humaine.Marin Mersenne greift Galens Untersuchungen in Teilen auf und stelltsie im Jahr 1636 in [Me1636] anderen Überlegungen gegenüber. Dabeifavorisiert Mersenne die Rohrblattpfeifen-Analogie zur Sprachschallentste-hung, da bei einer Rohrblattpfeife nur durch Veränderung der Stimmungder große Grundfrequenzbereich der menschlichen Stimme realisiert werdenkann. Ein weiteres Argument für die Analogie sieht er in der klanglichenÄhnlichkeit der Stimme zu dem auf Rohrblattpfeifen basierenden Orgelregi-ster vox humana . Er schließt in Proposition XVI dann, dass die Luft von denSchwingungen des Rohrblattes bzw. der Glottis bewegt werde, und folglichdie Glottisschwingung[sfrequenz] der Tonhöhe entspreche: Il faut donc conclurre que l’air ou le vent doit trembler, ou semouuoir autant de fois que la chorde d’vn Luth, ou la languettedu larynx ou des flustes, pour faire vn bruit Vnisson à laditechorde, & consequemment que la petit tambour, c’est à dire lamembrane de l’oreille, doit estre frappé autant de fois par sortesde bruits Vnissions.
Im Geist des Experimentalismus und der beginnenden Aufklärung un-tersucht Mersenne in [Me1635], Propositio XXXVI, wie sich aus dem Tonder Rohrblattpfeifen [die Klänge der verschiedenen] Vokale formen lassen.Basierend auf Analysen der Zungen- und Lippenstellung beim Sprechen vonVokalen bildet er an einer Pfeife die Artikulatoren mit den Händen nach.Damit gelingt es ihm, den Laut e der vox humana in die Laute u, indem
45. Von Hippokrates, Aristoteles und weitern, s. a. [Li1846], wie dem Vergleich desSprechtrakts mit einer Flöte, bei dem die Trachea dem Resonator und der Larynx demMundstück entsprechen sollen, vielleicht motiviert durch die Beobachtung, dass ein großerMann (im Mittel) tiefer spricht als ein kleines Kind. Mersenne entzog dabei dem Vergleichjegliche Plausibilität, da für die Tonhöhenunterschiede eines Sprechers von mehreren Ok-taven keine entsprechende Längenveränderung der Trachea denkbar ist.46. Die Glottisschwingung wurde knapp 100 Jahre später erneut von Denis Dodartund kurz darauf von Antoine Ferrein untersucht, und häufig wird ihnen die Entdeckungzugeschrieben. Einzig Ferrein zieht wie Mersenne einen Vergleich zwischen Stimmlippenund Saiteninstrumenten und hebt dann darüber hinaus hervor, dass die Spannung derStimmlippen maßgeblich für die Tonhöhe ist, vgl. [Fe1741, Ke1791, Ge94]. Ein Jahrhundert später fasst Leonhard Euler in seinen
Lettres à uneprincesse d’Allemagne sur divers sujets de physique et de philosophie dendamaligen Kenntnisstand auf diesen Gebieten zusammen. Der 137. Briefwidmet sich dem Schall und der Sprachentstehung. Euler führt aus, dass dieVokale „a, e, i, o, u“ nur durch unterschiedliche Gestalt der Mundhöhlungartikuliert werden und erklärt die Bedeutung der Nasaltrakts für die Nasalem und n. Der Brief schließt mit der wiederum auf das Orgelregister voxhumana gestützten Überlegung, dass die Konstruktion einer des Sprechensmächtigen Maschine möglich und bewundernswert wäre.Nach Eulers Rückkehr zur Sankt Petersburger Akademie wurde dort dieBestätigung der Vokalartikulation mit einem Preisgeld ausgelobt, und wiein Abschnitt 3.1 ausgeführt, von Kratzenstein erneut nachgewiesen.
47. Dies zu realisieren gelang im gewissen Umfang Ende des 18. Jahrhunderts AbbéMical mit seinen tetes parlantes , s. S. 14.48. Friederike Charlotte von Brandenburg-Schwedt
ITERATUR
Literatur [Ba62] Baumgarten, H.
Ueber die Stimme; Testimonien der verlorenen Schrift Peri phones
Göttingen, 1962[Da1803] Dawin E.
The Temple of Nature
London, 1803[Fe1741] Ferrein, A.
De la formation de la voix de l’homme
Histoire de l’Académie royale des sciences, Paris, 1741[Li1846] Liskovius, C. F. S.
Physiologie der menschlichen Stimme: für Aerzte und Nichtärzte
Leipzig, 1846[Ma68] May, M. T.
Galen On the Usefulness of the Parts of the Body
Ithaca, New York, 1968[Me1635] Mersenne, M.
Harmonicorum libri , Paris, 1635
Übersetzt in Harmonie Universelle, The Books on Instruments, Chapman,R. E., Den Haag, 1957 [Me1636] Mersenne, M.
Harmonie universelle , Paris, 1636
Übersetzt in Traitez de la Voix, et des Chantes, LeRoy, E., New York, 1978(erhältlich in der New York Public Library) [Tr1631] Trichet, P.
Pierre Trichet, à Bordeaux, à Mersenne, à Paris, 9. janvier 1631 in [dWTR69], S. 1-5[Vi1633] Villiers, Ch. de Villiers, à Sens, à Mersenne, à Paris (mi-novembre 1633) in [dWTR69], S. 538-551[dWTR69] de Waard, C., Tannery, P., Rochot, B.