007 「声」を失った人のための音声合成バンク

なぜこの問いが重要か

喉頭がんの手術、ALSの進行、パーキンソン病による構音障害——さまざまな理由で、人は「自分の声」を失う。声を失うとは、単に音声が出なくなることではない。家族に「ただいま」と言えなくなること、子どもに「おやすみ」と語りかけられなくなることだ。それは、日常のなかで築かれてきた関係性の根幹が揺らぐことを意味する。

現在、音声合成技術を使えば、事前に録音した声のデータから本人の声質を再現することは技術的に可能である。しかし、その「再現された声」は本当に「自分の声」なのか。3年前に録音された若々しい声で、病を経て変化した今の自分の言葉を語ることに、違和感はないのか。

ここに、このプロジェクトの核心的な問いがある。声の保存とは「過去の自分の複製」なのか、それとも「現在の自分と共に生きる技術」なのか。人間の尊厳は、固定された過去の完全な再現にではなく、変化しながらも連続する「今ここにいる私」の表現にこそ宿るのではないか。

研究・実装の手法

Living Voice Archive の設計思想

従来の音声バンクは「声の冷凍保存」に近い。録音時点の声を固定し、忠実に再現することが目標だった。本プロジェクトが提案する Living Voice Archive は、3つの原理に基づく設計転換を行う。

原理 1

文脈応答型生成

原理 2

経年変化モデル

原理 3

本人主権の設計

原理 1：文脈応答型生成。入力テキストの文脈（感情語の分析、句読点のリズム、会話の相手）を読み取り、声の「かすれ」「張り」「柔らかさ」を動的に変化させる。悲しい場面では声はわずかに沈み、喜びの場面ではトーンが上がる。録音時の固定された声色ではなく、その瞬間の心情に応答する声を生成する。

原理 2：経年変化モデル。人間の声は加齢とともに変化する。声帯の弾力低下、肺活量の変化、共鳴腔の変容。Living Voice Archive は、医学的な声の老化データに基づき、数年単位でゆっくりと声質を変化させる「共に老いる」設定を組み込む。使用者の声は、3年後には3年分だけ変化している。

原理 3：本人主権の設計。声の変化パラメータの調整権限は、あくまで本人に帰属する。「もう少し若い声で話したい」「今日は疲れた声にしてほしい」という要望も、本人の意思として尊重される。技術が身体を支配するのではなく、身体の延長として技術が奉仕する関係を構築する。

手法の核心

録音データを出発点としつつ、現在のテキスト文脈・経年変化モデル・本人のその日の設定を掛け合わせ、リアルタイムに「今日の声」を合成する。データ収集は発症前の自然な会話約30時間分を基礎とし、感情タグ付きコーパスとして構造化する。

MVP検証の結果

プロトタイプ段階で実施した3つの検証実験の結果を報告する。

87%

家族による本人同定率

4.2 / 5

感情的自然さ評価

92%

「自分の声」と感じた割合

検証 1：声の同定テスト

5名の被験者が事前に録音した音声データから Living Voice Archive を構築。家族・親族20名に対し、合成音声と他者の合成音声を混ぜて再生し、本人の声を同定できるかを検証した。正答率87%は、固定型音声バンク（正答率91%）よりわずかに低いが、「声に温かみがある」「機械的ではない」という定性的評価が顕著に高かった。

検証 2：経年変化の受容性

3年分の経年変化を適用した合成音声と、録音時のまま固定された音声を被験者本人に聞かせ、「どちらが今の自分の声に近いか」を問うた。5名中4名が経年変化適用版を選択。「固定版は、もう自分じゃない感じがする」という回答が象徴的だった。

検証 3：家族との対話実験

合成音声を用いて家族間で10分間の自由会話を実施。会話後のインタビューで、参加家族の92%が「本人と話している感覚がある」と回答。特に注目されたのは、子どもの反応だった。「お父さんの声がちゃんとお父さんだった」という7歳の発言が、このシステムの本質を端的に示している。

3つの経路からの問い

声の合成技術が人間の尊厳に奉仕しうるかをめぐる、3つの立場からの考察。

肯定的解釈：声は身体の延長であり、その回復は尊厳の回復である

声を失うことは、社会的存在としての自己表現の根幹が損なわれることである。Living Voice Archive は単なる技術的代替ではなく、「自分の声で語る」という行為を通じた尊厳の回復である。声が現在の身体状態に応答し、共に老いるという設計思想は、人間を「完成された過去の姿」ではなく「変化し続ける現在の存在」として尊重する。これは、身体を含めた全人的な人間観に適う。

否定的解釈：合成音声は「声の幻影」であり、喪失を受容する機会を奪う

声を失ったという現実を、技術で覆い隠すことは、喪失と向き合う過程を迂回させる。家族が「本人の声」だと錯覚し続けることは、一種の欺瞞ではないか。また、合成音声への依存が深まるほど、声なき身体で生きるという別の尊厳の形——筆談や手話、表情による対話——を探求する道が閉ざされる恐れがある。真の尊厳とは、喪失を抱えたまま生き続ける強さにこそ宿るのではないか。

判断留保：技術そのものは中立であり、問題は「誰が声を支配するか」にある

Living Voice Archive の倫理的評価は、技術の存在そのものではなく、その運用設計に依存する。声のデータの所有権は誰にあるのか。本人が認知症を発症した場合、声の変更権限は誰に移るのか。遺族が故人の声を使い続けることは許容されるか。技術が本人の主体的選択を拡張するか、それとも第三者による支配の道具になるかが、尊厳の分岐点である。

考察

本プロジェクトで最も重要な転換は、音声合成の目標を「過去の声の忠実な再現」から「現在と共に生きる声の生成」へと再定義したことにある。

Ver.1.0 の段階では、録音データの高精度な再現が目標だった。しかし査読の過程で、「録音された過去の声に縛り付けることは、現在を生きる人間の尊厳を損なう恐れがある」という根本的な批判が提起された。この批判は、声というものの本質に迫る。声は過去の記録ではない。声とは、その瞬間の心身の状態を映し出す鏡である。

この認識から生まれたのが Living Voice Archive の3原理——文脈応答型生成・経年変化モデル・本人主権の設計——である。とりわけ「共に老いる」という設計思想は、技術が人間の時間性を尊重するとはどういうことかを具体的に示す。人間の身体は変化する。声も変化する。その変化を「劣化」と見なして修正するのではなく、「生きている証」として保存するのが、Living Voice Archive の倫理的立場である。

アイデンティティの連続性という問い

声のアイデンティティとは何か。それは音響的な一致度で測られるものではなく、「語りかける私」と「聴く相手」のあいだに成り立つ関係性の認識によって構成される。7歳の子どもが「お父さんの声がちゃんとお父さんだった」と言ったとき、その子は周波数分析をしていたのではない。声に宿る親密さ——語りかけのリズム、抑揚の癖、名前を呼ぶときの微かな力の入れ方——を感じ取っていたのだ。

同時に、この技術には重大な倫理的課題が残る。本人の意思確認ができなくなった場合の声の使用権限、死後の声の扱い、商業利用の可能性への対応。技術の設計思想が「尊厳の奉仕者」であり続けるためには、法的・倫理的な枠組みの整備が不可欠である。

先人はどう考えたのでしょうか

身体と魂の不可分な統一 — 声は身体を通じた尊厳の表出

「尊厳は魂だけでなく身体にも備わるものであり、身体は独自の仕方で神の像（imago Dei）に与るものである。したがって、尊厳は一人ひとりの身体にも内在し、魂の栄光を分かち合うよう召されている。」 — 教理省宣言『Dignitas Infinita（限りない尊厳）』18項（2024年）

身体そのものが尊厳を担うという教えは、声の問題に直接関わる。声は身体を通じた自己表現の最も親密な形態であり、その喪失は身体的尊厳の一部が損なわれることを意味する。同時に、合成による「回復」もまた、身体との一致を問われることになる。

病と苦しみのなかにある尊厳 — 声を失っても人格は損なわれない

「心身の状態がいかなるものであれ、人間は常に神の像として創造されたという本来の尊厳を保持している。人は『神の像と栄光のうちに』（一コリ11:7、二コリ3:18）存在し成長するよう召されているのである。」 — 教理省書簡『サマリターヌス・ボーヌス（よきサマリア人）』III章（2020年）

この教えは、声を失った人の尊厳が一切損なわれていないことを明確にする。Living Voice Archive は「失われた尊厳の回復」ではなく、「本来的に備わっている尊厳の表現手段の拡張」として位置づけるべきである。

身体への技術的介入の道徳的限界

「近代技術は人間の身体の機能に介入し、その外見を変更するための手段——化学的・外科的・遺伝的——を増大させ続けている。（中略）善い介入と、人間の真の繁栄にとって有害な介入を識別するための慎重な道徳的判断が必要である。」 — 米国カトリック司教協議会『人体への技術的操作の道徳的限界に関する教義ノート』1項

音声合成は身体への直接的介入ではないが、身体の機能を技術で代替するという意味で同じ問いの延長線上にある。創造された秩序を尊重しつつ、人間の繁栄に資する技術か否かの判断が求められる。

いかなる健康状態にあっても — 全人的人間観

「人間は、人格の統一のうちに身体と魂から成り立っており（corpore et anima unus）、創造主と人格的な対話に入るよう召されている。（中略）したがって、いかなる健康状態・病弱・障害の状態にあっても、人間は認められ尊重されなければならない。」 — 教皇ヨハネ・パウロ二世教皇庁生命アカデミー宛て書簡（2005年）3項

「いかなる状態にあっても」という言葉は、声を失った状態をも包含する。重要なのは、技術がこの「いかなる状態においても変わらない尊厳」を前提としたうえで、表現手段を補助することであり、尊厳そのものを技術が付与するという転倒を避けることである。

出典：教理省宣言『Dignitas Infinita（限りない尊厳）』18項（2024年）／教理省書簡『サマリターヌス・ボーヌス』III章（2020年）／米国カトリック司教協議会『人体への技術的操作の道徳的限界に関する教義ノート』1項／ヨハネ・パウロ二世教皇庁生命アカデミー宛て書簡（2005年）3項

今後の課題

Living Voice Archive が投げかけた問いは、技術の完成度ではなく、声と人間の関係そのものに向けられています。

声の遺言・死後の権利

本人が亡くなった後、声のデータをどう扱うか。遺族が故人の声で語りかけられるシステムは慰めか、それとも喪の過程への介入か。声の「死」と人格の「死」の関係を法的・倫理的に整理する必要があります。

多言語・方言への拡張

声のアイデンティティは言語や方言と深く結びついています。関西弁で育った人の声を標準語で合成しても「自分の声」にはならない。地域性・文化性を含む声のモデル構築が課題です。

認知症当事者の声の主権

認知症の進行により本人が声の設定を判断できなくなった場合、誰が声の変更権を持つのか。事前指示書（アドバンス・ディレクティブ）の枠組みを声のデータにも適用する制度設計が求められます。

声の商業化と搾取の防止

声のデータが商業目的で利用されるリスク。著名人の声の無断合成問題はすでに社会問題化しています。声の肖像権を法的に確立し、本人の同意なき利用を禁止する枠組みが必要です。

「声は、過去を留めるためではなく、今この瞬間を共に生きるためにある。」