スマートフォンやAIスピーカーなど音声認識は日常生活の様々なシーンで活用されています。特に近年では、AIの進歩によってより便利な音声認識システムが開発されており、多くの企業で導入されているのです。
本記事ではAIによる音声認識の代表的な活用事例を10社ご紹介しますので、音声認識システムの使い方の参考としてお役立てください。また音声認識の仕組みも詳しく解説しますので、システムについて深く理解できるでしょう。
音声認識とは
音声認識とは、人が発言した音声を解析してテキスト化する技術を指します。代表的な例として、スマートフォンおよびAIスピーカーの音声入力機能や接客業における翻訳会話ディスプレイが挙げられます。
通常の音声認識では発言した内容を機械的に解析するため、細かいニュアンスまでは拾いきれません。そこで音声認識システムでは、自然言語処理という日常会話をシステムに理解させる仕組みを併用して、人が行う自然な会話に対応しているのです。
音声認識の仕組み
音声認識は、以下の4つの流れで実行されます。
①音響分析
②音響モデル
③言語モデル
④テキスト出力
音声認識におけるそれぞれの仕組みについて詳しく解説します。
音響分析
まずは入力された音声のデータ化からスタートします。一般的には、音声を定量化した「特微量」と呼ばれる数値に変換します。音響分析とは、このように音声をAIが認識しやすい特微量に変換する仕組みを指します。
音響分析では、音声の周波数や強弱、間隔などのアナログ情報を抽出します。これらの情報をデジタル信号に変換することで、システムが処理しやすいデータに加工するのです。
音響モデル
次に、音響分析で抽出された特微量を音素と照合します。音素とは、日本語や英語など意味を持つ様々な言語を形成する最小単位の音を指します。
音声認識システムでは音素と学習パターンを照らし合わせて、特徴が近い音素を抽出していきます。音声認識における学習パターンでは何千人もの音声が統計処理されたデータが利用されていますが、学習パターンのデータ量や処理方法が音声認識システムの出来を左右するといってよいでしょう。
特微量との整合率を計算したのちに、適切と思われる文字が出力されるのです。
言語モデル
言語モデルとは、発音辞書で特定した単語と使われる頻度を照合して、よく使われる文章に変換される仕組みを指します。発音辞典とは発音と単語をそれぞれ組み合わせて入力されたデータベースであり、発音辞典から解析された音素と単語をマッチングさせて人に通じる言葉に変換します。
翻訳会話などに使われる音声認識システムでは、様々な言語におけるテキストを統計処理した膨大なデータの言語モデルが採用されているのです。
発音辞書
発音辞書は、音響モデルと言語モデルを結びつけるために役立ちます。音響モデルで解析された音素を意味が通じる言語として構成する過程において、単語を構成するデータベースとなっています。
発音辞書はこのようにして、人が理解できる言葉として抽出する言語モデルを構築しているのです。
言語モデルの主な種類
言語モデルには、主に以下の2つの種類が採用されています。
・隠れマルコフモデル
・N-gram
それぞれの言語モデルについて詳しく解説します。
隠れマルコフモデル
隠れマルコフモデルとは、現在の状態から確率にもとづいて次の状態を予測するモデルを指します。例えば、「太郎は~」という単語が入力された状態から、次にどのような単語が続くのか確率的に定義していきます。このとき「友達と遊びに行った」「家で勉強している」などが続く確率は高いですが、「山で修業をしている」といったと続くケースは非常に低いでしょう。
隠れマルコフモデルでは、このように確率の高い単語を予測して文章を構成していくのです。
N-gram
N-gramとは、文章においてn個(文字や単語が成立するレベルで分けた任意の数)の連続する単位を指します。例えば、「次郎は公園に行った」という文章が音響モデルによって抽出された場合には、「次郎 は 公園 に 行 った」というように文字や単語が区切られます。
このケースではn=3となり、与えられた文章には以下の4つの3-gramが含まれることになります。
次郎 は 公園
は 公園 に
公園 に 行
に 行 った
N-gramはこのように文章を分解することで、曖昧性を解消します。先ほどの文章では、公園は「こうえん」と読む講演や公演などの頻出語句に変換されることもありえますが、「次郎は野球の練習で公園に行った」というような文章の場合には「こうえん」という音声の直前に出てきた2つの単語を考慮します。「練習 で」から「こうえん」は公園が適切だと判断して、文章を正確化するのです。
テキスト出力
以上の過程を経て、入力された音声が日本語などの言語における自然な文字列でテキストとして出力されます。
音声認識システムを導入すれば、声を紙で書き起こしたり翻訳したりする必要がなくなりますので、議事録の自動作成や接客業における翻訳などで広く使われているのです。
またコールセンターでも顧客からの連絡内容を単純に記録するだけでなく、テキストに自動主力することもできますので役立っています。中には音声データからピックアップすべき点を自動的に抽出する製品もありますので、通話対応が主要業務の一つである企業で採用されているケースも多く見られます。
AIによる音声認識の活用事例10選
近年では、AIを使ったより便利な音声認識システムを導入している企業が多く見られます。その中でも代表的な活用事例を10社ご紹介します。
- ニチアスウレタン株式会社:検査時間の33%削減と紙使用量の大幅削減
- 東急リゾーツ&ステイ株式会社:接客の意思疎通を円滑化
- 茨城県:聴覚に障害がある職員の働きやすい環境の整備
- 岐阜県関自動車学校株式会社:電話応対業務の効率化・省人化
- 野村不動産株式会社:スムーズな顧客対応と業務負荷軽減
- ジョルダン株式会社:経路検索の簡略化
- KDDI株式会社:お客さま満足度向上
- みずほ証券株式会社:通話モニタリング業務の効率化・高度化
- 東京ガス株式会社:コールセンターの業務効率化
- オリックス自動車株式会社:窓口業務の省人化
それぞれの活用事例について詳しく解説します。
ニチアスウレタン株式会社:検査時間の33%削減と紙使用量の大幅削減
ニチアスウレタン株式会社は、極低温用の断熱材を専門とする製造会社です。品質管理の効率化やDX化を進めるために、「AmiVoice Keyboard」を導入しました。
以前は検査における手書き作業や記録をExcelに転記する業務にかなりの時間や手間をかけていましたが、「AmiVoice Keyboard」の導入によって検査時間が33%削減できました。また手書き作業に使っていた紙の使用量も大幅に削減され、保管スペースの縮小にもつながったのです。
現在では検査場にノートPCを持っていって、機器で検査した数値を声で入力したのちに、『次・右』と発話して次の検査結果を入れるようになっています。また「AmiVoice Keyboard」は耐雑音性に優れていることから、検査場でもスムーズな音声入力が可能である点も役立っています。
このような高い利便性から、今後は他製品での利用や福岡工場への展開などの活用を検討しています。
参考:音声入力で検査効率を約33%向上。工数削減と誤記入防止で品質管理を強化
東急リゾーツ&ステイ株式会社:接客の意思疎通を円滑化
東急リゾーツ&ステイ株式会社は主にシティホテルやラグジュアリーホテルなどの宿泊施設を運営しており、リゾート体験などのサービスも提供しています。同社では、2023年11月からリアルタイム翻訳機能を持つ「YYSystem」を東急ステイ銀座で試験運用を始めました。
22ヶ国もの言語をリアルタイムに文字起こしできる機能によって、外国人宿泊客とスタッフがスムーズにコミュニケーションがとれるようになり、接客の意思疎通を円滑化に成功しました。またよく使うフレーズや部屋の紹介などホテル業界ならではのカスタマイズができる機能も活用されています。
このような実績から、2024年3月18日から「YYSystem」が東急ステイの全店舗に順次導入されています。
参考:アイシンの音声認識システム「YYSystem」、東急ステイ全店舗に導入
-ホテル業界初採用で、接客の意思疎通を円滑に-
茨城県:聴覚に障害がある職員の働きやすい環境の整備
茨城県では、聴覚に障害がある職員の働きやすい環境を整備するためにAI音声認識サービス「VUEVO」を導入したことを2024年8月29日に発表しました。「VUEVO」では、ワイヤレスマイクとアプリを使って「誰が」「何を」話したかの会話内容をリアルタイムで可視化できる特徴があり、複数人でも相手を判別して会話を行えます。
またAIを活用した会議の自動要約機能や23ヶ国語の翻訳機能を搭載していることから、業務における活用も検討しています。
参考:茨城ベンチャートライアル優良商品等創出事業者認定制度を活用し、 ピクシーダストテクノロジーズ社「VUEVO(ビューボ)」を導入しました
岐阜県関自動車学校株式会社:電話応対業務の効率化・省人化
岐阜県関自動車学校株式会社とは、岐阜県関市にある自動車教習所です。年間3,500人もの高齢者に対して講習を行っていますが、受付を電話のみで行っていたため応対業務にかなりのリソースが割かれていたのです。また中には電話に時間がかかるケースもあり、担当者だけでなく指導員まで対応しなければなりませんでした。
そこで会話をスムーズに行って内容をデータ化できるcommuboを導入したところ、遅めの会話で手続きが進められるため高齢者も利用しやすくなり、指導員が本来の業務に集中できるようになって電話応対業務の効率化・省人化につながったのです。
今後はDX化をさらに進めていき、コミュニケーションを自動化するためにアプリやチャットの活用も検討しています。また将来的には申し込みの電話もボイスボットによる対応を目指しています。
参考:プッシュボタンの課題を乗り越え、長時間の電話応対を自動化へ
野村不動産株式会社:業務負荷軽減とスムーズな顧客対応
野村不動産株式会社はマンションや戸建ての売買、土地活用など不動産を総合的に扱う企業であり、顧客対応の改善や現場の作業負荷軽減を目指してDX化を推進しています。その一環として、内覧会を電子化するために2022年から高精度の音声認識システムである「AmiVoice スーパーインスペクションプラットフォーム(SIP)」を導入しました。
従来の内覧会ではキズや汚れ、設備の不具合などが見つかった場合には担当者が手書きで記録していました。しかし、紙の媒体で記録を保管しており、指摘事項も内容によって伝えるべき協力会社が異なるため、共有が遅れがちだったのです。
しかし、内覧会にSIPを導入したことから指摘事項は音声入力でスムーズに記録できるようになり、記載漏れなどの人為的ミスもなくなりました。また指摘事項ごとに該当する協力会社も自動で入力されるため、業務削減につながったのです。
さらに指摘事項や該当箇所の画像はクラウドでリアルタイムに共有できるため、短時間で必要な対応を完了させられるようになりました。そのため、迅速な作業によるスムーズな顧客対応も実現できたのです。
今後は内覧会だけでなく、社内の部署や支店での積極的な利用も推進していく予定です。
参考:クラウド上でのデータ共有で
内覧状況をいつでもどこでも確認可能に。
スムーズな顧客対応と業務負荷軽減を実現
ジョルダン株式会社:経路検索の簡略化
ジョルダン株式会社は鉄道やバスなどの経路検索、運賃計算を行うソフトウェアである「乗換案内」を提供している会社であり、関連サービスとして同システムのアプリでの運用や旅行計画のサポートも行っています。また自社が開発した経路検索アプリ「乗換案内」において、AI音声入力による経路検索を2024年5月20日から開始しました。
以前は音声による入力は出発地と目的地のみでしたが、AI音声入力の導入によって日時や交通手段にも対応できるようになりました。さらに日常会話のような感覚に近い音声入力で経路検索がスムーズに行えるようになり、経路検索の簡略化を実現したのです。
ジョルダン株式会社では、「乗換案内」サービスをより一層充実させることを目指しています。
参考:「今日、渋谷に夕方5時!」で経路検索
「AI音声入力 乗換案内」を北九州高専との共同研究にて提供
KDDI株式会社:お客さま満足度向上
KDDI株式会社とは固定電話や携帯電話などの通信事業を営んでいる会社であり、2023年4月3日からお客さまセンターの自動音声応答(IVR)システムにおいて、音声認識機能の導入を開始しました。
従来のIVRシステムでは、お客さまが音声ガイダンスの案内にしたがってプッシュ操作からコミュニケーターにつないでいましたが、「音声ガイダンスが長い」「わかりづらい」などの要望からシステムの刷新を決定しました。
そこで本機能の導入によって、一部の項目においてはお客さまの問い合わせ内容を音声から判別し、自動的にその内容に合ったコミュニケーターに振り分けられるようになりました。そのため音声ガイダンスを聞いたりプッシュ操作したりする手間がなくなり、お客さまの満足度向上につながったと思われます。
今後はAIによる自動案内の対象項目を拡大する予定であり、電話のコミュニケーター以外にもウェブやチャットなどへの誘導も行うことを検討しています。
みずほ証券株式会社:通話モニタリング業務の効率化・高度化
みずほ証券株式会社では株式や債券、投資信託など様々な金融商品を取り扱っており、顧客への手厚いサポート体制から通話による株価・指数等の照会を24時間年中無休で行っています。そこで通話モニタリング業務の効率化・高度化を実現するために、音声認識技術とAIを組み合わせたシステムを開発し、2017 年11 月から本格稼働を始めました。
以前から顧客との通話内容をモニタリングしていましたが、本システムの音声認識技術によって通話内容をテキスト化することができ、AIによる分析から重要なポイントを抽出できるようになりました。そして実証実験の結果、業務時間の大幅な短縮に成功したことから正式稼働に至ったのです。
みずほ証券株式会社は音声認識技術やAIなどの先進的な技術を活用して、顧客サービスの充実を図ることを表明しています。
参考:顧客サービス向上に向けた音声認識技術と人工知能を
活用した新たなシステムを導入
東京ガス株式会社:コールセンターの業務効率化
東京ガス株式会社は都市ガスや電力の供給事業を手掛けるインフラ系企業であり、事業を展開するために都市ガスにおける営業エリアの拡大だけでなく、発電などにも使う用途拡充を行っています。しかし事業拡大によって、コールセンターの対応が複雑化する課題を抱えていたのです。またオペレーターが顧客との会話内容を手入力で検索して必要な情報を検索していたことから、顧客対応時における情報検索の遅延などの課題もありました。
この事態を解決するためにAIによる音声認識を連携させた結果、会話内容をAIに判断させられるようになって必要な情報を自動的に見つけられるようになりました。さらにオペレーターの応答時間を平均10秒短縮したり、年1万1,000時間の応対時間削減に成功したりするなどコールセンターの業務効率化を実現できたのです。
将来的にはテンプレート的なお問い合わせに対してはAIが対応して、オペレーターはより詳細な業務に専念できる職場環境を目指しています。またAIに関しても、現場の意見を取り入れながら検索精度の向上や独自機能の追加などを検討しています。
オリックス自動車株式会社:窓口業務の省人化
オリックス自動車株式会社は自動車のリースやレンタカーサービスを提供する企業であり、2024年4月26日に音声翻訳ディスプレイである「VoiceBiz® UCDisplay®」をオリックスレンタカー新千歳空港店と美栄橋駅前店に試験導入を開始することを発表しました。レンタカー業界はアフターコロナにおける需要回復や円安によって外国人旅行客の利用が急増していましたが、窓口業務における翻訳対応が困難である課題を抱えていたのです。
そこで「VoiceBiz® UCDisplay®」を導入したところ、高い精度の翻訳機能によって音声やキーボードによるコミュニケーションができるようになり、窓口業務の省人化を実現しました。試験結果によっては、「VoiceBiz® UCDisplay®」の多店舗への展開などさらなる利用が期待されるでしょう。
参考:全国のレンタカー店舗で初
13言語対応ディスプレイを受付窓口へ試験導入
~自動翻訳で外国人旅行客などへ質の高いサービス提供を~
まとめ
音声認識はスマートフォンやAIスピーカーなど身近に使われている技術であり、AIの発展によって会話内容の自動データ化や多言語翻訳なども行えるようになっています。これらの幅広い機能から様々な業種の企業で活用されており、今後もさらなる利用方法の拡大が期待されています。
しかし、音声認識AIはいざ導入しようと思っても、専門的な知識やノウハウが必要であることからハードルが高くなっています。そのようなときには、ぜひ音声認識システムの専門家が在籍しているエッジワークにご連絡ください。
導入を検討する目的や解決したい課題などをヒアリングした上で、最適な音声認識AIを提案いたします。音声認識AIの導入でお困りの際には、どのようなお悩みでも丁寧にお聞きして解決するための方法をお伝えしますので、WEBサイトやお問い合わせフォーム、お電話からいつでもご相談ください。
副業社員・フリーランスなどのスポットワーカーにプロジェクト単位でタスクを依頼・発注できるプロ人材活用サービス