クラウドサービス大手4社の日本語音声認識

Cloud4社の音声認識サービスについて、調査してみた

世界的に有名なクラウド大手各社AWS , Google Cloud Platform(GCP) , Azure , IBM Watsonの4社は、AIの研究開発にも力を入れており、トップクラスの技術力を持っている。
各社はその裏側で培ったそれらのAI技術をクラウドサービスの一環として、ユーザーにAPIでの利用を可能としている。
その中でも、今回我々は音声認識サービスに着目した。
音声認識は、研究の段階から一部の携帯電話での実装などを経て、スマートフォンの普及とともに、多くの人の手元にある当たり前のものとして、身近なものとなった。音声認識の普及に伴い、スマートフォン以外でも利用可能なデバイスが増え、スマートスピーカー・スマートウォッチ・カーナビなど、利用範囲が拡大を続けている。近年では、AmazonのAlexa・GoogleのGoogle Echo・LINEのClovaなど、スマートスピーカーが普及に向けて競い合っている。
そういった中、今回のコラムでは、それらの中でも代表的な4社のサービス状況と精度について検証してみた。

各社音声認識サービス状況

今回は4社の内Speech To Textが日本語対応しているAPIについて、男女4人の音声を録音し、下記の文章について、日本語音声の認識精度の比較を行った。

認識対象の文章(句読点については考慮しないものとする)

「デジタルトランスフォーメーションとは、クラウド、ビッグデータ、ソーシャル、モビリティーといった第3のプラットフォームを活用して、新しい製品やサービス、新しいビジネスモデルを通じて価値を創造することです。これらのテクノロジーを活用することによって情報技術と現実を融合し、新たな顧客体験を提供することで、競争優位性を獲得します。」

結果は男女4人について、一番認識精度の悪かった結果と良かった結果を載せ、認識文字数で評価します。

GCP

良かった例(男性2,女性1・2)
デジタルトランスフォーメーションとは、クラウド、ビッグデータ、ソーシャル、モビリティーといった第3のプラットフォームを活用して、新しい製品やサービス、新しいビジネスモデルを通じて価値を創造することですこれらのテクノロジーを活用することによって情報技術と現実を融合し、新たな顧客体験を提供することで、競争優位性を獲得します

悪かった例(男性1)
デジタルトランスフォーメーションとはクラウドビッグデータソーシャルモビリティといった第3のプラットフォームを活用して新しい製品やサービス新しいビジネスモデルを通じて価値を創造することですこれらのテクノロジーを活用することによって情報技術と現実を融合し新たな穴体験を提供することで競争優位性を獲得します

上記を見る限り、かなり精度が高く検出できていた。

IBM Watson

良かった例(男性1・2,女性2)
デジタル トランス フォーメーション とは クラウド ビック データ ソーシャル モビリティー と いった 第三 の プラットホーム を 活用 して 新しい 製品 や サービス 新しい ビジネス モデル を 通じて 価値 を 創造 する こと です
これら の テクノロジー を 活用 する こと に よって 情報 技術 と 現実 を 融合 して 新たな 顧客 体験 を 提供 する こと で 競争 優位性 を 獲得 します

悪かった例(女性1)
ディジタル Transformations とは クラウド ビック データ ソーシャル 帯 リッキー と いった 第三 の プラットホーム を 活用 して 新しい 製品 や サービス 新しい ビジネス モデル を 通じて 価値 を 創造 する こと です
これら の テクノロジー を 活用 する こと に よって 情報 技術 と 現実 を 融合 し 新たな 顧客 体験 を 提供 する こと で 競争 優位性 を 獲得 します

カタカナ英語を英単語として捉えてしまうなど、日本語認識でとらえると、悪かった例のような結果となった。

Azure

良かった例(男性1・2)
デジタルトランスフォーメーションとはクラウドビッグデータソーシャルをビリティーといった。第三のプラットフォームを活用して新しい製品やサービス、新しいビジネスモデルを通じて価値を創造することです。これらのテクノロジーを活用することによって情報技術と現実を融合し、新たな顧客体験を提供する。ことで競争優位性を獲得します。

悪かった例(女性2)
デジタルトランスフォーメーションとはクラウドビッグデータソーシャル mobility といった。第三のプラットフォームを活用して。新しい製品やサービス、新しいビジネスモデルを通じて価値を創造することです。これらのテクノロジーを活用することによって情報技術と現実を融合し、新たな顧客体験を提供することで競争優位性を獲得します。

句読点などの文章の切れ目を認識するのが苦手な印象を受けた。
またカタカナ英語を英単語として捉えてしまう傾向がAzureでも見られた。

まとめ

今回代表的な4社のサービスについて比較を行った。AWSでは、日本語対応が行われていない。(2019年8月時点)そのため、今回は3社の比較を行った。今回の比較検証の結果、3社ともかなり精度が高いレベルで認識できることが分かった。また男女の声による差異は見受けられなかった。サンプルが少ないことや話者の発音不良が含まれることが考えられるため、今回の結果のみで断定することはできないが、カタカナ英語の部分についてはGCPの方に分があるものの、精度という点ではAzureが一番良い結果となった。