DIVX テックブログ

catch-img

【AWS】TranscribeとComprehendで遊んでみた


目次[非表示]

  1. 1.はじめに
  2. 2.AWSのAI/MLサービス
    1. 2.1.Amazon Transcribe
    2. 2.2.Amazon Comprehend
  3. 3.遊んでみる
  4. 4.結果
    1. 4.1.① 社内実施の自己紹介
    2. 4.2.② 社内実施のMTG
    3. 4.3.③ youtubeのアニメ
    4. 4.4.④ youtubeの映画紹介
  5. 5.感想・まとめ
  6. 6.おわりに

はじめに

こんにちは。株式会社divxの久米です。

私事ですが、先日、AWS認定のAWS Certified Machine Learning - Specialty(MLS)を取得しました。

私はG検定を取得していたため、基礎的な機械学習の概念など、共通した部分は、復習のような感じでした。 しかし、AWSのAI/MLサービスの内容は、新しく知る内容が多くとても面白かったです。

特に、簡単かつ、AIの知識なしで利用できるサービスは、実際に使ってみたいと思いました。

そこで、この記事では、試験内容の一部であるAWSのAIサービス(TranscribeとComprehend)を、実際に使ってみようと思います。

AWSのAI/MLサービス

この記事では、TranscribeとComprehendを取り上げますが、AWSにはたくさんのAI/MLサービスがあります。

以下の公式ページで、サービス一覧がまとめられており、その他のAI/MLサービスを把握できます。

  機械学習(ML) - ユースケース別クラウドソリューション | AWS Amazon Machine Learning では機械学習を簡単に利用できます。ウィザードを使用してモデルを作成し、Amazon Redshift や Amazon S3、Amazon RDS for MySQL に格納されたデータを学習に利用し、予測を行うことができます。 Amazon Web Services, Inc.

Amazon Transcribe

Amazon Transcribeは、音声データをテキストデータに自動的に変換するサービスです。その特徴を、コンソール画面と紐付けながら紹介します。

データの形式は、MP3、MP4、WAV、FLAC、AMR、OGG、WebMが利用できる(音声及び動画が選択可能)

・複数の言語に対応しており、もちろん、日本語にも対応している

Amazon Transcribe


・話者の識別ができる

Amazon Transcribe


・プライバシーに関わるキーワード(アドレスや電話番号など)をマスキングできる

Amazon Transcribe


Amazon Comprehend

Amazom Comprehendは、テキストから価値あるインサイトを自動抽出するサービスです。

価値あるインサイトとは、エンティティ(人や場所など)、キーフレーズ、文章の感情(肯定的か否定的か)、構文解析などがあります。

以下の公式ページで、抽出できる情報を確認できます。

  インサイト - Amazon Comprehend Amazon Comprehend では、1 つまたは複数のドキュメントを分析して、そのドキュメントに関するインサイトを収集できます。Amazon Comprehend がドキュメントについて開発する洞察には、次のようなものがあります。 https://docs.aws.amazon.com/ja_jp/comprehend/latest/dg/concepts-insights.html


コンソールでは、以下の箇所で、どの価値あるインサイトを抽出するか、設定できます。


インサイト

遊んでみる

今回は、オプションを設定せずに、どれくらいの精度が出るのか、確認してみたいと思います。
Comprehendでは、エンティティとキーフレーズの抽出をします。

確認に利用したデータは、以下の4種類です。

① 社内実施の自己紹介
② 社内実施のMTG
③ youtubeのアニメ
④ youtubeの映画紹介

結果

まず、各データに対するTranscribeとComprehendの精度を、表で示します。


① 社内実施の自己紹介

② 社内実施のMTG

③ youtubeのアニメ

④ youtubeの映画紹介

Transcribe

×

Comprehend

×

次に、各データに対する結果を、実際に抽出した文字列を使って紹介したいところですが、データの特性上、詳しく書けない部分なので、簡単な具体例や結果に対する所感をまとめたいと思います。

① 社内実施の自己紹介

  • ポジティブなところ
    • 自己紹介の内容が分かる精度で文字起こしできている
    • 人名の認識が正しくできている(「本田圭佑」「石原さとみ」など)
    • 地名の認識が正しくできている(「長野県長野市」「神奈川県厚木市」など)
    • その人を表すキーフレーズ抽出など、使いみちはありそう
  • ネガティブなところ
    • しゃべるとき特有の「あー」「えー」「まあ」などの文言もそのまま文字起こしされている
    • 「プロフィール」が「プロフィル」と認識されている
    • エンティティやキーフレーズは、不要な抽出結果が多い(「方」「これ」「ところ」など)

② 社内実施のMTG

  • ポジティブなところ
    • 人名の認識ができている
  • ネガティブなところ
    • MTGの内容が理解できない精度の文字起こしとなっている
    • 会話のスピードが早かったり、ぼそぼそ話したりすると精度が顕著に落ちるのは残念
    • TranscribeとComprehendの組み合わせで、自動的に議事録作れたら楽しそうだったけど、難しそう

③ youtubeのアニメ

  • ポジティブなところ
    • キーフレーズを見れば、何のアニメか分かりそう(「海賊」「海軍」「キャラクターの名前」など)
  • ネガティブなところ
    • キャラクターなどのアニメ特有の固有名詞は、間違った認識をする時がある
    • アニメは動画で伝わる情報が多いため、文字情報だけで理解するには、少し無理があった

④ youtubeの映画紹介

  • ポジティブなところ
    • 映画のタイトルや紹介内容が分かる精度で文字起こしできている(「ショーシャンクの空に」「主人公アンディ」など)
    • 文字情報だけですべてを伝えているyoutube動画は、TranscribeとComprehendで大枠の情報が取得可能な気がする
  • ネガティブなところ
    • 映画のタイトルは、エンティティとして取得してほしかったが、精度が悪い

感想・まとめ

TranscribeもComprehendも、当初の想像より高い精度で驚きました。

コンソール上の簡単な操作で高い精度が出るので、AIに詳しくない人でも簡単にAIを利用できそうです。

加えて、話者の識別や語句のマスキングを組み合わせると、更に色々な場面で活用できるのではないかと思えました。
また、今回は、AWSマネジメントコンソール上で、ポチポチ触りましたが、TranscribeとComprehendは、どちらもSDKが用意されています。

SDKを使えば、AIに詳しくない開発者でも、文字起こしなどを、簡単にシステムに組み込むことができそうです。

今後、他のAWSのAIサービスも、触ってみたいと思います。

おわりに

DIVXでは一緒に働ける仲間を募集しています。
興味があるかたはぜひ採用ページを御覧ください。

  採用情報 | 株式会社divx(ディブエックス) 可能性を広げる転職を。DIVXの採用情報ページです。 株式会社divx(ディブエックス)



お気軽にご相談ください


ご不明な点はお気軽に
お問い合わせください

サービス資料や
お役立ち資料はこちら

DIVXブログ

テックブログ タグ一覧

採用ブログ タグ一覧

人気記事ランキング

GoTopイメージ