文字おこしをするために、Amazon Transcribeを使ってみた【使い方あり】

齊藤弘樹 written 3年 ago

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので十分ご注意ください。

いまやWeb会議は当たり前の時代ですよね。ビデオチャットツールには音声・映像録画機能がついていて、音声録音を議事録の作成のために使っている方もいるかと思います。

音声を聞きながら一から文字おこしするのは、正直辛いですよね。

文字おこしを少しでも楽にするために、"Amazon Transcribe"を使ってみませんか。今回の記事では、"Amazon Transcribe"の使い方を簡単に紹介します。

Amazon Transcribeを使って、文字おこししてみる

■前提

Amazon Transcribeを使って文字おこしするためには、音声元データを保存するS3バケットが必要です。S3バケットを作成し、任意のフォルダに音声データをアップロードしておいてください。

■トランスクリプションジョブ作成

音声データをAmazon Transcribeを使って、文字おこししてみます。

↓サービス検索画面で[Amazon Transcribe]と検索します。

↓[Amazon Transcribe]のコンソール画面で、[トランスクリプションジョブを作成]をクリックします。

↓[ジョブの詳細を指定]の[ジョブ設定]で、以下の設定値を入力します。

項目	設定値
名前	任意
言語設定	特定の言語
言語	日本語、日本(ja-JP)
モデルタイプ	一般的なモデル

↓[入力データ]の[S3 での入力ファイルの保存場所]で、でも、音声データを保存している場所を指定します。フォルダをクリックして、任意のファイルまで行きましょう。

↓

↓[出力データ]の[出力データの場所のタイプに関する情報]で、[お客様が指定した S3 バケット]を選択します。[S3 上の出力ファイルの宛先]は任意のバケットフォルダをしてしてください。

他はデフォルトで、[次へ]をクリックしてください。

↓今回は文字起こしが目的ですので、オプション設定ができる[ジョブを設定]はデフォルトのまま、[ジョブを作成]を押します。

↓作成直後はステータスが[進行中]となっています。

↓試しに17分の音声データを使ってみたところ、作成～作成完了まで4分ほどで文字起こしが完了しました。

■動作確認

出力データの中身を見てみましょう。

出力先を指定した場合はS3バケットから、出力先を指定しなかった場合はトランスクリプションジョブのプレビューから確認できます。

↓まずS3バケットに出力されたjsonファイルを見てみましょう。

見にくいですね。

↓[トランスクリプションのプレビュー]で見てみると、

見やすいですね。

誤字はしょうがありませんが、無事に文字起こしはできているようです。今回の構築は以上です。

■比較？

わたしはスマートフォン「Google Pixel 6a」を愛用していて、今回の音声データも「Google Pixel 6a」にデフォルトでインストールされているアプリ"サウンドレコーダー"を使用して録音しました。

サウンドレコーダーにも文字おこし機能が付いていて、文字おこしの結果を見てみると、

・・・

や、やるじゃん・・・

で、でも、"Amazon Transcribe"は多数の言語に対応していて、音声認識モデルも継続的に改善されていますからね！S3と組み合わせれば、顧客にドキュメントを自動で連携できますし！

まとめ:文字おこしをするために、Amazon Transcribeを使ってみた【使い方あり】

"Amazon Transcribe"は文字おこしができるサービスだと知ってはいましたが、今まで使ったことがありませんでした。

音声をテキストに起こすだけなら、複雑な設定をせずに使うことができます。

しかし、"Amazon Transcribe"を使うなら文字起こしだけではなく、他のサービスと組み合わせて使うのがいいかもしれません。

参考リンク:AWS公式webサイト
　

↓ほかの協栄情報メンバーも"Amazon Transcribe"に関する記事を公開しています。ぜひ参考にしてみてください。

■Amazon Transcribeで個人情報を自動差し替えできるように(dapeng)
https://cloud5.jp/amazon-transcribe/

■面倒な議事録をAWS Transcribeを利用した自動文字起こしの構築(INAMURA)
https://cloud5.jp/aws-transcribe_hands-on/