マイクでの音声ではなく、ネット上の音声や音声データの文字起こしをする機会がありますが、音声の文字起こしは、専用のアプリケーションを使うのが一般的です。
こういったアプリケーションは、無料で使えるお試し期間がありますが、それ以降は有料になります。
ところが、とあるドライバーと、ドキュメントソフトを連携させると、完全無料での文字起こしは可能です。
文字起こしの仕組み
文字起こしの仕組みはmp3などの音声ファイルを再生し、それをソフトが解析して文字に変換します。
mp3というパソコン上で出力されるデータを、アプリケーションソフト内部でどんな言葉なのかを判断し、文字として見える化します。
パソコンから出ている音声は、操作する人間はスピーカーを通して聞いていますが、データとしてパソコン内で拾い(録音する)、それを文字として表示させることになります。
見える化するドキュメントソフトとは?
音声を文字として見える化させるために、Googleドキュメントを使用します。意外でしたか?
MacにもドキュメントソフトとしてPagesがあります。音声を文字変換できる便利なソフトではありますが、マイクでMacに入力した音声を文字変換するので、パソコン内部の音声を文字変換することはできないようです。
Googleドキュメントのツールバーにあるツールから、音声入力というのがあるのでこれを利用します。マイク入力による文字起こしなら、これひとつでOK。
内部音声を拾うドライバ
次に、mp3やYouTubeなどの内部音声を拾うために、専用のドライバ(デバイス)が必要になります。それはBlackHoleというドライバです。
ネット上の音声や、mp3のような音声はパソコンのスピーカーから出てきますが、データとして保存するには、こういったドライバーが必要になります。
そして、データ入力する音声を私たちが、耳で聞き分けなければわかりませんので、音源の同時出力ということをします。
つまり、もともとあるスピーカーからの出力ドライバに加え、データとして保存(出力)するためのドライバ、この2つを組み合わせる、音源ミキサーというソフトをインストールすることになります。
ドライバとソフトのインストール
内部音声を保存するドライバBlackHoleはこちらのURLからダウンロードします。
https://existential.audio/blackhole/
チャンネルがいくつかあり、ドキュメントでの録音は16chが必要になります。
このBlackHoleというドライバはMacで使用する仮想オーディオデバイスで、Soundflowerというものもありますが、M1モデルのMacには使用できないため、これを利用します。
インストールしたあと、アプリケーションフォルダにあるユーティリティの中のAUDIO MIDI設定でセッティングします。
インストールや設定方法はこちらで詳しく説明しておりますので、合わせてご覧ください。

文字を起こしてみる
Googleドキュメントのツールバーのツールに、音声入力というコマンドがあります。
これをクリックすると左側にマイクのアイコンが出てきますので、音声を出した状態でクリックします。
そうすると、マイクのアイコンが赤に代わり、音声を認識します。それと同時にドキュメントに文字が入力されていきます。
クリアな音声であれば、うまく文字起こしをしていってくれますが、聞き取りにくい音声だったり、雑音が入った音声であれば、誤字、脱字が発生します。
これは専用のアプリケーションでも言えることで、音声を認識しながら文字に変換していくので、100%完璧に文字起こしできるわでけではないようです。
しかし、95%前後の確率で文字を認識してくれるので、専用のアプリケーションと遜色ないレベルで文字起こしができます。
注意点
Googleドキュメントだと、完全無料で文字起こしができますが、私が使っている分には、5分程度で音声入力が止まってしまいます。
私の使い道としては、Spotifyのポッドキャストを文字起こししており、10分程度のポッドキャストを文字起こしするときは、数回にわけています。
この記事のように改行をしてくれるわけではありませんので、自分で見やすく改行しなければいけないのは、仕方のないところです。笑
しかし、話し手の話し方によって、句読点や空白を入れてくれるので、Googleドキュメントはなかなか優秀な文字起こしツールだと思います。
コメント