StandFM #040 より「音声の切り抜きは、テキストである」【音声配信をテキストで残すべき理由】

この記事は、ドーナツ部長のホールナイトニッポン「#040 AIで音声を記事化！『音声は、ドキュメントにして残す方がいいと思う』」の内容を、自動化ツールを組み合わせてテキスト化したものです。テキスト化に際して、一部言い回しのカットや、文末の変更と要約を行っています。

※今回は、StandFMの「AI記事作成機能」を使って、テキスト化を実施しています。
比較のため、「AI記事機能」だけを使ったアウトプットと、今回の記事作成にあたり、手作業で修正したテキストを並べて下記に格納しています。（下記画像をクリックすると、格納先へ飛べます）

イントロダクション

ドーナツ部長のホールナイトニッポン、40回目の放送となります。今日はですね、StandFMの方で、7月10日に公式から「note」が出されていました。音声放送をAIが文字起こしをして、記事にする「AI記事機能」がリリースされました、という内容でしたね。

これについて、「どんな機能なのか？」という簡単な紹介と、実際に使ってみた感想。そして、私が今取り組んでいる「読むアーカイブス」との絡みについてお話をしたいと思います。

本編➀「StandFMの新しい機能について」

StandFMの公式から、7月10日18時に「note」が公開されていました。何かというと…「新しい機能」がスタンドFMでリリースされますよ、というご案内ですね。どういう機能なのか、ざっくりと説明します。

放送内容を、AIが認識をして文字へ変換します。…といっても、単純な文字起こしではなく、記事まで作成してくれる、というサービスなんですね。これまでもですね、スタンドFMというと、テキストから自動でAIが読み上げる、「AI読み上げ機能」というのをリリースしていたんですね。私の方でも、38回目の放送で、AIの「テキスト読み上げ機能」というものを使って、自分とですね、AIとで対話をするような形で、放送を進めていったという、ちょっと異色の回がありました。今回は、その逆ですよね。過去の音声から記事を作成してくれるという、そういう機能になるわけです。

本編➁「なぜ、音声→テキストなのか？」

なぜStandFMが、こういう機能を出してきたかというと、これも「至極当然」だと思うんですね。

皆さんもVoicyですとか、このstandFMでね、たくさんの方の配信を聞いていると思うんです。聞いていると分かると思うんですが、過去の放送回、特に「いついつの、あの放送を聞きたい！」となった場合に、非常に探しにくいんです。これは、音声メディアの性質なのかもしれないんですけど。もっと言えば…YouTubeやブログといった映像や文字のメディアと違って、「過去の、この放送を聞きたい！」というのが、よほどのことがない限り、そもそも発生しない。私がこの1年以上、2年ぐらいですね、音声メディアを聞き続けてきて思っていることが、これなんですね。一言で言うなら、「音声メディアというのは、アーカイブ的な側面が非常に弱い」ということが言えるんじゃないかなと思います。

ですから、毎日定期的に配信をしている方であれば、あるほど。テキストに残したいというのは、至極当然のことなんですよね。

本編➂「目で見る／耳で聞くことの違い」

普通にですね…例えば、音声で発信した内容を手打ちで文字に起こしていくというのは、ちょっとナンセンス。あまりにも時間がかかりますから。そういう背景があって、私が6月27日から始めたのが、StandFMの「過去の放送回」を、読めるようにブログの記事にまとめているんですね。「読むアーカイブス」という名前です。

いち放送回を、1つの記事にしているんです。過去の放送を遡りながら、すでにいくつかの記事を書いています。これを始めた理由というのも「読むアーカイブス」を始めた経緯のところへ、記載をしているんですけれども。

※コチラの記事をご覧ください。　

: StandFM #036 より「いい音声配信は、読んでも面白い。読むスタンドFM誕生！」
今回は「OpenAI API」を使ったテキスト化に挑戦！あれ、今までとは違う仕組み？実はいま…音声のテキスト化の新しい仕組みを導入しようか…検討中です。なぜ、そう考えるのか…？そのことを知るた ...

「音声というものは、実はアーカイブには不向き」という、個人的な考えがあります。つまり、文字に起こすことでダイジェスト的に情報を見ることができる。映像で言うところの、ザッピングですね。音声というのはどうしてもね、「ながら見」に向いていない。パーッと本を見ながら、ページを見ていって、「ここを見たい！」と思うことって、結構あると思うんです。瞬間で目に入るキーワードや単語、何となくこう言っているんだろうな、みたいな文の塊が見えたりするじゃないですか。音声って、そういうのが、ないんですよね。基本的に、全部聞かなきゃいけない。そして、もしそういうのがあるとするなら、放送を何回も聞き込んでいて、どこで何を言うかが分かっている状態じゃないと、そういう聞き方は難しい。「目で見る」のと「耳で聞く」ことの違いなんだと思います。

そういったこともあって、音声の弱点というか、「音声の性質」ですよね。この部分を補うために、アーカイブに向いているメディアとは何か？…と考えたときに、やっぱりこの日々情報をまとめている、Webサイトに載せるのが一番いいだろうということで。この「読むアーカイブス」というのを、始めたわけなんです。つまり…このStandFMのプラットフォームがAIを使って記事を作り上げます、というサービスを出す前から、私自身はこういったことをやっていたんですね。

本編➃「過去の配信をテキスト化する重要性」

音声配信をやられている方には、過去の自分の配信の中でも「重要な回」っていくつかあると思うんです。もちろん、全部重要だという方も。そういったものっていうのは、どんな形であれ、テキストにして残しておく方が、個人的にはいいんじゃないかなと思います。

これは、ブログなどの情報メディアを持ってない方にも当てはまります。YouTubeの「切り抜き」ってありますよね。長い映像のダイジェストって、結構需要があるんですよね。もしも、音声メディアに「切り抜き」があるとしたら…。私は、「音声の切り抜き」っていうのは、いわゆる「テキスト」だと思っていて。自分の音声の過去の放送の切り抜きとして、テキストに起こしたものを、抜粋してTweetする。こんなこともできると思います。

実は、ここ数日。音声で話した大事な部分っていうのを、「読むアーカイブス」から切り抜いて、Tweetしてみたり。そういったことも、やっていたりするんですね。反響の方も、そこそこいいんです。反応してくれる方が、元の音声を聞いてくれているかどうか…は一旦置いといて、こういうことを発信してるんだなっていうのは、なんとなく。普段聞いてない方にも、届いてるんじゃないかな…と個人的には思いますね。

本編➄「StandFMのAI記事機能をつかってみた」

StandFMがやっている「AI記事機能」というのを、今回実際に使ってみました。使い方については、公式の「note」に公開されているので、そちらを見ていただきたいんですけど。パソコンの方からしか、まだ使えないみたいですね。

パソコンから過去の放送回を編集する「放送の編集」というボタンがあるんですけど。「放送の編集」を選択して、編集画面の下に「記事を作成する」というボタンが出ていると思うんですよね。そこを押すと、音声からテキストが出来上がって、恐らくは「話す間」であるとか、「最初の音声の話し始め」みたいなところを見出しにして、記事を起こしてくれるんです。

もう少し詳しく見てみると、毎月60分までは無料で使えるようです。例えば、15分の放送をされている方であれば、4回分は無料で使えて、無料額を超えた分については、1分あたりの課金制ということですね。今回は、実際に過去の放送を題材に記事を作成をしてみたんですけれども。

結果、どういう感じだったかというと、感想としては、「結構使えそう」というものでした。記事には見出しがつくんですけども、先ほど言ったように、間であるとか、冒頭のトピックスとして話している内容が見出しに使われるんじゃないかな…というのが私の仮説ですね。肝心の精度については、手入力での修正がかなり必要になるかな…というところ。実際にこのまま公開することは、ほぼ不可能じゃないかなと思います。

私の音声配信が元になっているので、当然配信者の滑舌だったりとか話すスピードにもよると思うんですけど。おそらくこの感じであれば、どんな方がやっても、そのまま記事にできるようなレベルではないかな…という印象ですね。記事を公開作成する機能には、フィードバックフォームがついているんですね。そこで、AIの出力結果どうだったか？というのを、お返しできるんです。また、テキストの編集機能もついているわけです。AIが作った記事を、手入力で修正する。そんなインターフェースもついていて、恐らくここで加えた修正というものを、今後のAIの学習に使うんじゃないかな…ということが見て取れますよね。なので、まだまだこれから、精度といったものは向上していくものと思われます。

以上、私が過去の放送を題材に使ってみた感想です。個人的にこれは今後も使うかどうかというと、一旦精度の問題は置いておきます。というのもまだまだ、これから発展する可能性が十分あるのと、このサービス自体に伸びしろがあるので、そこを比較するのはちょっとかわいそうかなと思いますね。

本編➅「AI記事機能の拡張性について」

実際に使ってみると…一つですね、重大な機能が頭に浮かぶわけですね。それは何かというと、今回はテキストを「記事に起こす」のであって、単純な文字起こしではない、というのがウリなんです。出来上がるのが、テキストのメディアであると捉えると…図を入れたりとか、こんな画像を入れたいという、そういった要望が非常に重要になってくるわけですね。

例えば…ブログのような「見出し付きの段落」ですとか、ボックスといったものまで。最低でも、グラフだったり図っていうものは、ちょっと欲しいんじゃないかなと思います。やっぱり、テキストだけ並んでいては、ノートチックな感じになってしまうので。

今だと…記事というよりは、ノートに近いでしょうか。そういう、印象を受けました。

エンディング

弱みやウィークポイントというものは、なかなか払拭することはできないと思います。プラットフォーム側で検索機能や、アーカイブにも強い機能を実装しない限りは、音声をアーカイブ的に聞くというのは不可能かなというのが、私の感想です。というわけで、本日の放送は以上となります。ご清聴ありがとうございました。チャンネル登録よろしくお願いします。