オーディオファイル/ストリーム内のコンテンツを検索するにはどうすればいいですか? [closed] 質問する

オーディオファイル/ストリーム内のコンテンツを検索するにはどうすればいいですか? [closed] 質問する

テキストの検索、画像の検索、さらにはビデオの検索に、どれほど多くの異なる検索技術が存在するのか、私はいつも疑問に思っていました。

しかし、オーディオ ファイル内のコンテンツを検索するソリューションに出会ったことはありません。

例えば:mp3、wav、ogg ファイルの形式で約 200 個のポッドキャストを PC にダウンロードしたとします。それらはすべて、podcast1.mp3、podcast2.mp3 など、一般的な名前が付けられています。したがって、実際に聞かなければ、内容を知ることはできません。たとえば、どのポッドキャストが「ゲーム プログラミング」について話しているのかを知りたいとします。結果は次のように表示したいとします。

  • Podcast1.mp3 - 時間インデックスで 3 件の結果 - 0:16:21、0:43:45、1:12:31
  • Podcast21.ogg - 時刻インデックスで 1 件の結果 - 0:12:01

私の質問は次のとおりです:

  • この問題にはどのようにアプローチすればよいでしょうか?
  • このようなことを行うために開発された適切なアルゴリズムはありますか?

私の頭に浮かんだアイデアの 1 つは、「音声テキスト変換」ソフトウェアを使用して、各オーディオ ファイルのトランスクリプトと時間インデックスを取得し、トランスクリプトを解析して出力を取得するというものでした。

私はこれを趣味のプロジェクトの一つとして考えていました。ありがとうございます!

ベストアンサー1

オーディオ ストリーム内のテキスト (つまり、話されている内容) を検索する場合は、何らかの音声認識アルゴリズムを使用して処理し、テキストをファイルに関連付けられたメタデータとして保存する必要があります。ビデオの場合は、ビデオ内のテキストのテキスト認識を行うこともできます。エバーノート画像ファイル内のテキストに対してはすでにこの機能が使用されていますが、私の知る限り、オーディオはサポートされていません。

オーディオを使用してオーディオを検索する場合にも同様のことが可能になります。これらのアルゴリズムの詳細はわかりませんが、何らかの周波数分析が含まれていると推測しています。シャザムこの種の技術を使用して、オーディオクリップに基づいて曲を識別します。

役に立つかもしれない Wikipedia の記事をいくつか紹介します。

おすすめ記事