Linuxに役立つ音声認識ソフトウェアはありますか？

Question

ワスク

20以上の言語をサポートしています。

Ubuntu 23.10でインストールソフトウェアと英語版をテストします。

pipx install vosk
mkdir -p ~/var/lib/vosk
cd ~/var/lib/vosk
wget https://alphacephei.com/vosk/models/vosk-model-en-us-0.22.zip
unzip vosk-model-en-us-0.22.zip
cd -

その後、次のように使用されます。

wget -O think.ogg https://upload.wikimedia.org/wikipedia/commons/4/49/Think_Thomas_J_Watson_Sr.ogg
vosk-transcriber -m ~/var/lib/vosk/vosk-model-en-us-0.22 -i think.ogg -o think.srt -t srt

test.wavケース分析

リポジトリに提供された例は、test.wav完璧なアメリカ英語イントネーションと完璧な音声品質で3つの文章を言います。

one zero zero zero one
nine oh two one oh
zero one eight zero three

「九ああ二つああ」は早く言ったが、まだ明確だった。最後の「0」の前の「z」は少し「s」のように聞こえます。

上記で作成されたSRTの内容は次のとおりです。

1
00:00:00,870 --> 00:00:02,610
what zero zero zero one

2
00:00:03,930 --> 00:00:04,950
no no to uno

3
00:00:06,240 --> 00:00:08,010
cyril one eight zero three

したがって、我々はいくつかの間違いがあったことがわかります。おそらく部分的には、すべての単語が私たちを助ける数字であることを知っているからです。

vosk-model-en-us-aspire-0.2次に、1.4GBファイルのダウンロードも試みましたが、ダウンロードしたファイルは36MBでしたvosk-model-small-en-us-0.3。https://alphacephei.com/vosk/models:

mv model model.vosk-model-small-en-us-0.3
wget https://alphacephei.com/vosk/models/vosk-model-en-us-aspire-0.2.zip
unzip vosk-model-en-us-aspire-0.2.zip
mv vosk-model-en-us-aspire-0.2 model

結果:

1
00:00:00,840 --> 00:00:02,610
one zero zero zero one

2
00:00:04,026 --> 00:00:04,980
i know what you window

3
00:00:06,270 --> 00:00:07,980
serial one eight zero three

別の言葉が正しいです。

IBM「考える」スピーチのケーススタディ

今楽しく遊ぼう~からhttps://en.wikipedia.org/wiki/Think_(IBM)（米国のパブリックドメイン）：

wget https://upload.wikimedia.org/wikipedia/commons/4/49/Think_Thomas_J_Watson_Sr.ogg
ffmpeg -i Think_Thomas_J_Watson_Sr.ogg -ar 16000 -ac 1 think.wav
time python3 ./test_srt.py think.wav > think.srt

音質が悪く、当時の技術によりマイクでヒースが多く発生します。しかし、スピーチは非常に明確で中断されました。録音時間は28秒、wavファイルサイズは900KBです。

変換には32秒かかりました。最初の3つの文の出力例：

1
00:00:00,299 --> 00:00:01,650
and we must study

2
00:00:02,761 --> 00:00:05,549
reading listening name scott

3
00:00:06,300 --> 00:00:08,820
observing and thank you

そして同じクリップのウィキペディアのコピー内容は次のとおりです。

1
00:00:00,518 --> 00:00:02,513
And we must study

2
00:00:02,613 --> 00:00:08,492
through reading, listening, discussing, observing, and thinking.

「私たちは月に行くことにしました」ケーススタディ

https://en.wikipedia.org/wiki/We_choose_to_go_to_the_Moon(公共の場所)

わかりました、興味深いものです。オーディオ品質は良好で、時には観客の歓声が聞こえ、会場で若干の響きが聞こえます。

wget -O moon.ogv https://upload.wikimedia.org/wikipedia/commons/1/16/President_Kennedy%27s_Speech_at_Rice_University.ogv
ffmpeg -i moon.ogv -ss 09:12 -to 09:29 -q:a 0 -map a -ar 16000 -ac 1 moon.wav
time python3 ./test_srt.py moon.wav > moon.srt

オーディオ持続時間：17秒、wavファイルサイズ532K、変換時間22秒、出力：

1
00:00:01,410 --> 00:00:16,800
私たちは今月10年間、月に行って別のことをすることにしました。それは簡単だからではなく、難しいからです。なぜなら、この目標は組織にとって有益であり、私たちの最善を測定することです。エネルギーと技術

そして対応ウィキペディアのタイトル:

89
00:09:06,310 --> 00:09:18,900
We choose to go to the moon in this decade and do the other things,

90
00:09:18,900 --> 00:09:22,550
not because they are easy, but because they are hard,

91
00:09:22,550 --> 00:09:30,000
because that goal will serve to organize and measure the best of our energies and skills,

「the」と句読点が欠けている点だけを除けば完璧です！

vosk-api 7af3e9a334fbb9557f2a41b97ba77b9745e120b3、Ubuntu 20.04でテストされました。Lenovo ThinkPad P51。

この回答は以下に基づいています。https://askubuntu.com/a/423849/52975著者：Nikolay Shmyrev、私は補足しました。

NERDディクテーション（VOSK-APIを使用）

https://github.com/ideasman42/nerd-dictationまた見なさい:https://unix.stackexchange.com/a/651454/32558

ベンチマーク

https://github.com/Picovoice/speech-to-text-benchmarkいくつかは次のように言及されています。

VOSKと他のソフトウェアの結果を実行/検索するのは興味深いでしょう。

関連:

https://askubuntu.com/questions/161515/speech-recognition-app-to-convert-mp3-voice-to-text

Answer 1