発音された単語の平均と変化

発音された単語の平均と変化

私は言語学を勉強しており、平均文の長さとその平均がどれだけ変化するかを計算しようとしています。一行に一文だけ残そうとします。

たとえば、

La dernière fois qu'on, la dernière fois on l'a pas fait

単語は14個で、文ごとに平均7個の単語で構成されており、偏差は(7-13)^2/2 + 36/2 = 36で非常に高いです。

ここに画像の説明を入力してください。

私はgeditコマンドを使って過去に行ったことをコピーしました。たとえば、ファイルの先頭は次のようになりますphrasesAntoine

Allumlalum ...エラル...

Allume sinon sinon non, mais au moins pour verifier.

シルク

La dernière fois qu'on, la dernière fois on l'a pas fait

Les amis j'vous présente Bob, Bob le gri-gri.

友達、こんにちは

Tianshi、Gil GrigriにはLe GrigriとLe Parlerがあります。

これは仮釈放です。

私は2つ…

私はテキストファイルの各行を配列に配置して長さを特定し、平均と分散、またはこの分散を見つけるためのアイデアを見つけるためのスクリプトを探しています。実際、「Qu'est-ce que c'est」は6つの単語に分けられます。スペースまたは'または-

私の心に最初に浮かぶのは次のとおりです。

file wc -l >stat

各行についてこの情報を取得するには、スクリプトが初めてです。次に、calculator統計を変数のパラメータとして使用して、呼び出される別のファイルを作成することを考えました$file

file
int number_of_phrases = $file wc -l;
int mean = /*number of words divided by number of phrases*/
int sum = 0;
int variance =0 ;
for i=0 to number_of_phrases{
    /* here is the calculation of xi-m
    sum = sum + (number of words at line i divided - mean)^2*/
}
variance = sum/number_of_phrase

それが私の最善の推測だ。より良い考えがありますか?

ベストアンサー1

真珠おそらくこの種の仕事に最適な言語でしょう。 Perlのシニア著者、ラリーウォールはUnixプログラマーであり、言語学者であり、言語は言語学への彼の​​関心を強く反映しています。数え切れないほど多いperl基準寸法言語処理および単純テキスト処理に使用されます。

例えば、言語::文perl段落を文章に分けるモジュールです。そして他の多くのLingua::モジュール。実際、Lingua::Sentenceそして関連モジュール今やっている作業、つまりテキストの統計的分析(この場合ヨーロッパの友人コーパス、欧州議会議事録から抜粋)

たとえば、Lingua::Sentence各段落を文に分割し、各文の単語数を計算し、その数を配列に保存してから、配列に対して必要な統計分析を実行できます。

Perlには統計分析のための多くのモジュールもあり、次の場所でも見つけることができます。CPAN(Integrated Perl Archive Network)または生データをファイルに出力して使用できます。または他の統計ツール。

おすすめ記事