Project Euler による速度比較: C vs Python vs Erlang vs Haskell 質問する

Question

x86_64 Core2 Duo (2.5GHz) マシンで、、GHC 7.0.3を使用してgcc 4.4.6、Haskell の場合は、およびC の場合は、を使用してコンパイルします。Linux 2.6.29ghc -O2 -fllvm -fforce-recompgcc -O3 -lm

C ルーチンは 8.4 秒で実行されます (おそらくのせいで、実行時間よりも速いです-O3)
Haskellソリューションは36秒で実行されます（-O2フラグのため）
あなたのfactorCount'コードは明示的に型指定されておらず、デフォルトでになっていますInteger（ここでの私の誤診を訂正してくれたダニエルに感謝します！）。明示的な型シグネチャ（とにかく標準的な方法）を使用するとInt、時間が11.1秒に変わります。
では、factorCount'不必要にを呼び出していますfromIntegral。ただし、修正しても何も変わりません (コンパイラは賢いので、幸運です)。
modより高速かつ十分な場所を使用しましたrem。これにより、時間が8.5 秒に変更されます。
factorCount'常に変化しない 2 つの追加引数 ( number、sqrt) を適用します。ワーカー/ラッパー変換により次のようになります。

 $ time ./so
 842161320  

 real    0m7.954s  
 user    0m7.944s  
 sys     0m0.004s

そうです、7.95 秒です。Cソリューションよりも一貫して 0.5 秒高速です。-fllvmフラグがなくてもを取得できる8.182 secondsので、この場合も NCG バックエンドはうまく機能しています。

結論: Haskell は素晴らしい。

結果のコード

factorCount number = factorCount' number isquare 1 0 - (fromEnum $ square == fromIntegral isquare)
    where square = sqrt $ fromIntegral number
          isquare = floor square

factorCount' :: Int -> Int -> Int -> Int -> Int
factorCount' number sqrt candidate0 count0 = go candidate0 count0
  where
  go candidate count
    | candidate > sqrt = count
    | number `rem` candidate == 0 = go (candidate + 1) (count + 2)
    | otherwise = go (candidate + 1) count

nextTriangle index triangle
    | factorCount triangle > 1000 = triangle
    | otherwise = nextTriangle (index + 1) (triangle + index + 1)

main = print $ nextTriangle 1 1

編集：それではここまで説明してきたので、質問にお答えしましょう

質問 1: erlang、python、haskell は、任意の長さの整数を使用することで速度が低下しますか、それとも値が MAXINT 未満である限り速度は低下しませんか?

Haskell では、を使用するとIntegerよりも遅くなりますIntが、どの程度遅くなるかは実行される計算によって異なります。幸い (64 ビットマシンの場合) で十分です。移植性のために、おそらく私のコードをまたはIntを使用するように書き直す必要があります( を持つ言語は C だけではありません)。Int64Word64long

質問 2: Haskell はなぜこんなに遅いのでしょうか? ブレーキをオフにするコンパイラフラグがあるのでしょうか、それとも私の実装の問題なのでしょうか? (Haskell は私にとって 7 つの封印がされた本なので、後者である可能性が非常に高いです。)

質問 3: 要素を決定する方法を変えずに、これらの実装を最適化する方法について、ヒントを教えていただけますか? あらゆる方法での最適化: より良く、より速く、より言語に「ネイティブ」な最適化。

それが私が上で答えたことです。答えは

0) 最適化を使用する-O2
1) 可能な場合は高速な（特にunbox可能な）型を使用する
2) rem（mod忘れられがちな最適化）
3) ワーカー/ラッパー変換 (おそらく最も一般的な最適化)。

質問 4: 機能実装では LCO が許可され、呼び出しスタックに不要なフレームが追加されないようにしていますか?

はい、それは問題ではありませんでした。素晴らしい仕事でしたし、この点を考慮していただいて嬉しいです。

Answer 1