Java用サポートベクターマシン？質問する

Question

あなたが説明している「スマートモニター」は、まさに時系列分類です。

分類アルゴリズムは多数あります。基本的に、それらはすべて、行が観測値、列が観測値を説明する「特徴」である行列と、値が 0 または 1 である長さ行のラベルベクトルを取ります。問題では、観測値は 1 分間のサンプルである可能性があり、ラベルベクトルは、パフォーマンスの問題が発生している期間では 1 に、それ以外の場合は 0 に設定されます。

この定義には、各観測値が秒、分、時間など均等に定義されるように、データを再サンプリングする（必要に応じてモード/中央値/平均を使用）必要があることが暗黙的に含まれています。

特徴を生成することが非常に重要な部分です。私はおそらく2つの特徴から始めるでしょう。生の値そして（かつて）差分値観測値 x_i と x_i-1 の間。これらを 2 の遅延で定義します。技術的には、これは 4 つの機能になります。各機能は将来を予測することはできません。各機能は、各観測値に対して同じものを表す必要があります。

たとえば、長さ 10 の時系列を考えてみましょう。

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

過去の 2 つの間隔のラグを使用して一連の特徴を生成する場合、時系列の最初の 2 つの要素は焼き付けサンプルと見なされます。それらに関連付けられた観測値を使用してアルゴリズムをトレーニングすることはできません。

の生の値8行2列の

[[ 1.,  0.]
 [ 2.,  1.],
 [ 3.,  2.],
 [ 4.,  3.],
 [ 5.,  4.],
 [ 6.,  5.],
 [ 7.,  6.],
 [ 8.,  7.]]

の差分値

[[ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.],
 [ 1.,  1.]])

これらは列に積み重ねられます。探索できる追加機能が多数あります。ローリング平均私の次の選択です。

将来をさらに予測したい場合は、トレーニングデータをラベルベクトルからさらに遅らせる必要があります。

パフォーマンスが満足のいくものでない場合は、より大きなウィンドウのローリング平均を選択して機能を追加してみるか、さらに未来にさかのぼって追加してみてください。時系列アルゴリズムのパフォーマンスを向上させる巧妙な方法は、前の時間間隔の予測値を含めることです。

分類器をデータの最初の部分に適用し、その後のデータの部分でその精度を観察します。分類器には使用できる指標が多数あります。絶対的な 1/0 ではなく確率を出力する分類器を使用すると、選択肢がさらに広がります (分類器の用途も同様です)。

精度と再現率分類器の直感的なパフォーマンスメトリックです。

データの前半（初期）でトレーニングし、後半（後期）でテストします。

アルゴリズムに関しては、ロジスティック回帰を検討します。パフォーマンスが満足のいくものではなく、特徴抽出オプションを使い果たした場合にのみ、他のものを検討します。

マレットこのタスクに適したライブラリのようです。ドキュメントのこの部分を参照してください。

私は最近発見したJSAT、これは有望に思えます。

時系列分類には、観測とラベルの連続性を明示的に考慮する、より具体的なアプローチがあります。これは、分類を時系列に汎用的に適応させたものです。

Answer 1