複数のユーザーによって編集されたテキストの「所有者」を特定する 質問する

複数のユーザーによって編集されたテキストの「所有者」を特定する 質問する

コミュニティ Wiki の投稿に編集概要が表示されるようになったことにお気づきかもしれません。

コミュニティ ウィキ
220 回のリビジョン、48 人のユーザー

また、ページに表示される最終的なコンテンツを「最も所有している」ユーザーを、残りのテキストの割合として表示したいと思います。

コミュニティ ウィキ
220 回のリビジョン、48 人のユーザー
クロノス87%

はい、上位 (n) 人の「所有者」が存在する可能性がありますが、現時点では上位 1 人が必要です。

次のデータ構造、つまり投稿時刻順に並べられたユーザー/テキスト ペアのリストがあるとします。

ユーザーID 投稿テキスト
------- ---------
12 素早い茶色のキツネが怠け者の犬を飛び越えます。
27 キツネは時々ジャンプします。
30 私はいつも、素早い茶色のキツネが怠け者の犬を飛び越えていくのを見ます。

これらのユーザーのうち、最終的なテキストを最も「所有」しているのは誰でしょうか?

所有者を特定するための合理的なアルゴリズム(近似値でもよく、完璧である必要はありません)を探しています。理想的にはパーセンテージ スコアとして表現されます。

編集、削除、挿入を考慮する必要があることに注意してください。最終結果が妥当で正しいものになるようにするためです。適切なリビジョン履歴 (タグの再付けだけでなく、投稿本文の頻繁な変更) を持つ StackOverflow の投稿はどれでもテスト コーパスとして使用できます。14 人の異なる作成者による 15 回のリビジョンを持つ、よい例を以下に示します。「所有者」は誰でしょうか。

https://stackoverflow.com/revisions/327973/list

「ソースを表示」をクリックすると、各リビジョンの生のテキストが表示されます。

純粋なアルゴリズムによる解決法は、最長共通部分文字列問題しかし、前述したように、近似値や推定値でも、うまく機能するのであれば問題ありません。

あらゆる言語でのソリューションを歓迎します、しかし私は、

  1. C# に翻訳するのはかなり簡単です。
  2. 依存関係はありません。
  3. 効率よりもシンプルさを優先します。

SO の投稿が 25 回以上修正されるというのは極めて稀です。しかし、編集内容が「正確」であるように感じられるはずです。編集内容をざっと確認すれば、最終決定に同意できるはずです。リビジョン履歴のある Stack Overflow の投稿でアルゴリズムをテストする最終的な出力に同意するかどうかを確認します。


私は今、次の近似を展開しました。これは、すべての新しいコミュニティ Wiki 投稿の保存されたリビジョン

  • 行う行ベースの差分本文が変更されるすべての改訂版
  • 各リビジョンの挿入行と削除行を「editcount」として合計します。
  • 各ユーザーIDは、投稿した「編集回数」の合計を取得します。
  • 最初の改訂版の著者は、最初の著者ボーナスとして、初期スコアとして 2 倍の「editcount」を取得します。
  • 最終的な所有権の割合を決定するには、各ユーザーの編集行数の合計をすべてのリビジョンの編集行数の合計で割ります。

(また、1 つのリビジョン、1 人の作成者のみなど、一般的な単純な条件に対するガード句もいくつかあります。行ベースの diff により、すべてのリビジョンの再計算がかなり高速になります。たとえば、10 のリビジョンの典型的なケースでは、約 50 ミリ秒です。)

これは私のテストではかなりうまく機能しました。1 行または 2 行の小さな投稿を複数の人が編集する場合は少し機能しなくなりますが、それは避けられないことだと思います。Joel Neely の回答は、私が採用した回答に精神的に最も近いものとして受け入れ、機能しそうな他のすべての回答に賛成票を投じました。

ベストアンサー1

その考えは根本的に間違っていると思います。

誰かが素晴らしい分析をひどいスペルと不明瞭な例で書き、私がそれを徹底的にコピー編集した場合、私が作品の 60% を作成したことになるでしょうか? 明らかにそうではありません。その結果は、価値の大部分が最初の投稿者からもたらされた派生的なものです。文字数や単語数に基づいて有用な尺度を測定することは不可能であり、強力な AI レベルのセマンティック分析が必要です。

それとは別に、記事の「所有権」に基づいてクレジットを求めることは、おそらくまったく役に立たず、ウィキペディアに反する行為です。たとえば、Wikipedia では、記事を所有しているかのように行動する人が、最も有害な影響の 1 つです。

おすすめ記事