可変長文字列の類似度ランキングアルゴリズムの改善質問する

Question

Catalysoft の Simon White 氏は、隣接する文字のペアを比較する非常に巧妙なアルゴリズムについての記事を書きました。これは私の目的に非常によく適合します。

http://www.catalysoft.com/articles/StrikeAMatch.html

Simon はアルゴリズムの Java バージョンを持っており、以下に PL/Ruby バージョンを書きました (Mark Wong-VanHaren による関連フォーラムエントリのコメントで行われたプレーン Ruby バージョンから取得)。これにより、PostgreSQL クエリで使用できるようになります。

CREATE FUNCTION string_similarity(str1 varchar, str2 varchar)
RETURNS float8 AS '

str1.downcase! 
pairs1 = (0..str1.length-2).collect {|i| str1[i,2]}.reject {
  |pair| pair.include? " "}
str2.downcase! 
pairs2 = (0..str2.length-2).collect {|i| str2[i,2]}.reject {
  |pair| pair.include? " "}
union = pairs1.size + pairs2.size 
intersection = 0 
pairs1.each do |p1| 
  0.upto(pairs2.size-1) do |i| 
    if p1 == pairs2[i] 
      intersection += 1 
      pairs2.slice!(i) 
      break 
    end 
  end 
end 
(2.0 * intersection) / union

' LANGUAGE 'plruby';

素晴らしい効果です!

Answer 1

Catalysoft の Simon White 氏は、隣接する文字のペアを比較する非常に巧妙なアルゴリズムについての記事を書きました。これは私の目的に非常によく適合します。

http://www.catalysoft.com/articles/StrikeAMatch.html

Simon はアルゴリズムの Java バージョンを持っており、以下に PL/Ruby バージョンを書きました (Mark Wong-VanHaren による関連フォーラムエントリのコメントで行われたプレーン Ruby バージョンから取得)。これにより、PostgreSQL クエリで使用できるようになります。

CREATE FUNCTION string_similarity(str1 varchar, str2 varchar)
RETURNS float8 AS '

str1.downcase! 
pairs1 = (0..str1.length-2).collect {|i| str1[i,2]}.reject {
  |pair| pair.include? " "}
str2.downcase! 
pairs2 = (0..str2.length-2).collect {|i| str2[i,2]}.reject {
  |pair| pair.include? " "}
union = pairs1.size + pairs2.size 
intersection = 0 
pairs1.each do |p1| 
  0.upto(pairs2.size-1) do |i| 
    if p1 == pairs2[i] 
      intersection += 1 
      pairs2.slice!(i) 
      break 
    end 
  end 
end 
(2.0 * intersection) / union

' LANGUAGE 'plruby';

素晴らしい効果です!

可変長文字列の類似度ランキングアルゴリズムの改善質問する

ベストアンサー1

おすすめ記事