Hasonló rekordok megszüntetése
- szfinksz
A projektünkben a felhasználók anyagokat adnak hozzá - ez egy 300 karakter hosszúságú szöveges karakterlánc.
Sok másolat van. Szeretném ellenőrizni, ha hozzáadjuk: ha a hozzáadott vonal hasonló a 90% -hoz a már hozzáadott értékekkel, akkor ne add hozzá.
A MySQL-t adatbázisként használják.
Ezen a ponton felmerült a megoldás:
- távolítsa el a sztringből az összes írásjelet és szóközöket
- kisbetűvel kisebb
- a fogadott md5 hash-t
- adjon hozzá egy hashot az adatbázis külön mezőjébe
- egy új felvételhez - ellenőrizze, van-e ilyen adatbázis
A megoldás nem a legjobb, talán valami jobb?
Ui Napi 10 ezer adat felvétele 500 új. Lehetőség van a sphinx használatára, de nem találtam hasonló funkciót.