Hasonló rekordok megszüntetése

  • szfinksz


A projektünkben a felhasználók anyagokat adnak hozzá - ez egy 300 karakter hosszúságú szöveges karakterlánc.

Sok másolat van. Szeretném ellenőrizni, ha hozzáadjuk: ha a hozzáadott vonal hasonló a 90% -hoz a már hozzáadott értékekkel, akkor ne add hozzá.


A MySQL-t adatbázisként használják.


Ezen a ponton felmerült a megoldás:


- távolítsa el a sztringből az összes írásjelet és szóközöket

- kisbetűvel kisebb

- a fogadott md5 hash-t

- adjon hozzá egy hashot az adatbázis külön mezőjébe

- egy új felvételhez - ellenőrizze, van-e ilyen adatbázis


A megoldás nem a legjobb, talán valami jobb?


Ui Napi 10 ezer adat felvétele 500 új. Lehetőség van a sphinx használatára, de nem találtam hasonló funkciót.

Kapcsolódó cikkek