Fuzzywuzzy-ն python գրադարան է, որն օգտագործում է Լևենշտեյնի հեռավորությունը հաջորդականությունների և օրինաչափությունների միջև տարբերությունները հաշվարկելու համար, որը մշակվել է, ինչպես նաև բաց կոդով SeatGeek-ի կողմից, ծառայություն, որը գտնում է միջոցառումների տոմսերը։ ամբողջ ինտերնետում և ցուցադրեք դրանք մեկ հարթակում:
Ի՞նչ է FuzzyWuzzy-ն Python-ում:
FuzzyWuzzy-ն Python-ի գրադարան է, որը օգտագործվում է տողերի համընկնման համար: Անորոշ տողերի համընկնումը տվյալ օրինաչափությանը համապատասխանող տողերի որոնման գործընթացն է: Հիմնականում այն օգտագործում է Լևենշտեյնի հեռավորությունը հաջորդականությունների միջև տարբերությունները հաշվարկելու համար:
Ի՞նչ է խորհրդանշական հավաքածուի հարաբերակցությունը FuzzyWuzzy-ում:
Token Set Ratio օգտագործելով FuzzyWuzzy
Token set ratio կատարում է մի շարք գործողություն, որը դուրս է հանում ընդհանուր նշանները՝ պարզապես տողերը թոքենացնելու, տեսակավորելու և այնուհետև տեղադրելու փոխարեն: նշանները նորից միասին: Լրացուցիչ կամ նույն կրկնվող բառերը նշանակություն չունեն:
Ի՞նչ է անորոշ համընկնող օրինակ:
Fuzzy Matching (նաև կոչվում է մոտավոր տողերի համապատասխանեցում) տեխնիկա է, որը օգնում է բացահայտել տեքստի երկու տարր, տողեր կամ մուտքեր, որոնք մոտավորապես նման են, բայց բոլորովին նույնը չեն Օրինակ, եկեք վերցնենք Նյու Յորքում ցուցակագրված հյուրանոցների դեպքը, ինչպես ցույց է տրված Expedia-ն և Priceline-ը ստորև ներկայացված գրաֆիկում:
Ինչի համար է օգտագործվում Token_sort_ratio:-?
token_sort_ratio, տողային նշանները դասակարգվում են այբբենական կարգով, այնուհետև միանում են: Դրանից հետո, պարզ fuzz. հարաբերակցությունը կիրառվում է նմանության տոկոսը ստանալու համար: Սա թույլ է տալիս այս օրինակի դատական գործերը նշել որպես նույնը: