Sindlimeetodi tööpõhimõte teadusartiklid. Sindel - salapärane ja arusaamatu

sindel

Sindel on rakk, osake, tellis - vähemalt kui võtta selle sõna tähendused inglise keel kust see tuleb. Veebisaidi reklaamimise valdkonnas tähendab sindel just neid ehitusplokke, millest tekst on koostatud, ja see on teksti ainulaadsuse kontrollimise kõige usaldusväärsema meetodi aluseks. Singel on selles tähenduses otseselt seotud lingvistilise tekstianalüüsiga ning meetodi ja mõistena on eksisteerinud alates 1997. aastast, mil Yahoo vanemtöötaja Andrei Broder! pakkus seda üldiseks kasutamiseks. Vöötohatise abil tekstiuuringuid kasutades saate ainulaadse teksti sünonüümsest sisust täpselt eraldada. Tänapäeval, mil SEO optimeerimine on omandamas professionaalset taset, on vöötohatise ja nendega töötamise teema muutunud veelgi aktuaalsemaks.

Teksti ettevalmistamine

Sindel on mitmest sõnast koosnev väike tekstikatke, mida töödeldakse spetsiaalse analüüsitehnikaga. See tehnika – kanoniseerimine – seisneb selles, et teksti lihtsustavad kõik sõnad, mis tähenduse ja grammatika seisukohast ei ole olulised (sidesõnad, eessõnad, interjektsioonid) ja kirjavahemärgid. Võtame näiteks järgmise fraasi:

"Siin on nimekiri suurest hulgast linnadest ja igas linnas on hasartmänguasutusi, neid ebaseaduslikke kasiinosid on sadu," ütles Medvedev.

Pärast kanoniseerimist näeb see välja järgmine:

siin on nimekiri suurest hulgast linnadest, millest igaühes on hasartmänguasutusi, siin on sadu neid ebaseaduslikke kasiinosid, ütles Medvedev.

Sindli koostamine

Tekstiga töötamise teine ​​etapp: katusesindlite otsevalik. Selleks peate kõigepealt kindlaks määrama katusesindli pikkuse. Mida väiksem on sindel, seda rohkem tööd ja seda täpsem on analüüs. Minimaalne sindli suurus on kolm sõna, maksimaalne on kaheksa. Pikemal sindlil pole sageli mõtet, kuna selline kontroll lubab liiga palju vigu. Sindli koostamise üheks reegliks on kattumine, st vähemalt ühe sõna hõivamine eelmisest sindlist. See võimaldab kõiki sõnu põhjalikult kontrollida.

Näiteks fraasi esimene kolmesõnaline sindel näeb välja selline:

siin on tohutu nimekiri

Ja teisel katusesindlil võivad olla valikud:

loetelu tohutult paljudest linnadest

Kõik tekstisindlid on koostatud selle põhimõtte järgi: kattuvad, sama arvu sõnadega sindlis.

Vöötohatise algoritm

Järgmisena genereerib programmeerija teksti kontrollsumma. Sindli algoritm hõlmab kahe erineva teksti vöötohatiste võrdlemist, tehes kindlaks, kas üks neist on teise duplikaat. Otsingumootorid, mis sisaldavad tarkvara meetod sindli kontrollimine, on väga raske petta. Nad leiavad sarnaseid dokumente ja võrdlevad vöötohatiste vahelist vastet, tuvastades selgelt unikaalsuse puudumise. Seetõttu on teksti reprodutseerimisel vaja vaevarikast tööd teksti sünonüümimiseks, lahjendamiseks ja struktureerimiseks ning fraseoloogiliste väljendite asendamiseks, mis muudab selle originaalist erinevaks. Kuid oht jääda otsingumootorile ebaoriginaalse tekstiga vahele kaob vaid siis, kui kasutatakse tõeliselt unikaalseid artikleid.

Sindlite algoritm (inglise keeles vöötohatis tähendab plaate, skaalasid) on mõeldud dubleeritud teksti uduseks otsimiseks. Sõna "hägune" tähendab, et duplikaatide esinemisi ei otsita täpselt, vaid need on hägused. Näiteks on võimalik dubleerida mitte ainult rida, vaid ka üksikuid fraase. Põhimõtteliselt kasutavad otsingumootorid rämpsposti vastu võitlemiseks vöötohatisalgoritmi muutmist. See võimaldab teil otsingutulemustest välja jätta tekstid, mis on üksteisega sarnased või täiesti identsed. Siiski jääb alles algallika probleem, s.t. allikas, kus see teave esmakordselt ilmus. Kuigi arvatakse, et otsingumootorid fikseerivad selle fakti selgelt, esineb tõrkeid igas süsteemis. Vaatame seda meetodit puudutavat küsimust lähemalt, vaatame, millega seda sindlit süüakse!

Vöötohatise meetodi algoritm

Iga tekstiosa (alamstringi) jaoks arvutatakse teatud kontrollsumma, mille ülesandeks on see tekst kuidagi tuvastada, see on sindel. Need märgilised tekstiosad peavad üksteise järel kattuma, et ükski märk või sõna ei puuduks. Järgmisena valitakse kogu nende kontrollsummade hulgast need, mis vastavad mõnele kriteeriumile - paaris, jagub mõne arvuga jne. Sellest tulenevalt on näidis ühtne jaotusseadus, millele ei panda rõhku ühelegi teksti osale. Selle tulemusena, kui kontrollsummad langevad kokku kahe kodeeritud teksti vahel, on tekstide sarnasus ilmne. Ja mida rohkem vasteid, seda sarnasemad on tekstid.

Kodeerimisüksuse – alamstringi – saate valida erinevatel viisidel. Võite kasutada märgi suurust sammu või mitut tähemärki või võtta sõna või mitu sõna. Järgmisena peate otsustama, kas alamstringid tuleks teie koodi "kaasata" (kaasa osa eelmisest) - see mõjutab tulemuse täpsust. Määrake kümne sõna või kümne tähemärgi alamstringi suurus, valik sõltub arvutusvõimsusest, mälumahust ja tulemuste täpsusest. Lisaks on soovitatav lähtetekst puhastada korduvatest tühikutest, kirjavahemärkidest ja isegi eessõnadest, sest nad ei kanna erilist infokoormust.

Sindli meetodi algoritmi kasutamise näide

Vaatleme näitena kahte veidi muudetud katkendit A.S.i luuletusest. Puškin

Originaaltekst:

"
Torm katab taeva pimedusega,
Lumi keerleb,
See, kuidas ta ulub nagu metsaline,
Siis nutab ta nagu laps
- Sindli meetodi algoritm tööl
"

Veidi muudetud tekst:

"
Torm katab maa valgeks,
Lumi keerleb,
See, kuidas ta ulgub nagu lõvi,
Siis nutab ta nagu laps
- Algoritm vöötohatise alguse meetodi jaoks
"

Valige sammuna sõna. Võtame alamstringi pikkuseks 5 sõna. Koostame read üksteise järel (üksteise järel). Kuna tekst on väike, jätke sõnad välja
Selle tulemusena saame 5 numbri pikkuse kodeeritud teksti.

Riis. 1 Näide teksti paigutusest sindli meetodil

Siin on esimese juhtumi jaoks sõnade komplekt:
Tormid katavad taeva pööristega | lumeringTokbeast | ta ulgub ja nutab nagu | lapsAlgoritmthodashinglovv | tööd
räsi:
| | | |

ja teiseks:
Torm katab maad pööristega | lumised ringid tokleve | ta ulgub ja nutab nagu | lapsAlgoritmthodashinghead | alustada
räsi:
| | | |

Selle tulemusel saime ühe vaste - kolmanda numbri (c0c522529b0e810f73b210cc972e9966). See kokkusattumus näitab, et kahe teksti sarnasus on vähemalt 25%. Muidugi oli nii väikese teksti puhul võimalik sammu vähendada, kuid isegi selliste esialgsete parameetritega on see hea näide.

Supersindel

Kui iga teksti jaoks koostame vöötohatise komplekti, isegi mõne kriteeriumi võrra vähendatuna, siis suure hulga dokumentide puhul jääb kasutatav arvutusvõimsus ikkagi kolossaalseks. Seetõttu arvutatakse praktikas sageli dokumendisindlite kogumi kohta teine ​​kontrollsumma, nn supersindli. Järelikult loetakse sobitatuks dokumendid, millel on täielikult ühtivad katusesindlid.

Märkused sindli meetodi algoritmi kohta

Siiski tuleb märkida, et praegu kasutatakse duplikaatide tuvastamiseks täiustatud algoritme. Näiteks Yandex lõi ja leiutas alternatiivse algoritmi ähmaste duplikaatide tuvastamiseks. Muudetud algoritm on asjaolu, et otsingumootoril on indeksdokument ümberpööratud faili (või inverteeritud indeksi) kujul ja seda olukorda saab kasulikult kasutada peaaegu duplikaatide leidmise protseduuris.

Sindli meetodi lihtne lähendus php-s

Allpool on kirjeldus ja lähtekood, et demonstreerida vöötohatisalgoritmi PHP-s. Simuleerime otsingumootorit

Esialgu peate faili võrgu kaudu alla laadima. Seda saab teha lihtsa php-funktsiooni abil:

// hankige fail lingilt $url ?> // eemaldage sildid php funktsiooni abil ?>

Määratleme vajalikud muutujad

// alamstringide massiiv$hash_mass = massiiv () ; // alamstringi räsiväärtuste massiiv$tmp = ";

?>

Loome sõnade massiivi. Eralduskriteeriumina kasutame ruumi. ?>

// jälle standardne php funktsioon

Loome alamstringide massiivi. Selles funktsioonis liidame lihtsalt sõnad viiest kokku.

Loome räsiväärtuste massiivi:

Võrdlusfunktsioonina kasutame lihtotsingut. Funktsiooni tulemusena kuvatakse vastete protsent."Vaste protsent:"

. $sarnane_loendur * 100 / suurus ($hesh_mass1 ) ;

?>

Sisu ainulaadsus

Iga veebisaidi reklaamimiseks on vaja ainulaadset sisu. Samas on originaalsisu, mitte muudest ressurssidest laenatud sisu kasutamise indikaator unikaalsus. Lihtsalt tekstiteabe kopeerimine pole mitte ainult kasutu, vaid ka täis otsingumootorite sanktsioone. Sindlit kasutatakse esemete paljundamiseks Kõik, kes on kunagi artikleid reprodutseerinud, on pidanud kokku puutuma sellise kontseptsiooniga nagu

sindel

  • . Paljud inimesed isegi ei püüa mõista selle termini olemust. Seda võib näha algajate optimeerijatega suhtlemise näitel.
  • Tüüpiline näide dialoogist artiklite reprodutseerimiseks:
  • 1 — Ootan unikaalsust vähemalt 95%! Sindlit kasutatakse esemete paljundamiseks?
  • 2 — Millises katusesammas tuleks tekste kontrollida?
  • 1 - Mis see on?

2 – see on parameeter, mida kasutatakse artikli paljundamisel võrdlemiseks. 1 – siia postitan artikleid. Milline ainulaadsus on pärast nende indekseerimist? Lihtsalt öelge, et pole vöötohatist, ärge kirjutage mulle nendest. ja milliste optimeerijatega seda söövad. See artikkel ei pretendeeri probleemi täielikule käsitlemisele ega termini klassikalisele määratlusele. Meie ülesanne on mõista, kuidas seda arusaamatut meetodit kasutatakse unikaalsuse määramiseks, kui proovime artiklit reprodutseerida.

See on osa originaaltekstist

Sindel on kett, mis koosneb mitmest järjestikusest sõnast. Praktikas kasutatakse seda sindli suurus 3 kuni 10 sõna. Enne tekstide võrdlemist moodustatakse massiiv. Massiiviahelad ei moodustata järjestikku, vaid kattuvad. Toon näite sellise massiivi kohta, mille samm on 3 sõna.

Lähtetekst on "Esimene teine ​​kolmas neljas viies kuues sõna".
Saadud massiiv:

  • Esimene teine ​​kolmandik
  • teine ​​kolmas neljas
  • kolmas neljas viies
  • neljas viies kuues
  • viies kuues sõna

Massiivi pikkus võrdub sõnade arvuga, millest on lahutatud sindli sammu pikkus pluss üks. Meie näites 7-3+1=5. Veelgi enam, tekst normaliseeritakse enne massiivi vastuvõtmist. Normaliseerimisprotsess hõlmab stoppsõnade, eessõnade, sidesõnade, sümbolite, numbrite jne kõrvalejätmist. Pärast seda, kui oleme saanud iga teksti jaoks massiivi, on lihtne arvutada artiklite unikaalsuse protsenti. Artikli unikaalsuse arvutamine— ebavõrdsete katusesindlite protsent nende koguarvust artiklites. Artikli unikaalsuse arvutamiseks teatud tekstikomplektis peame võrdlema seda artiklit teistega ja võtma minimaalse tulemuse.

Millist sindli suurust kasutada kontrollimisel

See tekitab kohe vastuküsimuse: mis eesmärgil me tekste võrdleme? Kui meil on vaja lihtsalt välja selgitada artiklite ainulaadsus, siis vastus on lihtne - mida lühem Sindlit kasutatakse esemete paljundamiseks, seda unikaalsemad on tekstid. Lubage mul selgitada: unikaalsus, näiteks 5-sõnalise sammuga 95%, on unikaalsem kui sama 95% 10-sõnalise sammuga. Teine võimalus on öelda, et 97% unikaalsusest 10 sõna pikkusega on ligikaudu võrdne 90% unikaalsusega 5 sõna pikkusega. Ja kui on vaja ennustada nende samade tekstide unikaalsust otsingumootorite vaatevinklist (pärast nende paigutust ja indekseerimist), siis pole täpset vastust. Ühemõtteliselt saab väita vaid üht: mida vähem sindli suurus ja mida suurem on unikaalsuse protsent, seda lojaalsemad on otsingumootorid teie artiklitele. Seda punkti on eriti vaja arvesse võtta neil, kes otsustasid esmakordselt luua oma veebisaidi ja täita selle ainulaadse sisuga.

Teksti unikaalsuse protsent ja suurus

Ja veel üks märkus. Mida lühem on originaalartikkel, seda keerulisem on saavutada dubleeritud tekstide unikaalsuse kõrge protsent. Ja see on mõistetav, kuna teksti kordumatuse protsent on võrdne sobivate sindlikettide arvu ja artiklis olevate sindlikettide koguarvu suhtega. Lühitekstis on sindlikettide koguarv väike. Sellest lähtuvalt muutub suhtumine halvemaks. Lisaks on lühiartiklitesse võtmepäringute jaoks SEO tekste kirjutades paratamatult ka märksõna tihedus suurem. Artiklite dubleerimise praktika näitab, et 1-3 võtmeväljendi olemasolu, mis on pikemad kui 3 sõna, muudab teksti unikaalsuse hea protsendi saavutamise väga keeruliseks. See reegel kehtib eriti alla 2K tähemärgi pikkuste artiklite puhul.

Sindli meetodit kasutatakse kõigis artiklite paljundamise programmides.

Artiklite korrutamise programm kasutab sindli algoritmi kasutamisel CRC meetodit, mis võimaldab saavutada väga korraliku võrdluskiiruse suur kogus korrutatud tekstid. Ja see omakorda suurendab teksti genereerimise kiirust. Võrdluseks: CRC-algoritm võimaldab teil töötada mitte sindli stringide endi, vaid nende kontrollsummadega, mis loomulikult suurendab kiirust (arvude võrdlemine on suurusjärgu võrra kiirem kui stringide võrdlemine).

Ootame teie tellimusi artiklite reprodutseerimiseks ja tekstide kirjutamiseks meie ressursil http://www.site

Vöötohatisalgoritm on loodud dubleeritud teksti uduseks otsimiseks. Sõna "hägune" tähendab, et duplikaatide esinemisi ei otsita täpselt, vaid need on hägused. Näiteks on võimalik dubleerida mitte ainult rida, vaid ka üksikuid fraase. Põhimõtteliselt kasutavad vöötohatisalgoritmi muutmist plagiaadivastased süsteemid, otsingumootorid rämpsposti otsimise, kopeerimise ja kleepimise vastu võitlemiseks ning ka ümberkirjutamise unikaalsuse määramiseks.
Sindlid on teksti põhiosast võrdlemiseks eraldatud eraldi osad (alamsringid), mille järjestuses on ainulaadsuse kontrollimiseks teatud arv sõnu. Vöötohatis võib olla suvaline arv sõnu, mida lühem on vöötohatis, seda täpsem on kontrolli tulemus.
Neid on erinevaid meetodeid teksti jagamine katusesindliteks:
- üksteise järel vöötohatis ei ristu

Kattuvus, kui alamstringid sisaldavad osa eelmisest alamstringist;

Sindlite moodustamise meetod ja sõnade või märkide arv sindlis, samuti sindli nihe (mitu sõna või tähe võrra järgnev alamstring nihutatakse) mõjutavad suuresti tulemuse täpsust. Alamstringi mõõtme määramisel sõltub valik arvutusvõimsusest, mälumahust ja tulemuste nõutavast täpsusest.
Meie online-seo-tanki teenust kasutades saate algoritmi parameetreid paindlikult konfigureerida. Saate muuta oma teksti otse meie ressursis, võrrelda seda originaaliga ning vajadusel tagasi kerida ja teha uusi parandusi.

Pärast sindliteks (alamstringideks) jagamist on ka erinevaid lähenemisviise kontrollsummade arvutamiseks ja nende edasiseks võrdlemiseks teksti sarnasuse hindamiseks. Kontrollsummasid saab hankida räsimise abil, kasutades erinevaid algoritme (SHA1, SHA3, CRC32, MD5). Järgmisena peate hindama kahe võrreldava teksti saadud kontrollsummade kokkulangevust. Meie teenus võimaldab teil teha kindlaks plagiaadi või teksti ainulaadsuse võrgus, kasutades sindli algoritmi. See arvutab laenatud teksti protsendi. IN antud juhul me räägime

eranditult duplikaadi, täieliku või ümberkirjutamise korral osalise kohta, kuna täiesti identseid tekstilõike pole võimalik iseseisvalt kirjutada. Seda algoritmi kasutavad otsingumootorid ja plagiaadivastased süsteemid. Määrake ümberkirjutamise kvaliteet ja teksti veebis laenamise määr Tõhusaks võrdluseks peate määrama õiged algoritmi parameetrid. Mida väiksem on sindel, seda täpsemini sobivad sõnad tuvastatakse. Ka nihkega on väiksem võimalus korduvatest verbaalsetest väljenditest “üle hüpata”. Mida suurem on aga tekst, seda lihtsam on sealt vasteid leida (kui neid on) ja pole vaja valida minimaalne väärtus

shingla. Tähtis! Suure teksti täpsem töötlemine võib olla aeglasem!



Sageli kirjutatakse, et vöötohatisalgoritm ei suuda määrata selliste fraaside identiteeti nagu „Õpetaja annab õpilasele materjali / Õpetajad annavad õpilastele materjale”. Tõepoolest, paljud sindlialgoritmil põhinevad unikaalsuse kontrollimise teenused näitavad, et fraasid on ainulaadsed, kuigi otsingumootorite jaoks on need identsed. Asi pole siin mitte sindlialgoritmi puudustes, vaid teksti kanoniseerimise (puhastamise) meetodites. Kui kanoniseerimisel kasutatakse morfoloogiat, see tähendab, et kõik sõnad taandatakse normaalsele kujule, tunneb algoritm fraasid kergesti identseteks, sõltumata nende lõppudest. Sõna normaalvorm on nimetav kääne, nimisõna ainsus, tegusõna määramatu vorm jne.