Otsing

  • Kuidas otsida?

    NETI otsingumootori abil lehekülje leidmiseks sisesta märksõna(d) otsingu-lahtrisse ja vajuta oma klaviatuuril ENTER või klõpsa hiirega nupul “Otsi”.

    Seejuures on kasulik teada, et:

    1. otsingus ei eristata suuri ega väikeseid tähti. Seega otsing katus on samaväärne otsingutega: Katus, KATUS, KaTuS jne.
    2. otsingu plekk katus tulemuseks on leheküljed, milledel esinevad sõnad plekk ja katus arvestamata konteksti
    3. otsingu "plekk katus" tulemuseks on lehed, kus need sõnad esinesid kontekstis järjest ühe fraasina
    4. otsingu plekk OR katus tulemuseks väljastatakse nii need lehed kus esines sõna plekk kui ka need kus esines sõna katus
    5. otsing "plekk AND katus" on samaväärne, mis punkt nr. 2
    6. otsing "plekk katus" ja plekk:katus annavad sama tulemuse
    7. otsing katus -plekk tulemuseks on leheküljed, milles esineb sõna katus kuid ei esine sõna plekk
    8. otsing katus NOT plekk on samaväärne eelmisega

    Ühe domeeni piires otsimiseks lisa otsingusõnade lõppu märksõna "site:" koos domeeninimega, mille piirangut soovitakse. Näiteks: telia site:hot.ee Sama märksõna võib kasutada ka NOT piiranguna: telia -site:telia.ee

    Lisaks võib piirata otsimist ainult pealkirjadest lisades otsingusõnade ette sõna "allintitle:". Samamoodi saab piirata otsimist ainult sisust (allintext:) ning ainult viitade kirjeldustest (allinanchor:)

    Keerukamaid otsinguid saab koostada abivahendi "Täpsemalt" abil. Lisaks on kasutajal võimalik kasutada "Klaviatuur" nimelist veebipõhist klaviatuuri, mille abil saab koostada otsingupäringu. Peamine vajadus tema järele tekib siis, kui kasutaja klaviatuuril puuduvad vajalikud sümbolid (näiteks täpitähed) või kasutajal on kasutamiseks puutetundliku ekraaniga terminal, millel klaviatuur puudub.

    Kui klaviatuuril ei ole täpitähti, siis võib täpitähtede asemel kasutada järgnevaid sümbolite kombinatsioone:

    1. õ asemel o~
    2. ä asemel a"
    3. ö asemel o"
    4. ü asemel u"

    1. Leitud lehekülje pealkiri nii nagu see oli TITLE elemendiga määratud
    2. Leitud lehekülje pealkiri ja kirjeldus NETI kataloogis, NETI kataloogi alamteema, kus viide paikneb
    3. Väljavõte veebilehe sisust, näitamaks millises kontekstis otsitud sõna(d) paiknes(id)
    4. Leitud veebilehe aadress
    5. Leitud veebilehe viimane muutmise kuupäev enne NETI otsingusüsteemi jõudmist
    6. Leitud veebilehe maht baitides
    7. Viide veebilehe koopiale NETI otsinguroboti andmekogus
    8. Vaikimisi on piiratud tulemuste arv samast site'ist. Tehes sama päringu nimetatud domeeni piires kuvatakse ka need veebilehed, mis muidu otsingutulemustest välja jäid

    Otsingutulemuste järjestamise algoritm on keerukas ja mitmeosaline (õieti mitme algoritmi koosmõju). Ilma konktreetse otsingutulemuse analüüsita ei olegi tihtipeale võimalik öelda, miks üht või teist lehte järjestamisel paremaks hinnati.

    Ühel otsingutulemuse lehel kuvatakse kuni 20 viidet. Järgmist 20 viidet sisaldavale lehele pääsemiseks tuleb klikkida viitel "JÄRGMINE" või lehekülje järje-numbrit.

  • Otsingurobot Nuhk

    Veebilehtede sisu kogub kokku otsingurobot nimega “Nuhk”. Otsinguroboti “Nuhk” poolt esitatud päringud võib veebiserverite logist ära tunda järgmiste parameetrite järgi:

    1. REMOTE_ADDR = nuhk.neti.ee
    2. HTTP_USER_AGENT = Nuhk/2.3 (www.neti.ee)

    Otsinguroboti Nuhk eesmärgiks on ühtseks andmekoguks kokku koguda Eesti Internetis asuvad veebilehed nii, et need püsiks piisavalt värsketena. Kuna veebilehtede kättesaadavus seoses võrgu- ja serverihäiretega on erinev ning samuti sisaldavad erinevad serverid erineva arvu veebilehti, siis on suhteliselt raske vastata küsimusele: "Kui tihedalt Nuhk veebilehti külastab?"

    Püüame hoida taset, kus enamik andmekogus olevast sisust ei oleks vanem kui 1 kuu. Selle ülesande täitmiseks tuleb läbi käia 2-3 miljonit veebilehte nädalas, ehk kuni 900 000 ööpäevas (Nuhk ei tööta 7 päeva nädalas).

    Nuhk arvestab maailmas de facto kehtiva robotite eemale hoidmise standardiga.

    Nuhk leiab üles ainult need veebilehed, millele viitab mõni teine eelnevalt külastatud veebileht. Erandina leitakse .ee domeenide nimekirja alusel üles http://www.nimi.ee/ stiilis veebilehed.

    Nuhk ei saa lehekülje sisust aru. Igasugused poolikud ja muudel põhjustel avalikustamiseks mittesobivad lehed peab lehe omanik ise roboti jaoks kättesaamatuks tegema. Kasutades selleks kas robotite eemalhoidmise standardi võimalusi või piirama serverile ligipääsu tarkvara (ligipääsu paroolid) või võrgu tasemel (tulemüüriga).

    Nuhk külastab ainult .ee või Eesti ISP IP aadressvahemikes olevaid veebiservereid, millel võib olla ka rahvusvaheline domeeninimi.

    Nuhk ei esita keskmisele veebiserverile päringuid tihedamalt kui intervalliga 1 minutis. Külastuste tempo hoidmiseks tegeletakse mitme(kümne) veebiserveriga samaaegselt nii, et keskmine veebilehtede laadimise tempo on kuni 5 megabitti sekundis.

    Otsingurobot oskab järgida ainult HTML'is defineeritud hüperlinke: A, AREA, FRAME, IFRAME. Igasuguste multimeedia objektide (flash, java) ning SCRIPT keelte abil teostatud viidetest otsingurobot aru ei saa.

    Nuhk saab aru ka HTTP protokolli abil teostatud ümbersuunamistest (301, 302) ja HTML <meta http-equiv="refresh" /> elemendist.

  • Otsinguindeks

    Otsingumootori teadmine on kokku kogutud andmefailidesse, mida nimetatakse otsinguindeksiks. See on aluseks kõikidele teostatavatele otsingutele. Otsinguindeksi koostab spetsiaalne indexer tarkvara, mille tööks on lähtefailide (veebilehtede) lammutamine üksikuteks sõnadeks, sõnade seoste/asukohtade salvestamine, sorteerimine. Indexeri töö tulemusel tekivad andmefailid, mida nimetatakse inverted index'iks. Lisaks salvestatakse pakitud kujul otsingutulemuste konteksti väljavõtuks vajalik tekst.

    NETI otsinguindeks on inkrementaalne. Paar korda nädalas tehakse update, mille käigus lisatakse ja kustutatakse Otsingurobot Nuhk poolt läbivaadatud ning indexer'i poolt läbitöötatud seosed.

    NETI veebikataloogi põhjal koostatakse kord ööpäevas iseseisev otsinguindeks. Otsingu hetkel vaadatakse mõlemat indeksit: nii suurt, kus on veebilehtede sisu, kui ka väikest, kus on kataloogide viited.

  • Andmekogu (puhver)

    NETI otsinguroboti Nuhk poolt hallatavat andmekogu iseloomustavad järgmised parameetrid (juuli 2005):

    1. 12 miljonit unikaalset URL'i (veebilehte)
    2. 502 miljonit hyper-linki
    3. veebilehtede maht 304 gigabaiti (56 gigabaiti pakitult, gzip)

    Veebilehtede lisamist ja kustutamist andmekogust teostab otsingurobot Nuhk inimese poolt vahele segamata. Andmekogu põhjal koostatakse intervalliga kord nädalas otsinguindeks, millest toimuvad reaalsed otsingud.

    Otsingutulemustes olev viide “puhver” viitabki andmekogule, kust kasutaja saab vaadata otsingutulemuses viidatavat veebilehte kui selle originaal-aadress hetkel ei toimi.

    Andmekogust kustutatakse need leheküljed, mille originaal-aadress vastab otsingurobotile HTTP protokolli veateatega 404, 403, 401, 500 jms. Samuti need lehed, millede aadress on muutunud ning sellest annab teada korrektne HTTP protokolli vastus 301, 302. Käsitsi veebilehtede kustutamisega NETI webmaster ei tegele. Seega eelduseks, et veebileht kaoks NETI andmekogust ning veidi hiljem ka NETI otsingust (otsinguindeksist), on selle kustutamine originaal-aadressilt.

  • Eesti WWW Serverid

    Eesti WWW Serverid nimekiri on koostatud automaatselt otsinguroboti Nuhk poolt külastatud serverinimede põhjal. Need on serverid, kust Nuhil õnnestus laadida veebilehti.

    Antud nimekiri sisaldab ka palju dubleerivaid ning virtuaalserverite nimesid. Seega füüsiliste serverite kokkulugemiseks tuleks lugeda kokku unikaalsed IP aadressid ning uurida, ega mõni server mitut IP aadressi samaaegselt ei kasuta. Hinnanguliselt on unikaalseid veebiservereid Eestis veidi üle 2000 (veebruar 2004).