Informacijos paieška
Mokytoja:
Panevėžys 2005
Turinys
• Įvadas…………………………3
• Interneto paieškų sistemų apžvalga…………………
• Nacionalinė paieška………………………..
• Lietuviškų paieškos sistemų apžvalga…………………
• Tarptautinė paieška…………………………4
• Tarptautiniu paieškų sistemų apžvalga………………..
• Speciali paieška…………………………
• Speciali paieška…………………………5
• Paprasta paieška…………………………
• Pagerinta paieška…………………………
• Paieškos priemonių pasirinkimo pagrindas……………..
• Interneto paieškų detalus nagrinėjimas……………….
• Nacionalinė paieškos sistema „search“……………….6
• Search.lt privalumai…………………………
• Search.lttrūkukai…………………………
• Paieška teminiame search.lt nuorodų kataloge……………
• Paieška puslapiuose………………………..7
• Išplėsta paieška…………………………
• Viskas apie google.lt……………………….7-9
• Naudota literatūra…………………………10
ĮVADAS
Šio darbo teorinėje dalyje trumpai apžvelgiamos tarptautinės ir nacionalinės Internet paieškos sistemos, jų galimybės, privalumai ir trūkumai. Detaliau išnagrinėtos viena tarptautinė (http://msdn.microsoft.com/) ir viena lietuviška (http://www.search.lt/) paieškos sistemos: vykdant paiešką pagal įvairiai suformuotus paieškos raktus atskleidžiamos jų teigiamos, neigiamos pusės, įvertinamas rezultatų tinkamumas.
Interneto ppaieškų sistemų apžvalga
Daugelis paieškų sistemų šiandien yra tapę elektroninės informacijos vartais: ieško informacijos ne tik pasaulinio voratinklio tekstinės informacijos puslapiuose, bet ir vaizdo bei garso įrašų archyvuose, naujienų grupėse, teikia elektroninio pašto paslaugas, siūlo prekių elektroninėse parduotuvėse, verslo partnerių – geltonuosiuose puslapiuose ir t. t. Reikiamą informaciją Internete norime rasti sugaišdami kaip galima mažiau laiko. Tam reikalingi paieškos pagalbininkai. Paieškų sistemos gali būti tarptautinės ir nacionalinės.
Nacionalinė paieška
Pagrindinis reikalavimas, kurį turi atitikti lietuviškos paieškos sistemos – kad paiešką būtų ggalima atlikti naudojant specifinius lietuviškus rašmenis (ą, č, ę, ė, į, ž ir t. t.). Paieškos sistemos tinklapyje turi būti vartojama taisyklinga lietuvių kalba. Nemokantiems užsienio kalbų nacionalinės paieškų sistemos yra vienintelė galimybė greitai rasti reikimą informaciją.
Lietuviškų paieškos sistemų apžvalga
Paieškos ssistema Galimybės, privalumai, trūkumai
Seklys paieška galima pagal reikšminį žodį arba pagal temas
randama daug ir tikslios informacijos ir šiukšlių
nesupranta loginių operatorių AND, OR ir NOT
Centras e-paštas
valiutų kursai, žaidimai
paieška pagal reikšminį žodį
nuorodos daugiausia apie politiką
Delfi paieška pagal reikšminį žodį galima sakyti neveikia, rezultatų nerandama
Omnitel Iš lietuviškų paieškos sistemų geriausiai veikia. Tiesa, gan daug šiukšlių. Tačiau pirmieji 5 rasti puslapiai tikrai pateisina lūkesčius.
Omnitel paieškos paslauga dažnai užlūžta ir laikinai neveikia.
Paieškai naudojant lietuviškas sistemas, patartina naudoti Omnitel.
Tarptautinė paieška
Didžiosios tarptautinės paieškos sistemos dažnai siūlo galimybę pasirinkti kalbą, kuria norime ieškoti. Galima greitai rasti informaciją, saugomą kaimyninėse valstybėse bei kituose žemyno kompiuteriuose.
Tarptautinių paieškų sistemų apžvalga
Paieškos sistema Galimybės, privalumai, trūkumai
Google paieška pagal įvestą žodį, išplėstinė paieška
nesupranta loginio operatoriaus NOT
informacija randama greitai, gana tiksli, dokumentai pateikiami su paryškintais paieškos žodžiais
praneša apie gramatiškai blogai suformuotą rraktą
Yahoo paieška pagal įvestą žodį, išplėstinė paieška
darbo paieška
e-paštas
tiksli informacija, tačiau randama mažai šaltinių
nesupranta loginio operatoriaus NOT
Infoseek Įtraukia į paiešką mažyčius žodelius (pvz.: į, nes, ne)
ieško su didžiosiomis raidėmis, kad būtų sukurta tiksli žodžio reikšmė
nesupranta loginio operatoriaus NOT
Go Ypač gerai atlieka mišrią paiešką.
Operatorių AND ir NOT kartais supranta kaip ieškomą žodį.
Kartais ignoruoja paiešką ir dauguma raidžių paverčiamos į hieroglifus.
Geroje paieškos svetainėje turi būti lengvai ir greitai kuriamos užklausos bei gaunami tokie rezultatai, kuriuose nuoroda į reikiamą puslapį būna tarp pirmųjų paieškos rezultatų. VVisos paieškos svetainės svarbą nustato skirtingai. Daugelis pagal tai, kokioje aptikto dokumento vietoje yra užklausoje minimi žodžiai – jei jie yra dokumento pradžioje, puslapis įvertinamas aukštesniu balu. Paieškos svetaines galina vertinti remiantis penkiais pagrindiniais kriterijais: rezultatų tinkamumu, paieškos tikslinimo savybėmis, naudojimo paprastumu, neveikiančių nuorodų procentu, rezultatų operatyvumu. Tačiau rezultatai labai priklauso ir nuo to, kokios informacijos ieškome. Tiksliai įvesta užklausa taip pat dar nereiškia, kad rasime reikiamą informaciją.
Speciali paieška
Daugelį tinkle esančios informacijos galima rasti naudojant bendrosios paskirties paieškos svetaines. Tačiau tokiais atvejais galime nieko nerasti arba rezultatų gali būti per daug. Tuomet galima pasinaudoti teminės paieškos tinklapiais ir įrankiais. Teminės paieškos svetainės atlieka tik tam tikros informacijos paiešką, atmesdamos kriterijų neatitinkančią informaciją. Pavyzdžiui:
Paieška vaikams – www.yahooligans.com
Naujausia informacija – www.lycos.com/news
Paieškos svetainių paieška – www.searchengineguide.com
On – line, off– line paieška
Visos anksčiau minėtos paieškos sistemos yra on-line tipo. Suformavus paieškos užklausą yra iš karto pateikiami paieškos rezultatai, informacijos yra ieškoma tiesiogiai ir reikia pastoviai būti prisijungus prie Interneto.
Off–line paieškos varikliai (pvz: Copernic) yra programos, kurias galima parsisiųsti bei įdiegti į savo kompiuterį ir naudojantis naršyklėmis (Internet Explorer) vykdyti paiešką Internete. Kai į paieškos lauką įrašomas paieškos žodis/frazė ir paleidžiama paieška, off-line paieškos sistemos vykdo paiešką “on-line” ir pateikia paieškos rezultatus, kurių sąrašą galima pperžiūrėti atsijungus nuo Interneto. Paieškos rezultatų sąraše dažniausiai yra pateikiamas dokumento pavadinimas, trumpas aprašas, naudingumo įvertinimas, kokiame paieškos variklyje dokumentas surastas. Paspaudus ant dokumento pavadinimo, informacija yra atsiunčiama į kompiuterį. Off-line leidžia išvengti nesklandumų jungiantis ir dirbant Internete, visi paieškos rezultatai pateikiami iš karto, nereikia rinktis “next page” kaip on-line paieškų sistemose.
Paprasta paieška
Naudojant paprastą paiešką galima be didelio vargo rasti reikiamą informaciją jei gerai žinome užklausos formulavimą. Nepatyręs vartotojas dažnai neišnaudojama puikios paieškos sistemų galimybės – pagerintos paieškos.
Pagerinta paieška
Skirtingų paieškos sistemų išplėstinės paieškos funkcijos gali būti labai įvairios, tačiau visų jų tikslas – padėti vartotojui išsamiau apibūdinti tai, ko jis ieško, patikslinti ieškomos informacijos sąlygas, pašalinti tuos duomenis, kuriuose yra nepageidaujamų terminų. Kai kurios paieškos sistemos loginius operatorius taiko automatiškai.
Kai kuriose svetainėse rezultatams pagerinti skirti meniu ar papildomi laukeliai, kurie leidžia pasirinkti, ar ieškoti puslapių, kuriuose aptinkama tiksli įvesta frazė, ar tų, kuriuose aptinkami visi frazės žodžiai, ar tų, kuriuose yra bent vienas frazėje esantis žodis.
Paieškos priemonių pasirinkimo pagrindimas
Šiame darbe naudojau Google ir Omnitel (kadangi jos pateikia tiksliausius rezultatus ir gausiausius) paieškos sistemas. Internete informacijos apie antivirusinę programinę įrangą yra gausu, todėl yra svarbu, kad paieškos sistemos kuo tiksliau atrinktų rastus duomenis ir informaciją. Mano pasirinkta tema yra “antivirusinės programinės įįrangos analizė”. Todėl daugiausia naudosiu užklausas: antivirusas +”programinė įranga” –vaistai +prekyba +komentarai +nuomonės. Užklausas atliksiu lietuvių ir anglų kalbomis.
Interneto paiešku detalus nagrinėjimas
Prie mano temos priskirta tarptautinė paieškos sistema http://msdn.microsoft.com/ . Lietuviška (nacionalinė) paieškos sistema nebuvo nurodyta todėl ją pasirinkau savarankiškai. Pasirinkta sistema: http://www.search.lt/ .
Nacionalinė paieškos sistema “search”
Search.lt – tai paieškos sistema ir lietuviškojo interneto išteklių teminis katalogas. Čia galima ieškoti ne tik įmonių, informatyvių, pramoginių, asmeninių ir kitų interneto svetainių, bet ir naujienų, straipsnių, nuotraukų, paveiksliukų, vaizdo bei garso įrašų ir kitų multimedijos produktų, knygų.
Sistemos lankytojai gali matyti užregistruotų Search.lt kataloge bei naudojančių tinklapių statistikos ir reitingų sistemos Top 100 skaitiklius puslapių lankomumą bei procentais išreikštą populiarumą. Apsilankius skyriuje Statistika, galima sužinoti, ko daugiausiai ieško lietuviškojo interneto vartotojai.
Search.lt nuorodų katalogas yra nuolat plečiamas, papildomas bei atnaujinamas.
Search.lt privalumai
Paieška galima lietuvių, vokiečių, anglų ir rusų kalbomis. Paieškos sistemoje Search.lt informacijos galima ieškoti teminiame nuorodų kataloge, kur vienaip ar kitaip su Lietuva susijusios interneto svetainės sugrupuotos į kategorijas pagal temas, visuose lietuviškojo interneto tinklapiuose, UAB „Penki kontinentai“ interneto svetainėje, naujienų tarnyboje News.lt, elektroniniame žurnale Online.5ci.lt, elektroninėje parduotuvėje. Vartotojas gali pasirinkti paieškos būdą, užduoti papildomus bei keisti pagal nutylėjimą nustatytus paieškos parametrus (kalbą, datą, rezultatų rūšiavimą ir kt.), pasirinkti patogią
rezultatų vaizdavimo formą (abėcėlės tvarka, pagal tinkamumą, populiarumą, datą, su komentarais ar be ir kt.). Vartotojų patogumui nuorodų kataloge pateikiamas puslapių aprašymus, pagal kuriuos galima spręsti, ar puslapyje pateikiama informacija atitinka tai, ko ieškoma. Galima grupuoti paieškos rezultatus po 10, 20, 25, 50. Jei nieko nepasirinksite, pagal nutylėjimą paieškos rezultatai bus rodomi po 20 dokumentų. Puslapiai rodomi nuo didžiausią tinkamumą turinčio puslapio iki mažiausią tinkamumą turinčio puslapio mažėjimo tvarka.
Search.lt trūkumai
Randama labai mažai informacijos, kartais ir visai nerandama
Paieška teminiame Search.lt nuorodų kkataloge
Search.lt nuorodų kataloge vienaip ar kitaip su Lietuva susijusios interneto svetainės sugrupuotos į kategorijas pagal temas. Informacijos čia galima ieškoti dviem būdais:“keliaujant“ po kategorijas ir įrašant žodį į paieškos langelį kartu pasirinkus „Ieškoti kataloge“. Tereikia įrašyti žodžius, pagal kuriuos norite ieškoti ir pasirinkti „Ieškoti kataloge“. Ši paieška yra vykdoma pagal nutylėjimą, jei jokio kito paieškos būdo prieš tai nepasirinkote. Įrašę žodžius į paieškos langelį ir paspaudę mygtuką „Ieškoti“, po kelių sekundžių pamatysite tik tuos puslapius, kurių pavadinime, aprašyme, raktiniuose žodžiuose aarba adrese bus rasta užklausą atitinkančių žodžių.“Keliaujant“ po kategorijas galima pasirinkti, kuriame pogrupyje ieškoti svetainės. Siaurindami paieškos sritį, prieisite prie kategorijos, kuri tiksliausiai apibūdina Jūsų ieškomą svetainę. Nuorodos kataloge grupuojamos pagal abėcėlę, todėl lengvai galėsite surasti reikiamą svetainę pagal pavadinimą. VVartotojų patogumui prie kiekvienos nuorodos pateikiamas trumpas jos aprašymas.
Paieška puslapiuose
Search.lt paieškos sistemoje informacijos galima ieškoti ne tik pagal nuorodų kataloge esančių svetainių pavadinimus, aprašymus bei raktinius žodžius, bet ir pagal tų svetainių kiekvieno puslapio turinį (t. y. visus žodžius, kurie minimi tose svetainėse). Tokiu būdu paieška vykdoma visose lietuviškojo interneto puslapiuose. Tereikia į paieškos langelį įrašyti ieškomus žodžius ir pasirinkti „Ieškoti puslapiuose“.
Išplėsta paieška
Išplėsta paieška suteikia vartotojui papildomų galimybių ieškant lietuviškojo interneto puslapiuose: Ieškoti reikiamų žodžių ar frazių visame dokumente. Ieškoti reikiamų žodžių ar frazių tik dokumento pavadinime. Ieškoti reikiamų žodžių dokumento interneto adrese (URL)
Tereikia įrašyti ieškomus žodžius arba frazę į atitinkamus laukelius: „Dokumente turi/neturi būti“; „Pavadinime turi/neturi būti“. Tuomet tarp paieškos rezultatų bus tik tie dokumentai, kuriuose arba kurių pavadinimuose mminimas/neminimas įrašytas žodis.
Apie Google.lt
Google tikslas yra suteikti jums geriausios paieškos Internete pojūtį, ir pasaulio informaciją padaryti visuotinai prieinama ir naudinga. Google, didžiausio pasaulyje paieškos variklio kūrėjas, siūlo greičiausią ir lengviausią būdą rasti informaciją tinkle. Peržiūrėdamas daugiau nei 1,3 milijardo puslapių, Google pateikia tinkamus paieškos rezultatus vartotojams visame pasaulyje, paprastai greičiau nei po pusės sekundės. Šiuo metu Google kasdien apdoroja daugiau nei 100 milijonų paieškos užklausų.
Apie Google.lt technologiją
Išradinga Google paieškos technologija ir daili vartotojo sąsajos išvaizda išskiria Google iš kitų ššiandieninių pirmosios kartos paieškos sistemų. Užuot naudojusi tik raktinių žodžių arba metapaieškos technologiją, Google sistema remiasi sudėtinga, šiuo metu patentuojama, PageRank™ technologija, kuri užtikrina, kad svarbiausi rezultatai visuomet būtų rodomi pirmiausia. PageRank objektyviai įvertina Interneto puslapių svarbumą. Šis rodiklis apskaičiuojamas sprendžiant lygtį su 500 milijonų kintamųjų ir daugiau nei 2 milijardais narių. PageRank naudoja plačią Interneto nuorodų struktūrą kaip organizavimo priemonę. Iš esmės, Google vertina nuorodą iš puslapio A į puslapį B kaip puslapio A „balsą“ už puslapį B. Google vertina puslapio svarbą pagal jo surinktus balsus. Google taip pat analizuoja ir „balsavusįjį“ puslapį.
Sudėtingi automatiniai Google paieškos metodai užkerta kelią žmonių įsikišimui. Skirtingai nei kitos paieškos sistemos, Google sudarytas taip, kad niekas negali nusipirkti geresnės vietos tarp rezultatų ar kitaip įtakoti rezultatus komerciniais tikslais. Google paieška – tai sąžiningas ir objektyvus būdas lengvai rasti kokybiškus tinklapius.
Google.lt saugo puslapius savo atmintinėje
Daugybę puslapių Google saugo savo laikinojoje atmintinėje tam, kad pateiktų juos jums puslapio tarnybinės stoties darbo sutrikimo atveju. Google atmintinėje išsaugotos medžiagos peržiūra dažnai yra žymiai greitesnė, nei įprasto tinklapio, tačiau taip pateikiama informacija gali būti pasenusi.
Google naudojasi išskirtiniu pažangios techninės ir programinės įrangos deriniu. Jūsų patiriamas sistemos veikimo greitis iš dalies priklauso nuo mūsų paieškos algoritmo efektyvumo, o iiš dalies – nuo tūkstančių pigių kompiuterių, kuriuos mes sujungėmė, sukurdami itin greitą paieškos variklį.
Mūsų programinės rangos šerdis yra PageRank – sistema, skirta tinklapių įvertinimui, sukurta mūsų įkūrėjų Larry Page’o ir Sergey Brino Stanfordo Universitete. O kol dešimtys inžinierių kasdien dirba, siekdami pagerinti kiekvieną Google aspektą, PageRank ir toliau lieka visų mūsų Interneto paieškos priemonių pagrindu.
PageRank principų paaiškinimas
PageRank remiasi unikaliai demokratiška interneto prigimtimi ir naudojasi interneto nuorodų struktūra kaip atskiro puslapio vertės matu. Iš esmės, Google vertina nuorodą iš puslapio A į puslapį B kaip puslapio A balsą už puslapį B. Tačiau Google žiūri ne vien į balsų (nuorodų) skaičių, sistema taip pat analizuoja ir balsuojantįjį puslapį. Balsai, kuriuos atiduoda puslapiai, kurie patys yra „svarbūs“, vertinami aukščiau ir padeda kitus puslapius padaryti „svarbiais“.
Svarbūs, aukštos kokybės tinklapiai gauna aukštesnį PageRank įvertinimą, kurį Google taiko kiekvieną sykį vykdant paiešką. Žinoma, svarbūs puslapiai jums nieko nereiškia, jei jie neatitinka jūsų užklausos. Taigi Google derina PageRank su sudėtinga teksto atitikimo technologija, taip pateikdamas puslapius, kurie yra tiek svarbūs, tiek ir atitinkantys užklausą. Nuspręsdamas, ar puslapis atitinka jūsų užklausą, Google naudojasi ne vien tik žodžio pasikartojimų puslapyje skaičiumi, bet ir atsižvelgia į visus puslapio turinio aspektus (bei puslapių, kurie turi nuorodų į ttą puslapį, turinį).
Ypatingos Google.lt savybės
Vaizdų paieška (Bandomoji versija)
Google Vaizdų paieška yra išsamiausia internete, jos sąrašuose yra virš 250 milijonų vaizdų, prieinamų peržiūrai. Norėdami naudotis vaizdų paieška, eikite į išplėstinės paieškos puslapį arba http://www.google.com/imghp?hl=lt ir įveskite užklausą vaizdų paieškos laukelyje, tuomet paspauskite „Paieškos“ mygtuką. Rezultatų puslapyje, paspauskite ant sumažinto vaizdo, ir išvysite jį visu dydžiu, o taip pat kartu su puslapiu, kuriame šis vaizdas yra. (Pastaba: vaizdų paieška prieinama ne visomis Google sąsajos kalbomis). Google vaizdų paieškos aptiktiems vaizdams gali būti taikomos autorinės teisės. Nors jūs ir galite aptikti ir pasiekti vaizdus naudodamiesi mūsų paslauga, tačiau mes negalime jums suteikti jokių teisių jais naudotis bet kokiais tikslais, išskyrus jų peržiūrą internete. Taigi, jei norite naudotis vaizdais, rastais mūsų sistemos pagalba, patariame susisiekti su tinklapio savininkais ir gauti reikiamus jų leidimus.
PDF failų paieška
Nuo šiol tarp Google paieškos rezultatų pateikiami ir failai Adobe PDF formatu. Nors PDF failai nėra taip plačiai naudojami kaip HTML failai, tačiau juose dažnai yra vertingos, kitur neprieinamos informacijos. Mėlynas užrašas [PDF] prieš antraštę rodo, kad šis dokumentas yra PDF failas, o ne nuoroda į tinklapį. Tai reiškia, kad dokumentas bus atverstas Acrobat Reader programa. PDF dokumentą pasieksite paspaudę antraštę [PDF] užrašo dešinėje. (Jei jūsų kompiuteryje nėra Adobe
Acrobat programos, jūs pateksite į puslapį, iš kurio nemokamai galėsite ją parsisiųsti.). PDF failų atveju, įprastinę „Google kopija“ nuorodą pakeičia „Tekstinė kopija“. Tekstinė kopija – tai PDF dokumento kopija, iš kurios pašalintos visos formatavimo komandos. Jei nenorite matyti PDF dokumentų tarp užklausos rezultatų, kartu su ieškomais žodžiais tiesiog įrašykite -filetype:pdf paieškos laukelyje.
Atmintinėje išsaugotos nuorodos
Interneto peržiūros metu Google kiekvieną puslapį išsaugo savo laikinojoje atmintinėje tam atvejui, jei originalas būtų neprieinamas. Jei paspausite „Google kopija“ nuorodą, išvysite puslapį, kaip jis atrodė mums jjį peržiūrint. Atmintinės turinį Google naudoja spręsdamas, ar šis puslapis atitinka jūsų užklausą.
Atvertus atmintinėje išsaugotą puslapį, jo viršuje rodoma Google antraštė, skirta priminti, kad tai tėra tik atmintinėje išsaugota puslapio kopija, o ne pats puslapis. Atmintinėje saugomoje kopijoje išskiriami žodžiai, atitikę jūsų užklausą, kad jums būtų lengviau suprasti, kodėl šis puslapis yra tinkamas jūsų užklausai.
„Google kopija“ nuorodos nebus prie nuorodų į tinklapius, kurie dar neįtraukti į Google sąrašus, o taip pat prie nuorodų į tinklapius, kurių savininkai paprašė mmūsų pašalinti atmintinėje saugomą turinį.
Naudota literatūra:
www.lycos.com/news
www.searchengineguide.com
http://msdn.microsoft.com/
www.tingiu.lt
www.speros.lt
www.merketing.lt/index.php
www.biblioteka.lt
http://altavista.com
http:/interneto.takas.lt/straipsniai.php?
www.hot.lt
www.ivpk.lt/opensource/docs/
http://elnet.lt/vartiklis/internet/search/nr.1.htm