Ең бірінші іздеу мен файл жіберу әдістері

Loading...


Дата08.11.2019
өлшемі138.11 Kb.
7.3 Іздеу

  

Біздің уақыттың басты проблемасының бірі  - қажеттіге жету үшін барлық болтын ақпараттық қорларды «тарау »қажеттілігі. Дүние жүзілік өрмектің (World Wide Web, WWW) пайда болуымен, интерелсенді мәліметтерге қарапайым рұқсат, бірақ олардың көлемі бір уақытта айтылмағандай күрт артты. Барлық ақпараттар бойынша бұрынғыдай хабардар болу жеңіл емес. 



Web бойынша саяхат тек қана сілтеме беттері (link pages) арқылы – гиперсілтеме тізімдердің басқа бетке мүмкін болады. Кейін түйін – пәндік көрсеткіштер пайда болды, мысалы тақырып бойынша реттелінген, үлкен гиперсілтеме санын ұстайтын Yahoo!. Кейде пәндік көрсеткіштер басқыш басылымдарды өзімен ұсынылады. Олар мәліметтің барлық көлемін емес, тек қана жариялау моментіне астырушыға мәлім бөлімді ғана алып жатады.

Іздеу машиналардың (search engines) жағдайын құтқарады. Бұл ақпарат қорларының (көбінесе бұл мәліметтер шығу құжатының толық мәтінін өзімен ұсынады) үлкен саны туралы мәліметті сақтайтын негізінде серверлер. Арнайы мәліметті тауып алу үшін Сізге кілтті сөзді енгізуі жеткілікті. 

 

 



Ең бірінші іздеу мен файл жіберу әдістері

 

Бұрын Wеb-хаттамасының  Интернет кең таралуына дейін құжатты көрсету немесе жіберу үшін әртүрлі әдістер қолданылды. Осы бөлімде біз оларды қарастырамыз.



 

Archie

 

Web пайда болғанға дейін файлға кіру  негізінд FTP-сервер (File Transfer Protocol) арқылы жүзеге асырлған. Ол үшін әрбір серверде сақталатын FТР-сервер (өте көп) аттарын және ақпараттың мінездемелеріне уайымдауы қажет болды.



Пайдаланушыларға мұндай сервер санымен жұмыс істеуге қиын болды.

Archie ақпараттық жүйесі FTP-серверде сақталатын құжат туралы мәлімет ұйымдастыру үшін арналған. Archie-сервер алдымен өзіне танымал файлдар мен қорлар ақпаратын құрады. Бұл мысалы, файл туралы (есім, папка, өлшем, өзгерту күні және т.б.) мета-ақпараты болуы мүмкін. Бір Archie-сервер мәлімет негізі  FTP—сервердің бірнеше файл туралы мәлімет ұстауы мүмкін. Ол жаңа файл тізімімен және файлдың өзгеруі туралы мәліметті толтыра арнайы уақыт арлығы арқылы жаңартылады.

Archie мәлімет негізі ұйымдасқаннан кейін оны пайдаланушыларға ұсындырады. Archie-сервермен әрекеттестігі электронды пошта немесе интербелсенді Telnet, Web-хаттамасы немесе басқа арқылы пакет режимінде болады. Archie қолдануы кезінде FTP-сервердің барлық атты есте қалдыру маңызды емес.

 

 



Gopher

 

Gopher (ағылшыннан gopher – саршұнақ) хаттамасы Интернет лабиринті бойынша саяхат үшін арналған. Ол құжаттаың жеткізу жүйесінің бөлінген клиент-серверлікті өзімен ұсынады. Gopher-клиент қажетті құжатты сақтайтын пайдаланушы үшін иерархию қорын рұқсат жасайды. Пайдаланушы папканы немесе тізімнен файлды таңдауға (Gopher клиент бөлгінің интерыейсінен байланысты клавиатурадан немесе тышқанмен) немесе мәтін іздеуін жүргізу. Бұл кітапханалық каталогті көруді еске түсіреді.



Көбінесе пайдаланушылар іздеуді Gopher каталог серверінің тамырынан бастайды, сосын қажетті есім файлдарын ала иерархиялық құрылымға немесе іздеу сұранымдардың нәтижелеріне бұрылады.

Gopher хаттамасы – TCP-дің 70-ші порт арқылы мәлімет алмасуды жүзеге асырудың  қарапайым клиент-серверлік ессіз хаттама. Клиент серверге мәтін жолын жібереді және мәтін блогі түрінде жауап алады, бөлім ретінде екі алаң қарапайым белгілерді қолданады.  Сервер жауабы шынайы, сол сияқты көрнекті қор аттары сияқты сақтайды. Көптеген Web-браузерлер олар - HTTP-клиенттері, сонымен қатар Gopher-клиенттері бола алады. Web пайда болуымен Gopher хаттамсының танымалдығы азая бастады, өйткені Web-хаттамалар (іздеу машиналармен сәйкес) ұқсас функционалдықты қамтамасыз етеді. Gopher хаттамасы RFC 1436 жазылған.

 

 

Veronica



 

Veronica — «Very Easy Rodent-Oriented Netwide Indеx to Computerized Archives» («кеміргіштер үшін компьютерленген архивтердің өте қарапайым барлықжелілік каталог») — бұл Gopher ортақкіріс серверінде көбінесе ақпарат қорларын тауып алу жүйесі. Gopher үшін Veronica — FTP үшін Archie сияқты. Осылай,   Archie хаттамасы  FTP мүмкіншіліктерін кеңейтеді: бірнеше FTP-cepверлерде сақталатын әртүрлі папкаларда көптеген құжаттарды бір сұраным іздеуге рұқсат етеді. Veronica тәріздес Gopher нәтижелігін артады: кілтті сөз бойынша бір іздеу Gopher(«Gopher-кеңістігінен») әртүрлі серверлердің бірнеше папкаларынан бірнеше құжаттарды шығарады.

Серверлік Veronica бөлімі Gopher бірнеше серверлерінен жаңа бағдарламалық қамтамассыздандырумен ақпарат жинаумен иемденеді. Мәліметтерді алып Veronica Gopher хаттамасы арқылы Gopher-клиен­т үшін рұқсатталған, оларды Gopher серверінде сақтайды.

 

 



Jughead

 

Jughead, Veronica сияқты Gopher жүйесі үшін арналған. Ол Gopher серверінде кілтті сөздер бойынша іздеуді өндіруге рұқсаттайды.



 

 

Z39.50 стандарты

 

Z39.50 стандарты— «кітапханалық қосымша үшін ақпартқа рұқсатталған қызметтер мен хатамалар сипаттамасы» («Information Retrieval Service Defini­tion and Protocol Specification for Library Applications») — әртүрлі типтің бірнеше мәлімет негізінде іздеу үшін сипатталған проблемаларды шешу үшін құрылған. Бұл міндет арнайы білімді – жүйелік сияқты және сол сияқты мәлімет негізінің аймағында талап етеді.



Z39.50 мәлімет негізінде сақталатын іздеу және ақпаратты таңдау үшін екі әртүрлі жүйелер ережелері мен процедуралар әрекеттестігін анықтайды. Z39.50 хаттамасы жадпен (stateful protocol) иемденеді, ал ендеше, клиент бөлік бойынша ақпаратты серверге жіберуі мүмкін. Бірақ сұраным толық рұқсатталған.

Z39.50 АҚШ (National Information Standards Organization, NISO) Ұлттық ақпарат стандартын ұйымдастыру бақылаудың астында, сонымен «Комитет Z39» атымен танылған Американдық ұлттық институт стандарты (American National Standards Institute, ANSI) болады.  NISO кітапханалық және баспа ісін қоса отырып ақпараттық индустрия үшін мәліметті іздеу және таңдау  стандарты дамытады. 1995 жылы  NISO қолдаған  Z39.50 соңғы версиясы «Іздеу және таңдау» (Search and Retrieve, SR) стандартын 1991 жылы ISO қабылдаған ауыстыруға шақырылды. 

Z39.50 жұмысы үшін RFC жазылғандай 2056 URL екі түрі болады: сеансты (session) – префикс «Z39.50s», көптеген мүлікпен интербелсенді режимі және таңдалған (retrieval) - префикс «Z39.50r», ерте анықталған ақпарат таңдауы үшін бір жағдаймен режим. Z39.50 туралы толығырақ RFC 2056, 1729 және 1625-те.

 

 



WAIS қызметі

 

WAIS (Wide Area Information Server) қызметі – бұл жүйені іздеу мен ақпарат жинаудың бірі.  Ол сервер мен клиенттің БҚ, сонымен қатар желілік хаттамадан  тұрады. Пайдаланушылар бұл қызметтің  құралдарын ағылшан тіліне жақын тіл сұранымын құрай отырып бірнеше мәлімет негізінен ақпаратты сұрау мүмкін.  WAIS хаттамасы Z39.50 хаттама версиясының біреуін қолданады. WAIS Gopher сияқты Web-хаттамаларына (және оның негізінде іздеу машиналарына) орнын ұсынатын өзінің позицияларын өткізеді.



 

 

Harvest

 

Harvest көрсеткіш ақпараты және іздеу жүйесі – бұл іздеу, шығару, толтыру, ұйымдастыру, кэштау және ақпаратты көбейту үшін таратылған көрсеткіш қызметі. Harvest сервері толтырулар (gatherers), таратушылар (brokers), объект кэштері (object caches) және  тарату администраторлары (replication managers) көптеген жүйеастылары болады.



Бұл компоненттерді кескіндеуде іздеу үшін және шығу мәліметтерін көрсету мәлімет форматын беруге болады. Lice мәліметі нәзіктілік сұранымдарды құруға жеткілікті рұқсат ету үшін арнайы құрылым формат жүйесінді Harvest — Summary Object Interchange Format (SOIF) сақталады.

Harvest арнайы клиент немесе клиент-серверлің хаттама болмайды. Пайдаланушылар Web-браузер көмегімен Harvest-ке бет бұрады, олар HTTP сервер арқылы Harvest серверімен біріктіріледі.

Harvest қызметінде оның даусыз қасиеттеріне қарамастан Web пайда болуымен күннен-күнге аз бет бұрады. Сол кезде Web-хаттамасының мәлімет алмасуымен қолданылған әртүрлі өндірушілердің іздеу машиналардың танымалдылығының өсуі жалғастырылып жатыр. Кейбір іздеу машиналар Web негізінде Harvest мәлімет жинауын қолданады.

 

 



Web үшін каталогтар мен іздеу машиналары

 

Байланыста Web-тің шапшаң өсуі құжатты іздеу үшін инструменталды құралдарда қажеттілік туындады. Мұндай құралдар HTML-форма клиентін ұсынады. Клиент оны толтырады, кілтті сөзді немесе пәндік тақырыпты анықтайды, ал сосын HTTP хаттамасы бойынша серверге форма жібереді. Серверде форма CGI-көрінісі (Common Gateway Interface) және ISAPI қаражаттары (Internet Server Application Programming Interface) көмегімен өңделеді. (HTML, HTTP, CGI и ISAPI  туралы толығырақ – 12 және 13 тарауларында). Серверде болатын өңдеу мәлімет негізі қолдануымен жүргізіледі.



Бұл мәлімет негізі тематикалық каталог немесе іздеу машиналары көмегімен өзгертеді (келешекте оған интернет арқылы бет бұрады). Екі нұсқаудың артықшылықтар мен кемшіліктері  болады. Тематикалық каталог негізінде аз құжатты қайтарады, жаңартылған түрін емес, бірақ тақырыпты нақты жарықтандырады. Бірақ бұл тек қана қарпайым іздеу аймақтары үшін айқын.  Іздеу машинасы, жаңартылған мәлімет және құжатты маңызды таңдауы ықтимал, бірақ бөліктерінің бірі берілген тақырыпқа сай келмеуі мүмкін. Web өлшемдерін еске ала отырып,  барлық бар құжаттар қандай да бір көрсетілген пәндік немесе бір іздеу машинасы  мәлімет негізін сақтауға болады. Кейбір Web аймағы кейде бір мәлімет негізінтолық көрсету және басқамен көрсетілмеген.

 

 



Тақырып каталогтары

 

Бұрын айтылғандай  Web-те бірінші әдіс іздеуінен URL құжаттардың тізім тақырыптары бойынша тәртіпке салынғаны болатын тақырып каталогтарын құруына негіздейді. Тақырып каталогі кітапхана сияқты ойланған болатын. Каталогты құру кезінде URL құжытты іздеу үшін бағдарламалық құраладрын қолдануға болады. Бірақ кейбір тақырып құжатына сай келетін дәрежені анықтау үшін, адамның араласуын талап етеді.



Тақырып каталогтарының танымалдың біреуі - Yahoo! (http://www.yahoo.com).

 

 



Web үшін іздеу машиналар

 

Барлық іздеу машиналар екі негізгі компоненттен тұрады. Біріншісі мәлімет негізінен ақпаратты таңдау үшін, екіншісі – іздеу критериларына сәйкес мәлімет негізін құру үшін арналған. Соңғысы бағдарлама көмегімен құрастырылады, көбінесе оларды «роботтар», «гусеницалар», «өрмекшілер» немесе  «құрттар» деп атайды.  Web— Lycos, AltaVista, Infoseek, Inktomi және Excite үшін іздеу машиналардың мысалдары.



Іздеу машиналар бір-бірінен ажратылады:

· Іздеу машиналардың роботтармен жауланған Web аймағымен;

· Робот Web-түйіндерге баратын жылдамдықпен;

· Іздеу сұранымына құжат сәйкесін анықтау үшін қолданатын логикамен;

· Нақтылауға кіретін және сұранымды анықтау дәрежесімен;

· Роботпен ақпарат жинау информацию (HTML, HTML-емес, мультимедиа және т.б.) туралы құжат түрі.

Іздеу машиналар әртүрлі мәлімет көлемін жаулап алады және ортақ қасиеттері және өзінің ерекшеліктері болады. Мысалы, 0 AltaVista және Lycos олар ондаған миллион URL жаулап алатыны мәлім. AltaVista роботы robots.txt (келесі бөлімді қараңыз) файлында көрсетілген және үлкен көлемді мәліметті тиімді өңдеу. Робот Lycos роботта robots.txt бағынады, бірақ біріншіден танымал Web-беттерді қарастырады. Одан басқа Lycos мультимедиялық толтыру беттер туралы қорытындыны құрайды. HotBot роботта robots.txt көрсеткіштеріне келеді және Web-түйінін жүктеп іздеуді жүргізіге тарысады. Бұл үшін ол Web-түйін ішіндегі бөлім көшірме жасайды, оны өңдейді және келесі мәлімет порциясы артынан қайтып келеді.

Іздеу машиналар ортақ және арнайы бағытталған болады және анықталған тақырыпқа қатысты құжатты таңдау мүмкін, мысалы, медициналық ақпаратты немесе кейбір публикациядан мақала ішіндегі беттер.

Мета-іздеуді жүзеге асыратын машиналар болады. Олар жеке мәлімет негізін құрмайды, бірнеше іздеу машиналарға кезекпен бет бұрған, ал сосын нәтижені нақтылап және комбинацияланады.

 

 



Web-роботтар

 

Web негізі негізінде – ақпаратты, соңғы пайдаланушыларды сұрайтындарды сақтайтын серверлер, Бірақ пайдаланушылар  өзінің Web-браузерлерімен – жалғыз емес клиенттер.  Робот, «құрттар» немесе «өрмекшілер» (тағы да басқа аттар бар) деп аталатын әртүрлі клиент негізгі бағдарламасын құрайды.



Бағдарлама-робот толық автоматтандырылған, Web-түйін қарастырады және барлық рұқсатталған құжат туралы ақпаратты шығарады.  Осы қозғалыстардың негізгі мақсаты – іздеу машиналары үшін мәлімет негізін құру. Кез-келген нәтижелі іздеу машина Web-роботтың азапталған жасырын жұмыстың нәтижесін өзімен көрсетеді. Роботтарда басқа да тапасырмалар бар, соның ішінде тазарту немесе HTML-құжаттарын көшіру және осы құжаттарда гиперсілтемені қарау.

 

 



Роботтарды өшіру хаттамасы

 

Web-роботтар ереже бойынша НТТР-клиенті болып табылады және HTML-құжаты бойынша «еңбектейді». Басқа типтің мәліметін өңдеу үшін олар басқа хаттамалармен қолдану мүмкін, мысалы NNTP (Network News Trans­fer Protocol), FТР немесе пошталық. Үлкен көлемді мәлімет сақтау орындарында әдетте қандайда бір бағдарлама-робот болады. Пайдаланушымен мөлшерленген ол ақпаратты қандай да бір мақсатты аңдып үздіксіз зерттейді.



Кейде Web-администраторлар қандай да бір себеп арқылы роботтарға Web-түйіндерін немесе олардың бөлек жерін қарастыруға тиым салады. Бұл жағдайда роботтарды өшіру хаттамасын (Robot Exclusion Protocol) қолдану керек — осы түйінде олардың тәрітібін бейнелейтін  робот үшін нұсқау. Хаттаманы негізінде НТТР-серверлердің администраторлары, ал кейде HTML-құжаттарының авторлары қолданады (тбұл хаттама тек қана «әдепті» роботтардың көңіл бөлуіне қолданбалы, яғни жабдықтаушымен механизм танылуы салынған және нұсқаулардың орындалуы). Мұндай роботтар роботтардың сөну (Standard for Robot Exclusion) стандартына сәйкес келеді.

Роботтардың тәртібін HТТР-сервер каталогтің тамырында жатқан бейнелейтін нұсқау арнайы— robots.txt файлға орнатылады. Робот түйінге  хабарласқанда ол алдымен осы файлдың ішіндегісін тексереді.  Егер robots.txt файлы болмаса, онда админстраторда робот үшін ешқандай нұсқаулар жоқ. robots.txt файлы – бұл мәтіннің ASCII-файлы. Ол рұқсатталған және рұқсатталмаған катологтарда көрсетілетін  HTTP__USER_AGENT клиент басғдарламасының (пайдаланушы агенттің түрі) және «Allow...» (Рұқсат беру) мен «Disallow...» (Рұқсат бермеу)  параметр мағынасын бейнелейтін  «User-agent...» (пайдаланушы агент) жолынан тұрады. Пайдаланушы агенттің нақты түрі үшін бір немесе бернеше жолды береді. «Allow...» немесе «Disallow...». Мысалы, robots.tx1үш директивадан тұруы мүмкін:

· robots.txt    үшін  http://www.examplе.org/,    webmaster@example.org  

· Жаман    робот(BadRobot)   тек қана файлға рұқсат болады

· Жаман роботтар үшін

User-agent:    BadRobot

Disallow:   /

Аllow:   /bad-robot-read-this.html

· Жақсы Робот (GoodRobot)   бүкіл жерге рұқсат болады

User-agent:   GoodRobot

Disallow:

· Бір де бір робот mirrors және archives каталог астына кірмейді

User-agent: *

Disallow:    /mirrors

Disallow:    /archives

 

Робот үшін <МЕТА> тегі

 

Робот үшін нұсқаулар Web-түйіннің каталог тамырында robots.txt файлды ғана емес, HTML-құжаттың нақты файлын ұстауы мүмкін. Үлкен Wеb-түйін  HTML-беттері үшін ерекше пайдалы, авторларға каталог серверінің тамырына рұқсат болмайды (robots.txt файлы каталог тамырында ғана расталған). Бұл әдіс мысалы, Интернет қызметінің жабықтау ортақрұқсатталған серверінде орналасқан  персоналды беттер үшін қолданбалы.



НTML- құжатында  <МЕТА> тегі көмегімен арнайы аттар құрылады. Бұл тег келесі синтаксистерге иеленеді:

<МЕТА   NAME="R0B0TS"    C0NTENT="N0INDEX,    N0F0LL0W">

Оған келесі дерективалар расталған:

· INDEX — құжатты индексациялау шығу;

· NOINDEX — құжатты индексацияламау;

· FOLLOW — гиперсілтеме құжаттары бойынша өту;

· NOFOLLOW — гиперсілтемені ескермеу.



Үтірлермен бөлінген дерективаларды <МЕТА> бір тегінде беруге болады..

 

 



Болашақ хаттамалар мен стандарттар

 

Осы бөлімде жазылған хаттамалар әлі дамып жатыр, бірақ олармен танысқаннан Интернетте хаттама туралы іздеу әңгіменің  логиканың бітуі болады



 

 

«Роботтармен басқару» жобасы

 

«Роботтармен басқару» (Robot Guidancе Project)  жобасы  - бұл роботтардың өшу хаттамасының жетілдіру әрекеті. Ағымдағы стандарт негізінде роботтарға рұқсатты шектейді, және ешқандай оң нұсқауларды кіргізбейді. Жаңа стандарт   мазмұн жабдықтау үшін енгізілу мәліметінің жұқа детализация хаттамалармен  құжаттардың  әртүрлі стандарты НТТР және HTML үшін ғана емес, сонымен қатар өшірілгеннің орнына роботтармен белсенді басқарулар мен өлшемдерге тыйым сияқты сұрақтарды қарастырады.

 

 



CIP хаттамасы

 

CIP (Common Indexing Protocol)  хаттамасы — IETF құрамындағы Find жұмыс тобының жаңа жобасы – бұл индексті ақпарат алмасу үшін ортақ хаттама. Ол алдыңғы хаттамалардың Whois++, Х.500 (LDAP) және CCSSO  қоса, айқындамасында негізделген. Оның ішінде сонымен қатар индексті файлдың құрылым үшін SOIF (Harvest жүйесінен) фораты версиясынан біреуі қолданылған. Бұл стандарт әлі өңделіп жатыр, бірақ ол өте танымал.

Достарыңызбен бөлісу:
Loading...


©melimde.com 2019
әкімшілігінің қараңыз

    Басты бет

Loading...