Muzej Interneta

This is the HTML version on my article published in NeT, 1997;20:48-51.


Muzej Interneta

Piše: Dr.sc. Zdenko Franić
franic@imi.hr


Možete li vjerovati da je još u lipnju 1993. godine na cjelokupnom Internetu bilo svega 130 Web site-ova (među kojima svega 3 s ekstenzijom .com)? Ti su podaci citirani u članku časopisa Scientific American Searching the Internet (ožujak 1997.), koji se on-line može naći na adresi http://www.sciam.com/0397issue/0397lynch.html. Sami su podaci dostupni na http://www.mit.edu/people/mkgray/net/web-growth-summary.html. Ukoliko se poigramo s tim brojkama, i prikažemo ih grafički (slika 1), već na prvi pogled vidimo da se radi o eksponencijalnoj krivulji:

N(t) = aebt

gdje je N(t) broj Internet site-ova u trenutku t.

Graph How big is WWW


Pođimo i korak dalje, te pokušajmo odrediti parametar b iz eksponencijalnog člana gornje jednadžbe. To se može učiniti pomoću nekog programa za funkcijsko prilagođavanje, npr. sjajnog programa CurveExpert Daniela Hyamsa, koji se može, naravno, skinuti i s Interneta http://www.ebicom.net/~dhyams/cvxpt.htm. Nevjerojatno brzi CurveExpert, za parametar b daje vrijednost b=0.154 mj-1, uz fantastični koeficijent korelacije r=0.999! Može se pokazati da je b=ln(2)/T,odakle slijedi da je T=4.5 mjeseci. To pak laičkim rječnikom znači da se broj siteova na Internetu udvostruči za svega 4.5 mjeseci! Odnosno, u trenutku izlaska ovog broja NeT-a, u listopadu 1997., prema gornjim predviđanjima, Web će imati oko 2.5 milijuna site-ova. Kako se svaki site (odnosno HomePage) obično i dalje grana s glavnog dokumenta-stranice (index.html ili index.htm) na desetke drugih dokumenata, dolazimo do upravo fantastičnog broja URL-ova. Npr., site http://www.geocities.com kompanije Geocities koja između ostalog dijeli besplatne E-mail adrese i besplatni prostor za WWW stranice, ima oko 900000 (devetsto tisuća!) korisnika s individualnim stranicama, pogledajte na http://www.geocities.com:80/BHI/inform.html. Tome broju naravno treba pridodati i URL-ove drugih Internet servisa, kao FTP, Gophera (već izumirućih, ali još uvijek postojećih) itd.

Indeksiranje Weba
I baš kao što je za svaku knjižnicu važan katalog njenih knjiga, Web je za traženje ciljanih informacija koristan upravo oniliko koliko su uspješne tražilice, odnosno Search Engines koje ga indeksiraju. Međutim, mnogi korisnici nisu niti svjesni da njihove omiljene tražilice pokrivaju daleko manje od pola Web stranica. I evo tablice "uspješnosti pojedinih tražilica":

Tablica 1

Search Engine URL Broj indeksiranih Web stranica (milijuni)
Excite http://www.excite.com/ 55
HotBot http://www.hotbot.com/ 54
Altavista http://www.altavista.digital.com/ 30
Infoseek http://lycos.cs.cmu.edu/ 20-50
Lycos http://www.Infoseek.com/ 20-25
OpenText http://www.opentext.com/ 5
WebCrawler http://www.webcrawler.com/ 5


S fenomenalnim rastom Interneta, broj neindeksiranih stranica se sve više i više povećava. Procijenjeno je da je Web imao početkom 1997. godine na 650000 site-ova između sto i sto pedest milijuna stranica. Koliko li ih ima danas? Korisnicima koji traže neku informaciju, zapravo i nije važna činjenica da sve te stranice nisu indeksirane u njihovoj omiljenoj tražilici. Zbog preklapanja informacija, traženi će se odgovor u ovom ili onom obliku već negdje naći. Tu se zapravo pojavljuje i paradoks: jedna je studija pokazala da mnogi korisnici vjeruju kako je tražilica s manjom bazom podataka učinkovitija i to stoga što daje manji broj ciljanijih odgovora ("pogodataka"). To u praksi znači da će mnogi rado koristiti i "majušni" WebCrawler, a ne samo Altavistu ili Excite. Na neki način, to je i istina: oko 90% upita na najpopularnijim tražilicama vodi na oko milijun najfrekventnijih stranica. No, oni koji baš nisu sretni takvim razvojem situacije jesu Webmasteri. Naime, u najvećem broju slučajeva, tražilice su jedini mehanizam kojim se pojedine Web stranice "nude" na uvid drugim korisnicima Interneta. Tako je Webmaster Federacije američkih znanstvenika, http://www.fas.org bio je nemilo iznenađen kada je otkrio da je tek 10%, odnosno 600 od ukupno 6000 stranica na njihovom site-u indeksirano AltaVistom, cijela priča je na http://www4.zdnet.com/anchordesk/talkback/talkback_11638.html. Altaviste naime u nemogućnosti indeksiranja cijelog Weba pokušava dati reprezentativan uzorak svakog Web site-a. Samo ona mjesta s najfrekventnijim prometom bit će bolje pokrivena. Sličan je pristup i Infoseeka. Postavlja se pitanje što "reprezentativan uzorak" znači u slučaju već spomenutog site-a Geocities!? "Nitko ne može smoći toliko hardvera kako bi indeksirao cijeli Web i tim informacijama opsluživao cijeli planet", primjećuje Louis Monier, voditelj tehničke službe u AltaVisti. Slično razmišljaju i u Infoseeku, iako tamo ima i onih ambicioznijih koji bi htjeli da Infoseek indeksira cijeli dostupni Web. Više o problematici pretraživanja Weba može se naći u Search Engine Watch čiji je URL: http://searchenginewatch.com/.


To je korisnicima frustrirajuće, a Webmasterima zadaje dodatne glavobolje, jer moraju stalno provjeravati ispravnost linkova na stranicama koje održavaju. Više o problematici pretraživanja Weba može se naći u Search Engine Watch čiji je URL: http://searchenginewatch.com/.

Vijek trajanja linka
Održavanje kakvoće baze podataka pojedine tražilice otežano je i izuzetnom fluktuacijom linkova. Nasumični uzorak pojednih stranica na oko 2000 site-ova, u jednom istraživanju http://excalibur.usc.edu/cache-html/subsubsectionstar3_4_0_1.html koje je provedeno još 1995. godine ukazuje da tekst na nekoj stranici ostaje nepromijenjen oko 75 dana. Ponekad stranice potpuno iščezavaju, ili se sele na drugu adresu. Procijenjeno je da je prosječno vrijeme trajanja jednog URL-a svega 44 dana! Tako npr. oko 10% stranica indeksiranih u Infoseeku više ne postoji.

Not Found Screenshot


To je korisnicima frustrirajuće, a Webmasterima zadaje dodatne glavobolje jer moraju stalno provjeravati ispravnost linkova na stranicama koje održavaju.

Arhiva Interneta
Virtualni su muzeji već poprilično rašireni Internetom, http://search.yahoo.com/bin/search?p=museum. Evo samo nekih odabranih primjera: svatko bi trebao razgledati Louvre , virtualni dom Mona Lize. Zatim, iako je već u stvarnosti zatvorena, još se uvijek može razgledati sjajna izložba Bidermajer, svojedobno postavljena u Muzeja za umjetnost i obrt. Adresa virtualne izložbe o bidermajeru, toj epohi koja je jedna od najljepših i najzanimljivijih razdoblja umjetnosti u Hrvatskoj jest: http://www.tel.hr/muo/bider/hrv/hbidenas.htm. Oni koje zanima znanost mogu pogledati tek koji mjesec star izložak onoga za što se pretpostavlja da je prvi snimak crne rupe snimljen Hubble-ovim teleskopom, a izložen u Tehničkom muzeju inovacija na adresi http://www.thetech.org/hyper/hubble/. Dakle, jasno je što su muzeji na Interentu, no što bi to bio Muzej Interneta? Radi se o neobično ambicioznom projektu imena Internet Archive, koji za cilj ima sačuvati slučajni uzorak svih slobodno dostupnih dijelova Weba. Inicijator je Brewster Kahle koji je još 1989. godine osmislio WAIS (Wide Area Information Services), preteču suvremenih tražilica http://whatis.com/wais.htm. Već spomenuto neobično brzo nestajanje pojedinih URL-ova jest ono što je, između ostalog, ponukalo Brewstera Kahlea da započne s projektom Internet Archive, kojem bi možda više odgovarao naziv "Muzej Interneta". Internet Archive, bila bi kolekcija podataka, od teksta do video i audio zapisa. Logistika je relativno jednostavna: 10 uposlenika smješteno je u uredima bivše vojne baze Presidio u središtu San Francisca. Računalo koje sakuplja podatke dislocirano je u Kalifornijskom sveučilištu u San Diegu. Softwer koji "prikuplja" eksponate nalik je crawlerima ili spiderima koje rabe tražilice prilikom indeksiranja Weba. Linkovi na obrađenim i prikupljenim stranicama upućuju crawler program na druge adrese itd. (Sjećate li se, svojedobno sjajne, tražilice World Wide Web Worm http://www.goto.com/WWWW.html koji radi na istom principu?). I kao kod tražilica, tekst, grafika, audio zapisi, te ostali podaci nikada ne bi mogli obuhvatiti većinu Weba, bilo zbog hardverskih ograničenja bilo zbog formata. Radi se npr. o PostScript, PDF ili nekom drugom formatu što ih rabe znanstvenici, a prepuni su kompleksnih dijagrama i formula, primjere pogledajte na http://xxx.lanl.gov/, a koje crawler softver ne može obraditi. Isto tako, mnoge kompanije ne dopuštaju pristup na njihove WWW stranice bez pretplate (npr. New York Times http://www.nytimes.com/, Enciklopedija Britannica http://www.eb.com/, itd). Isto tako, indeksiranje otežava i uporaba okvira (frames). "Eksponati" Internet arhive bi se periodički sakupljali, recimo svakih nekoliko mjeseci. Ono što omogućuje ovakav projekt jesu sve niže cijene uskladištenja podataka. Cijena za 1 GB (109, odnosno milijardu bajtova) hard-diska je već ispod 200 US$. Kahle procjenjuje da će mu za projekt trebati oko 2000 GB (2 TB). Ukoliko je to točno, za spremanje podataka potrebna je suma od oko 400000 US$. Puno ili malo? Za usporedbu, Kongresna biblioteka http://lcweb.loc.gov/ jedna od najvećih svjetskih biblioteka, s oko 100 milijuna bibliotečnih jedinica, uključujući oko 30 milijuna knjiga, te milijune rukopisa, karata, mapa itd., ima oko 20 TB tekstualnih informacija.

Mnogo je i poteškoća
Kreiranje Internet arhive otvara nebrojena pitanja, kao pitanje autorskih prava, složenu tematiku uznemiravanja privatnosti itd. Uzmimo primjer studentice koja je na svoj Homepage stavila sliku svoga dečka. Što ukoliko nekada kasnije ona hoće "poderati" i te digitalne slike, a one i dalje žive u muzeju... Ili koji je status digitalnih autorskih radova? Nije li zapravo svaki HomePage na neki način autorski rad? Sva su to pitanja koja se baš ne mogu lako riješiti. Takvi problemi muče i "živi Web", a kako ne bi i arhivu. Jedno od najsjajnijih adresa na kojoj se mogu saznati informacije o tome što se smije, a što ne smije činiti bilo prilikom surfanja, kreiranja ili bilo koje druge akcije na Internetu jest The Copyright Website na http://www.benedict.com/. Svakako ga posjetite! I baš bi Internet Arhiva mogla pomoći razriješiti mnoga sporna pitanja. Naime, nitko ne bi baš olako tvrdio da neki muzej krši copyright, a analogija projekta Internet arhive s klasičnim muzejima je očita. U realizaciji Internet arhive postoje i brojne teškoće tehničke prirode čije je razrješavanje, srećom, u tijeku. Tako The Commission on Preservation and Access http://www.cpa.org iz Washingtona istražuje kako osigurati dugovječnost digitalnih zapisa, s obzirom na činjenicu da se standardni format zapisa vrlo brzo mijenja, pogledajte http://www.oclc.org:5046/~weibel/archtf.html. (Tko se npr. još služi 5.25" disketama?)

I drugi arhiviraju Internet
Internet Arhiva komplementarna je i nekim drugim projektima. Tako The Internet Engineering Task Force http://www.ietf.org/ u suradnji s drugim grupama radi na uspostavljanju tehničkih standarda koji bi davali "jedinstveno identifikacijsko ime" digitalnim dokumentima. Takvi URN-ovi (Uniform Resource Names) zamijenili bi sadašnje URL-ove. Poboljšanje bi se satojalo u tome što bi neki dokument bilo moguće pronaći i onda kada bi nestao link koji je na njega upućivao. I još su neki pokušaji arhiviranja ciljanih dijelova Interneta u tijeku Tako DeajaNews, http://www.dejanews.com, ima arhive poruka sa Useneta, a InReference http://www.reference.com arhivira Internet mailing liste. Obe se kompanije uzdržavaju prihodima od oglašivača, što će vjerojatno biti izvor prihoda i za Internet arhivu.

I drugi arhiviraju Internet
Vidjeli smo da Brewster Kahle procjenjuje da mu je za početak potrebno oko 2 TB (2x1012 bajtova) prostora za arhiviranje reprezentativnog dijela Weba. Kolika je ta procjena realna, čak i glede arhiviranja samo malog segmenta Weba koji bi budućim povjesničarima davao uvid kako su izgledali počeci Interneta? Koji će uostalom biti alati budućih povjesničara? Trodimenzijska računalna vizualizacija sve više postaje nezaobilazna u modernoj znanosti, izuzetno proširujući mogućnosti razumijevanja svijeta koji nas okružuje. Tragom toga, na Internetu se oblikuje nova tehnika "vizualizacije kulturoloških podataka". Znanstvenici i istraživači koristeći softver namijenjen vizualizaciji znanstvenih podataka (npr. kompleksne molekule), arhitektonskim modeliranjima itd., pokušavaju uskrsnuti prošlost. Jedan od paradigmatičnih projekata jest Rome reborn, http://www.aud.ucla.edu/~dabernat/rome/index.html. Taj ambiciozni projekt ima za cilj ostvariti višeslojnu 3-D interaktivnu prividnu stvarnost kojom bi se simulirao grad Rim od 9. stoljeća prije Krista pa do pada Zapadnog rimskog carstva. Četverodimenzijska baza podataka (jedna vremenska i tri prostorne koordinate) će modelirati arhitektonske promjene tijekom cijelog životnog vijeka antičkog grada. Sličan je i projekt The Giza Plateau Mapping Project, http://www.oi.uchicago.edu/OI/PROJ/GIZ/Giza.html. Tu je i projekt virtualni Los Angelos http://www.gsaup.ucla.edu/bill/LA.html, za koji je procijenjeno da će po završetku premašiti 1 Tb. Impozantna brojka, zar ne? Ukoliko bi crawler Internet Archive "naletio" na tu adresu, popunilo bi se pola predviđenog prostora...

Što se u stvari na Webu traži?
Interesantno je pozabaviti se malo interesima najšire internetovske populacije, jer takvi interesi, zbog dinamičnosti Interneta odražavaju i samu njegovu strukturu, pa na taj način i njegovu arhivu, odnosno muzej. Informacije o najfrekventnijim riječima koje se kao upiti postavljaju tražilicama inače su najstrože čuvana tajna. Broj "pogodataka" u tražilicama, a time i broj posjeta, može se znatno povećati stavljanjem odgovarajućih ključnih riječi (koje i ne moraju imati veze sa stvarnim sadržajem dokumenta) naredbom na početak dokumenta. Tu su i neki drugi "trikovi", pogledajte npr. http://www4.zdnet.com/anchordesk/story/story_768.html. Veći broj posjeta nekim je kompanijama od životme važnosti. Stoga se takve informacije i dobro prodaju, pogledajte na http://www.cmgmarketing.com/. Kako bi te termine saznali ipak besplatno, vi otsurfajte do adrese: http://searchenginewatch.com/searches.htm, na kojoj se nalazi niz zanimljivih linkova glede upita tražilicama. Posebice je interesantan WebCrawler Search Ticker http://webcrawler.com/Games/SearchTicker.html, koji u realnom vremenu pokazuje upite koji pristižu WebCrawleru. Zatim, kao u nekom "špijunskom zapletu", nekako su procurile i informacije o najčešćih 200 riječi, odnosno upita, koji su u listopadu 1996. godine postavljeni Yahoo-u. No, ne treba naročita intuicija kako bi se zaključila koja je to magična, najfrekventnija riječ, sveti Gral Webmastera. Naime, 60% najfrekventnijih 20 riječi imaju vezu sa seksom, a sama riječ sex s preko milijun i pol mjesečnih upita ubjedljivo vodi ispred druge riječi chat ("samo" 400000 upita mjesečno). Jobs i employment su rangirani tek oko 30. mjesta sa samo stotinjak tisuća upita. Uostalom, pogledajte i sami, adresa jest http://eyescream.com/yahootop200.html. Dakle, ukoliko bi se slušao vox populi, arhiva Interneta više bi trebala nalikovati muzeju Cybersexa. Za nadati se ipak da će uvijek biti i onih koji će s uživanjem, kao i u klasičnim muzejima razgledati djela prvih pionira Interneta.

Croatian Line

Last Update: 28 October 1997.

[ http://mimi.imi.hr/~franic]

Webtechs Cougar Checked
Webtechs Cougar Checked!

However, please note there are some non SGML characters in text