Printtaa tämä artikkeli Printtaa tämä artikkeli

Paljon on netissä asiaa ja vähemmän asiaa. Mihinkä ne sitten aikanaan häipyvät? Vaikka sivut voivat poistua, niin netin sisältö on arkistoitu jo vuodesta 1997 lähtien. Sieltä niitä pääsee kuka tahansa katsomaan.

Kun kirjoittaa nettiin, niin tuntuu siltä, että nämä ovat vain päiväperhosia, oman aikansa eläviä. Mutta näin ei olekaan. Nykyisin voidaan sanoa, että mikään ei häviä netistä.

Olet varmasti törmännyt vanhoihin sivustoihin ja foorumeihin, jotka eivät enää toimi, mutta silti ovat hyvin nähtävissä. Ne eivät poistu, sillä servereistä otetaan varmuuskopioita ja sivut siten arkistoituvat usein tietymättömän pitkiksi ajoiksi.

Internet Archive Wayback Machine

Lisäksi vuodesta 1997 lähtien on ollut muitakin tapoja arkistoida Internetin sisältö. Miten se on mahdollista? Eikös se vaadi aivan tavattomia tehoja ja säilytysmahdollisuuksia? Kyllä vaatii, muta homma on teknisesti hyvin hallinnassa. Siellä on 4,5 miljoonaa petatavua tiedostoja. Joka kuukausi tulee lisää yli 150 tetratavua.

Projekti säilöö netin koko sisällön kahden kuukauden välein. Jos sinulla on sivusto, niin sekin säilötään. Jos kirjoitat tai valokuvaat jotakin nettiin, niin sekin säilötään. Tämän kaiken vaatimat laitteistot ja niiden keräämät tiedot on mahdutettu n. yhden kontin kokoiseen tilaan. Huipputekniikka sallii kaiken tiivistyksen noinkin kohtuullisiin puitteisiin.

Myös arkiston sivuston käyttö on vilkasta. Waybackissa vierailee päivittäin yli 200.000 käyttäjää. Sinne on kaikilla vapaa pääsy. Kun vain tiedät, mitä sivustoa tarvitset, niin se löytyy arkistoista. Sivuston pääsivulta pääsee eteenpäin. Sivustolla on myös keskustelufoorumi, jossa voi kysyä Wayback-arkistosta ja sen käytöstä.

Kaipaatko jotakin sivua, jota ei enää jostakin syystä ole/löydy? Silloin on hyvä muistaa, että Internetissä on toimiva arkistointijärjestelmä.

Linkki; Internet Archive Wayback Machine:

http://www.archive.org/web/web.php

Share

Tagit:

14 kommenttia juttuun “Mikään ei häviä netistä – kaikki arkistoidaan”

  1. Arsi sanoo:

    Ei löytynyt yhtä tarvitsemaani sukuseurasivua. Tuli vain ilmoitus : hrm…

     

  2. Neptun sanoo:

    Miten vanha sivu on?  Onko se vanhempi mitä seuranta on toiminut?  Myös etsintätiedoissa voi olla virhe.  Periaatteessa maailman web-arkisto toimii hyvin.  Ainakin itse olen sieltä löytänyt kaikki tarvitsemani ja esim. mediat käyttävät sitä ahkerasti hyväkseen.

  3. hmm sanoo:

    Tuota noin.

    Näin jo ties kuinka monta vuotta (äkkiseltään arvioituna jo ainakin 10 vuotta) archive sivua käyttäneenä. Olen huomannut saman mitä Arsi kirjoitti.

    Kyseinen archive sivusto EI tallenna jokaista sivua. Se myös hukkaa paljon ala-sivustoja.

     

  4. Neptun sanoo:

    Täytyy uskoa asiaa kokeilleita.  Hyvä tietää, että noin voi tapahtua. Kai kuitenkin periaatteessa voidaa sanoa, että lähes kaikki löytyy.  "Mikään ei häviä…" on lähinnä pelotteluksi niille, jotka uskovat omien pahojen mokiensa häviävän netistä.  Sen varaan ei voi laskea, vaikka arkisto ei ihan kaikkea löytäisikään.

  5. Pekka sanoo:

    Totta toinen puoli, eli web.archive:sta ei löydy läheskään kaikkia sivuja. Olen käyttänyt tätä arkistoa jo parin vuoden ajan, joten tiedän, mistä puhun. Web.archive on tosi hyvä, sillä olen tehnyt lukuisia hyviä löytöjä; mm. mielenkiintoisia uutissivuja. Lisäksi olen kokenut myös paljon karvaita pettymyksiä, kun etsimääni sivua ei löydy: Eipä tietenkään, jos kukaan ei ole sitä tallettanut arkistoon. Siksi kehoitan teitä kaikkia, jotka tämän luette: Tallettakaa internet-sivuja nykyistä ahkerammin web.archiveen! Ei vain mm. uutisten etusivuja, vaan erityisesti niitä uutisartikkeleita! Tärkeitä ovat mm. yle.fi/uutiset, http://www.mtv.fi/uutiset jne. Myös menneitten vuosien sääennustukset ovat mielenkiintoista tutkittavaa. Forecan sivuissa riittää talletettavaa. Eivät ne kuitenkaan itsestään lennä web.archiveen, vaan ainoastaan jonkun avuliaan käyttäjän tallettamana.

  6. Neptun sanoo:

    Kiitos Pekka kokemuksista.  Arkiston alkuperäinen tarkoitus lienee, että se löytää kuten Google itse kaikki sivut. Kai sillä nytkin on jotkin hakualgometrit, sillä tuskin sinne tavavattoman laajasta kokonaisuudesta monikaan sivuja itse tallentaa.  Ihmisten kannalta katsoen on myös vaikea tietää, mitä tulevaiuudessa tarvitaan ja mitä sieltä esim. tutkijat tulevat etsimään.  Onhan tämä meidän monumettejämme jälkipolville.  Toivottavasti ei käy niin kuin muinaiselle Palmiran kaupungille!

  7. Ismo Kyllönen sanoo:

    Pekka kirjoittaa asiaa. Itelläni on just samoja kokemuksia tuosta arkistosta: Löytämisen iloa, sekä monet pettymykset. Olen myös havainnut, että  vanhat sivut tallentuivat ennen vain osittain; mm. Paltamon lukiolle tuli kotisivut joskus 1990-luvun loppupuolella. Olen onnistunut löytämään niitä. Se olikin oma seikkailu, sillä kotisivujen osoite muuttui jossain vaiheessa. [Tyypillistä, joka aina hankaloittaa vanhojen sivujen löytämistä]. No löysin lopulta ne vanhat sivut ja luin mm. erään luokan matkasta Ruotsiin. Kaikki teksti on tallessa, mutta kuvat eivät! Kaikki kuvat puuttuvat. Niiden paikalla oli vain punainen rasti. Tämä on erittäin tyypillistä vanhoille internetsivuille. Harmi!

    Toinen asia, josta aion nyt puhua, on sivujen talletukseen liittyvät haitat. Sivujen tallettaminen ei nimittäin ole aina niin vaivatonta. Tuon tuostakin tallennus epäonnistuu ja lukee, että BUMMER  This url is not available on the live web or can not be archived. Kun sitten painaa F5-näppäintä, niin se sivu usein tallentuu. Joskus taas ei, joten on käynyt niin, että kun Bummer ilmoitus on tullut uudestaan, niin olen kiivastunut ja ruvennut takomaan f5:sta oikein monta kertaa. Tulos on se, että sivu on tallentunut arkistoon. Mutta ei vain yhden kerran, vaan 5, 10, tai jopa 15 kertaa niin, että sielläpähän on! Syytä tähän Bummer ilmoitukseen en tiedä, mutta aina harmittaa, milloin se tulee.

    Arkistoon tallettaminen ei tosiaankaan ole  vaivatonta. Se on hidasta, Bummer esiintyy usein ja jotkut sivut eivät tallennu ollenkaan. Kaikkien näitten, sekä muiden vastoinkäymisten takia ei arkisto ole vastannut  sitä tarkoitusta,  mikä sillä oli alun perin. Mutta toisaalta; on siinä silti ainakin vähäsen jotakin, mitä myöhemmät sukupolvet voivat tutkia, jos talletetut sivut vain löytyvät edes jollain konstilla:-)

  8. Neptun sanoo:

    Tuo kuvien tallennus – tai siis tallentumattomuus – on mielenkiintoinen juttu.  En ole varma miten se tarkalleen internetarkistossa menee, mutta voi riippua siitä minne kuvat on aikoinaan ladattu. 

    Ennenaikaan kuvat piti tallentaa jonnekin nettiin ennen kuin ne sai näkymään.  Niinhän on nykyäänkin, mutta kuvien tallennuspaikat ovat paljon vakaampia.  Kuvien näkyvyysaika oli netissä hyvin vaihteleva, joko pysyvästi tai lyhen aikaa ja sitten siltä väliltä.  Löysi helposti nettisivuja, joissa kuvia ei enää näkynyt.  Oli vain tuo Ismon mainitsena punainen kruksi. Toinen mahdollisuus on noiden kuvien heikko linkitys.  Upotuslinkki ei toimi tai toimii puutteellisesti.  Miten kauan internetarkiston robotti odottaa kuvien lataantumista?

    Näillä sivuja lukevilla roboteilla on omia ihmellisiä tapojaan.  Esim. Googlen sisällön indeksoijat eivät välitä lainkaan kuvista, vain teksteistä. Sitten Goolella on on myös robotteja, jotka hakevat minenomaan kuvia.

    Jos aikaa olisi olisi kiva tutkia tuota tarkermmin.  Pitäisi päästä puutuvan kuvan jäljille ja sitten metsästää, missä se on aikoinaan ollut.

  9. Ismo sanoo:

    Jatkoa edelliseen. En nyt muista, mikä se Paltamon lukion vanhojen sivujen osoite on. Olisin laittanut siitä Ruotsin matkasta linkin tähän. Toinen hyvä esimerkkisivu on taas Kuhmon seurakunnan kotisivut. Niissä on se sama juttu, kuin Paltamon lukion vanhoilla sivuilla: Kuvat puuttuvat. On vain pieni musta neliö ja sen keskellä valkoinen rasti. Esimerkkisivu: http://web.archive.org/web/201.....akunta.fi/  ja vastaavia sivuja näyttää löytyvän arkistosta yli 60, vv. 2008-2016. Tuo, mitä Neptun kirjoitti vastaukseksi mm. Googlen sisällön indeksoijista, sekä sivuja lukevista roboteista, liittyy juuri tähän asiaan. Olen itsekin sitä vähän tutkinut, mutten päässyt alkua pitemmälle. Onneksi nämä "nykyajan" internetsivut (mm. yle.fi/uutiset, mtv.fi/uutiset jne + suurin osa uutissivuista) tallentuvat paremmin, kuin mm. ne Paltamon lukion vanhat sivut. Ainoastaan tallennuksien hitaus, Bummer-häiriöt (ym. arkiston käyttöä haittaavat häiriöt), sekä ajan puute estävät tallentamasta kaikkea sitä, mitä haluttaisi.

    Tähän loppuun vielä kertaus tämän sivun alusta:

    >Projekti säilöö netin koko sisällön kahden kuukauden välein. Jos sinulla on sivusto, niin sekin säilötään.

    En kyllä usko. Olisi se maailman ihme, jos koko internetin sisältö todella löytyisi arkistosta.

     

  10. Pekka sanoo:

    Mukavaa, että tästä asiasta on tullut edes vähäsen keskustelua. Ismo on perehtynyt hyvin aiheeseen. Itsekin olen huomannut, että mitä vanhempia t sivut ovat, sitä huonommin ne ovat tallentuneet web.archiveen. Kuvat puuttuvat yleensä aina. Lisäksi monet sivut ovat hajonneet. Esim. Uuden Suomen uutissivut 2000-luvun loppuvuosilta. Tekstit, sekä pääosa kuvista tosin löytyy, vaan sivut ovat muutoin täysin hajalla. Voinen  myös arvata, että niitten tallettaminen on ollut hidasta. Mainitut Kuhmon seurakunnan sivut ovat myös hyvä esimerkkitapaus. Katsoin niitä ja huomasin saman asian: Ei yhtäkään kuvaa! Kaikki puuttuvat. Muitakin saman tyyppisiä sivuja löytyy web.archivesta vaikka kuinka paljon.

    Ismon mainitsema BUMMER on toinen riesa. Esim. Satakunnan kansan uutissivujen talletus on ollut tähän saakka niin takkuista, että olen muutaman yrityksen jälkeen lopettanut kokonaan. Jatkuvasti tulee Bummer-ilmoituksia, eli sivu ei ole tallentunut. Itselleni on myös käynyt samoin, kuin Ismolle, että olen suuttunut Bummereista ja ruvennut painelemaan F5:sta toistuvasti. Kerrankin kävi, että LOPULTA eräs Satakunnan kansan sivu tallentui web.archiveen. Ei silti vain yhden kerran, vaan taisi tallentua jopa 50 kertaa. Onkohan muillakin web.archiven käyttäjillä samoja kokemuksia?

    Ihmettelen myös samaa, kuin Ismo, eli voiko  olla totta, että internetin koko sisältö olisi talletettu web.archiveen; vaikka sitten kahden kuukauden välein. Miksikähän ne kaikki etsimäni sivut eivät sitten löydy?

  11. Eila Kyllikki sanoo:

    Itseäni askarruttaa tai onko mahdollista saada itselle tiedostot tuolta arkistosta jatko käsittelyä varten

  12. Neptun sanoo:

    On se sikäli mahdollista, että kaikki mitä saadaan ruudulle näkymään voidaan tallentaa myös PrintScreen menetelmällä. 

  13. Pekka sanoo:

    Minä täällä taas. Kirjoitin huhtikuussa 2016 kokemuksia web.archiven käytöstä. Aikaa on nyt kulunut jonkin verran ja kokemus lisääntynyt, joten ajattelin kirjoittaa vähän lisää. 

    Hyvää ja huonoa. Viime kesä, sekä syksy olivat aika hyvää aikaa, eli uutissivujen tallettaminen arkistoon sujui melko hyvin. Häiriöitä oli aika vähän. Vain homman hitaus oli haittana, kuten aina. Totta, sillä monien sivujen tallettaminen arkistoon on todella hidasta; mm. MTV:n uutisten verkkosivujen talletukseen menee turhan paljon aikaa. Se johtunee sivuilla olevista lukuisista mainoksista. Olen myös huomannut, että web.archiveen tallettaminen kuluttaa rutkasti enemmän energiaa, kuin muu tietokoneen käyttö.

    Nyt vuoden vaihteen jälkeen ovat häiriöt arkistossa lisääntyneet aina vain enemmän ja enemmän: Talletukset menevät yhä useammin pieleen [tavalla tai toisella], tai sitten sivut tallentuvat arkistoon moninkertaisena. Se on aivan turhaa: Yksi kappale luulisi riittävän. Näin kuitenkin käy yhä useammin. Syynä ei lienee käytössä oleva tietokone, sillä olen kokeillut talletusta useallakin eri koneella ja tulos on sama. Erityisesti MTV:n uutissivujen talletus on tullut nyt niin vaikeaksi, että olen lopettanut niiden tallettamisen kokonaan. Se on loppu nyt! Niin myös kaikki muut uutissivut! En jaksa enää.

    Jopa sääkarttojen talletus takkuaa. Yritin äsken tallettaa oman kotipaikkakuntani tuoreimmat sääsivut [Foreca] ja kyllä oli takkuista. Taidan lopettaa senkin.

    Näitten kaikkien, sekä muitten vaikeuksien lisäksi olen huomannut, että osa talletetuista sivuista häviää: Niitä ei enää myöhemmin löydäkään arkistosta, vaikka ne on talletettu ja osoite on oikea. Eteen tulee ilmoitus Hrm. Wayback Machine doesn't have that page achived jne. Ja kun sitten tallettaa sen sivun, niin kas kummaa: lopputulos on, että sivu onkin talletettu jo aiemmin arkistoon. Eli kyllä se olisi ollut siellä, mutta eipä löytynyt ja niin piti tehdä turha työ.

    Olen nyt kolme vuotta käyttänyt web.archivea lähes päivittäin ja täytyy sanoa, että olen kovin pettynyt. Siksi olen lopetanut kaikkien uutissivujen talletuksen. Kyllä kuulkaa web.archivessa kerätään rahaa vuosittain vaikka minkälaisiin hankkeisiin. Viimeisin sellainen oli viiden miljoonan dollarin tavoite, jotta olisi saatu perustettua digitaalinen kopioarkisto Kanadaan. Tavoite ei vissiin toteutunut. Ainakaan 5 milj. $:n summa ei tullut täyteen. Minusta nekin rahat saisi käyttää web.archiven häiriöitten poistamiseen. Niitä kun näyttää riittävän.

    Onko muilla arkiston käyttäjillä samoja huonoja kokemuksia? Kirjoittakaa ja kertokaa.

     

  14. Neptun sanoo:

    Kiitos Pekka, internet arkiston, sanoisinko ammattimainen käyttäjä!  On vahinko, että tuollaista häiriöitä on ja ne ovat lisääntyneet.  Arvelen kylläkin, että arkisto kokee käyttäjien sinne tallennuksen jotenkin sivuhommaksi. Onhan siinä varmaan työtä automaaittsesti yrittää tallentaa niin paljon kuin mahdollista.

    Tiedoksi Pekalle:  Tämä sinänsä vanha neptunetin artikkeli on edelleen varsin luettu.  Tämän näkee (lukee kokonaan?) päivittäin jopa parikymmentä vierasta.  Lukijoita on siis sinunkin mielenkiintoiselle raportillesi ja kysymyksellesi.  Nyt vain on niin, että kun ollaan Suomesssa, niin emme ole kovinkaan ahkeria kommentoimaan, vaikka tässä sivustossakin se on aivan helppoa.  Toivottavasti niinkin rohkeita silti löytyy!

     

Jätä kommentti

Voit käyttää näitä tageja: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>