[NUUG logo]
Førstesiden
Nyheter [rss]
Bli medlem
Kontakt
Informasjon
Kalender
Vedtekter
Dokumenter
Styredokumenter
Mailinglister
Wiki
NUUG brosjyre
Kart
NUUG i media
Planet NUUG
Mapit
FiksGataMi
Mimes brønn

Sist endret 2021.10.21 18:55
webmaster@nuug.no

⇐ Nyheter fra NUUG

2013-11-25 - NUUG blir med i arkiveringen av internett

NUUG blir med i arkiveringen av internett

"De fleste moderne samfunn synes det er viktig å bevare gjenstander for sin kultur og arv. Uten slike gjenstander har ikke sivilisatsjonen noe hukomelse og ingen mekanisme som lar den lære fra sine tidligere suksesser og fiaskoer. Vår kultur produserer nå fler og fler slike gjenstander i digital form." - står det på archive.org sin FAQ. NUUG mener det er viktig å ta vare på vår digitale kulturarv. Derfor har NUUG satt opp en Archive Team Warrior for å bidra i Archive Team sitt arbeid med å arkivere internett.

Archive Team er ikke på noen måte forbundet med de flotte menneskene på archive.org selv om det er enkelte personer som overlapper begge gruppene, men er en løst sammensatt gruppe av useriøse arkivarer, programmerere og forfattere. Archive Team ble startet i 2009 og har siden dengang arkivert blant annet Google Reader, Posterous, MobileMe, Tabblo, FanFiction.Net og Geocities.

Alle kan bidra til å arkivere internett! Den enkleste måte å bidra er å laste ned et virtuelt apparat (virtual appliance). Den kjører fint på VirtualBox og krever ikke mye ressurser. Den viktigste ressursen er en ny offentlig ip-adresse, da nettstedet gjerne begrenset trafikken en gitt ip-adresse kan belaste.

Archive Team prøver også å holde litt oversikt over sider som holder på å dø. På denne listen står også My Opera, Opera software sitt sosiale nettsted som skal stenge 1. mars 2014. Her forsøker NUUG å dra igang et samarbeid med Opera Software for å arkivere dette før det fjernes. Mer om dette senere.

Under panseret

Arkiveringen skjer ved at en sentral tracker, som Arkive Team har satt opp, delegerer arbeid til flere. Trackeren er skrevet i ruby, med Redis backend. Første fase av arkiveringen er gjerne å skrape siden for brukernavn eller grupper. Brukernavnene brukes gjerne som oversikt over jobber som skal gjøres. Andre fase er typisk å gå inn på hver brukers områder, skrape disse hver for seg. Metoden for å finne de forskjellige brukernavnene og gruppene blir laget for hånd per side man skal arkivere og når man starter sin warrior så blir denne koden lastet ned og oppdatert. Archive Team har laget et eget rammeverk for dette i python som de har kalt for seesaw. Metoden for arbeidet kalles en "pipeline" eller rørgate.

Pipeline definerer stegene man skal gå gjennom for å gjøre jobben man får tildelt. Sesaw henter en jobb fra trackeren, laster ned noe i henhold til jobben den ble tildelt og pakker det inn som WARC (gjerne med en modifisert versjon av wget), laster dette opp til et sted definert i seesaw (gjerne med rsync) og så sier ifra til trackeren at jobben er utført. Så gjentas dette, over mange maskiner, mange ganger. Til slutt har man lastet ned 7 millioner brukerkontoer.

Tagger: nuug.