Forskning och dataintegritet – nu och sen

Säg att du blev överkörd av bussen imorgon bitti. Hur mycket av ditt arbete skulle gå att bevara för eftervärlden, gå att återskapa eller rent utav fortsätta arbeta på? Hur mycket ligger skyddat av (root)lösenord som ingen annan kan, kanske till och med krypterat? Eller på en gammal omärkt hårddisk/CD/diskett nånstans i en byrålåda?

När det gäller arbete som sträcker sig över månader och år, som genererar väldigt mycket data och där varenda datapunkts integritet måste bevaras (jag tänker såklart på forskning) borde svaret självklart vara: allt är väldokumenterat. Data säkerhetskopieras till mer än ett ställe och förvaras ihop med anteckningar om hur det genererades (mätmetod, utgångsvärden, randvärden). Viktiga tankeled finns dokumenterade. Alla figurer till samtliga artiklar förvaras ihop med anteckningar om hur de gjordes och vilka rådata de är baserade på. För de filer som inte är någorlunda enkelt editerbara finns även källfilen/generatorfilen i samma version att arbeta vidare på, konvertera eller modifiera vid behov. All egenproducerad kod är kommenterad på ett begripligt sätt.

Tio år tillbaka i tiden, minst. Helst från första början. Och, vid arbetsplatsbyte, överlämnat i sådant skick till samtliga gamla arbetsplatser.

Jag har mött hela spektrat av attityder till problemet – jag har jobbat ihop med en person som var stenhård på att alla våra forskningsrelaterade diskussioner dokumenterades i text, med versionsnummer, och jag har pratat med andra doktorander som har ryckt på axlarna åt säkerhetskopiering. Jag har (fast inte i forskningssammanhang) efterlyst f d kollegors råfiler och insett att nån överlämning av sådana data, det har aldrig skett. Jag kör visserligen inte med 128-bitars krypto, som Cory Doctorow gör, men jag har garanterat kollegor som gör det.

Men även vid exemplariskt samvetsgrann datahantering uppstår problem. Standarder för lagringsmedia ändras (magnetband, någon? Diskettstation?). Proprietära filformat föråldras eller dör ut, och programvaran som hanterar dem slutar säljas – om det ens går att få tag på hårdvara som kan köra operativsystemen som hanterar mjukvaran som hanterar filformaten (visst kan man spara data som RTF-text och XML, JPEG och TIFF som i det här förslaget från SLU, men det löser inte allt. Modeller/kod i kommersiella program behöver kontexten av programversion etc för att man ska veta vad olika funktionsanrop gör – och sådan information är inte alltid möjlig att komma åt).

Dessutom genererar forskningen i stort mer och mer data, allteftersom mätmetoderna blir bättre och datorerna kraftfullare, samtidigt som vi flyttar till lagringsmedier som har västenligt kortare livstid. Naturligtvis är det ingen lösning att printa ut allt viktigt på arkivpapper, men hur många ställen är det som över huvud taget har en långsiktig strategi för att bevara gamla data tillgängliga och läsbara? (Och vem är intresserad av att betala för arkiven och deras underhåll?)

En färsk artikel i Wall Street Journal tar en intressant vinkel på problemet och klagar över att all ny e-interaktion forskare emellan försvinner ut i tomma intet, datalagringsmässigt sett, samtidigt som (antas det) deras samarbete lämnar färre pappersspår. Må så vara – även om det inte lämnas några som helst bevis för antagandet att mer e-interaktion ger mindre spårbar “vanlig” interaktion i form av mail etc – men jag har svårt att se dessa “kringdata”:s hotade ställning som det stora problemet* så länge det fortfarande kommer ut pappersbaserad forskning i andra änden. När interaktionen däremot är en integral del av själva datamängden – till exempel i akademiska bloggar, med konversationer mellan forskare – borde det vara självklart att det finns en bevaringsplikt. Men läs till exempel Richard Gatarskis hårresande berättelse om hur väl hans online-data (INTE) har förvaltats av hans tidigare universitet.

Ett annat intressant problem som reses i samma artikel är trovärdigheten hos gamla, digitalt lagrade data: kommer insikten att digitala data är lättare att förfalska leda till att våra framtida efterföljare inte litar på våra mödosamt sparade ettor och nollor?

Det tål att tänka på.

REDIGERAT 31/8 kl 23.05 för att tillägga att liknande frågor, om än mer inriktat på den sociala nätnärvaron, har uppenbarligen flutit runt i det allmänna medvetandet på sistone. Se t ex Richard Gatarski 21/8 samt 17/8 (även tillagt i paragrafen ovan) och Mymlan (28/8).

Länkar
Artikel i Wall Street Journal 28/8 2009: “A Data Deluge Swamps Science Historians”
Cory Doctorow om rootlösenord och kryptering, i Guardian från 30/6 2009: “When I’m dead, how will my loved ones break my password?”

*Och jag kan tänka mig ett antal kniviga integritetsproblem inblandade i ett godtyckligt försök att fånga och bevara sådan e-interaktion åt eftervärlden.