ssf logo blue Rötter - din källa för släktforskning driven av Sveriges Släktforskarförbund
ssf logo blue Rötter - din källa för släktforskning

Choose language:
Anbytarforum

Innehållet i inläggen på Anbytarforum omfattas inte av utgivningsbeviset för rotter.se

Författare Ämne: Sökningsmetodik och -logik  (läst 612 gånger)

2003-12-13, 01:58
läst 612 gånger

Anders Andersson

Ett problem som ofta irriterar mig vid sökning i databaser är följande:
 
Låt mig ta Sveriges dödbok 1950-1999 som exempel. Där finns många poster med data av varierande fullständighetsgrad. Exempelvis saknas namn på avlidna före 1968, och för avlidna på 1950-talet saknas ofta exakt dödsdatum.
 
Om jag anger ett exakt födelsedatum, men inte fyller i något annat fält, så redovisas alla personer i databasen som har just detta födelsedatum. Om jag dessutom anger ett dödsår, så begränsas resultatet till de personer som också avlidit någon gång under det året.
 
Antag att jag för en person vet exakt födelsedatum och dödsdatum, det senare på 1950-talet, och fyller i dessa. Resultatet blir ingen träff. Jag gör en ny sökning med dödsdatumet reducerat till årtalet, och då hittar jag den sökta personen i resultatlistan, med rätt månad men exakt datum för dödsfallet okänt.
 
Problemet är alltså att jag som ställer frågan har mer exakta uppgifter än som finns i databasen, och då erhåller jag inte den väntade träffen.
 
Om jag lämnar ett fält blankt, så tolkas det som vet inte och jag erhåller alla möjliga alternativ ur databasen att välja mellan. Om däremot ett fält i en post i databasen är tomt, så tolkas det som tom sträng och de enda sökningar som ger något resultat är de där motsvarande fält i sökformuläret också lämnas tomt.
 
Detta beteende tycks mig något ologiskt, även om man i och för sig kan argumentera för att tomma fält i sökformuläret och tomma fält i databasens poster inte skall tolkas likadant.
 
Som det är nu krävs det att jag som användare är väl insatt i vilka begränsningar som gäller för olika poster i databasen, såsom de jag nämnt ovan beträffande Sveriges dödbok. Ett förhållandevis enkelt exempel är att jag aldrig kan söka med både angivet namn och ett dödsår före 1968, då det inte finns några poster som matchar det. Jag kan lära mig detta årtal, men jag har faktiskt inte lärt mig från och med vilket år som döduppgifterna innehåller exakt datum. Det finns säkert ytterligare brister i källmaterialet som ger sig till känna på detta sätt.
 
Jag tycker det vore både naturligare och enklare för användaren om databasens tomma fält betraktades som jokrar som kan matcha vad som helst, i stället för som tomma strängar som bara kan matcha tomma sökfält. Då skulle jag vid en sökning med angivet namn och födelsedatum erhålla dels alla poster efter 1968 med rätt namn och födelsedatum, dels alla poster före 1968 med rätt födelsedatum, oavsett namn. Det är upp till mig som användare att sålla bort de träffar jag inte vill ha, inte databasen som skall undanhålla mig alla poster som i något avseende är mindre precisa än mina egna sökvillkor.
 
En annan databas som jag tycker lider svårt av precis samma problem är Ellis Island Records, där man aldrig kan veta hur noggranna uppgifter som finns på de inmatade passagerarlistorna. Vad hjälper det att jag vet precis hur gammal farmors bror var när han emigrerade, om den uppgiften skulle saknas i databasen? Jag kan förstås pröva att i tur och ordning utesluta vissa fält i sökningen, men då erhåller jag också alla poster där åldersuppgift finns och skiljer sig från vad jag redan vet.
 
Om man skall tillskriva databaser mänskliga egenskaper, så är det som om de nämnda databaserna anser sig vara mer kunniga än användarna: Det inte vi vet, det kan inte heller någon annan veta.
 
Jag har en känsla av detta beteende är det normala i olika databaser, medan den mer generösa matchningen av okända variabler hör till undantagen. Är det så?

2003-12-13, 13:28
Svar #1

Mikael karlsson

Jag kan bara säga att jag håller med dig Anders, att det är irriterande med att mer exakt uppgift kan leda till att man inte får träff..
Nu är det väll kanske inte hela världen med Sveriges Dödbok, då uppgifterna kompletteras, så en dag är den väll komplett.
 
Men bör ju vara något för dem som tar fram databaser att tänka på...

2003-12-13, 22:57
Svar #2

Anders Andersson

Vi är överens om problemet. Att Sveriges dödbok uppvisar det här beteendet beror ju på att uppgifterna är hämtade ur källor av olika kvalitet. Arbetet med att komplettera Sveriges dödbok syftar ju till att eliminera de tomma fälten i posterna, men risken finns alltid att ett antal poster med ofullständiga data kvarstår, av olika skäl.
 
Sökformuläret till Sveriges dödbok innehåller ju enbart de fält som är representerade i databasen. Man kan göra tankeexperimentet att formuläret även skulle innehålla något fält som ingen post i databasen har någon uppgift i, exempelvis yrke. Om jag anger något i detta fält och gör en sökning, bör jag då erhålla samma resultat som om jag lämnat det fältet tomt, eller bör jag erhålla 0 träffar? Det förra, anser vi nog båda.
 
Jag tog upp frågan med anledning av den nu pågående tråden i Avancerade funktioner för publicering på Internet, där jag efterlyser parallellsökning i flera databaser av skiftande kvalitet och innehåll. Då är det nödvändigt att jag kan vara just så exakt i min fråga som mina egna uppgifter medger, oberoende av hur innehållsrik varje tillfrågad databas är. Jag skall inte behöva anpassa frågan till varje typ av källa som utnyttjats för den sammanställda databasen.
 
Det finns fält där tom sträng inte nödvändigtvis behöver betyda uppgift okänd på grund av brister i källmaterialet, utan snarare betyder just att uppgiften är känd för att vara blank. Ett exempel är fältet yrke när posten avser hemmavarande hustru eller minderårigt barn. Om jag söker efter skomakare i en databas byggd på en husförhörslängd, så är jag intresserad av alla vuxna män vilkas yrke antingen angivits till skomakare eller utelämnats. Jag är däremot inte intresserad av alla hustrur och minderåriga barn.
 
Posterna i en databas bör därför vara kodade på ett sådant sätt, att man vid sökning kan skilja mellan ? (okänd uppgift) och N/A (not applicable, uppgift ej tillämplig). Den tomma strängen  är ett oklart substitut för båda dessa betydelser, och bör undvikas. Förhoppningsvis tänker man på detta när posterna kodas i XML.

Innehållet i inläggen på Anbytarforum omfattas inte av utgivningsbeviset för rotter.se


Annonser




Marknaden

elgenstierna utan-bakgrund 270pxKöp och Sälj

Här kan du köpa eller sälja vidare böcker och andra produkter som är släktforskaren till hjälp.

Se de senast inlagda annonserna