Within hospital care there has been an explosion in the production of medical record data. A large amount of this data is unstructured free-text that is almost never reused. Our research group will soon have access to more than one million medical records from the Stockholm City Council. Currently, we already have access to 5 000 medical records within rheumatology. Unfortunately the free-text of the medical records very often contains misspellings, syntactical errors as well as plenty of unknown abbreviations and is therefore difficult to process by computers. In order to use the free-text corpus for research purposes it is also necessary to deidentify the texts since they typically contain information that can identify the individual patient. In this project we will therefore normalise and deidentify the medical records and we expect to reach 99 percent deidentification. When this is carried out we and the research community have the possibility to use human language technology tools such as text mining and text extraction methods to find previously unchartered relations between diseases, medical treatment, age, occupation, social situation, etc. One primary goal with this project is thus to make it possible for researchers in medicine to use the abundant digital textual information that is available in medical records. Such research has never previously been carried out in Sweden, and is unique due to the kind of and large amount of textual data being used.
Popular scientific description in Swedish:
Avidentifiering av patientjournaler fo?r ba?ttre ha?lsova?rd
Inom sjukva?rden produceras ett mycket stort antal digitala patientjournaler av la?kare och sjuksko?terskor. Journalerna inneha?ller information om patientens allma?ntillsta?nd, symptom, diagnos och behandling. Dessa patientjournaler inneha?ller tillsammans va?rdefull information och sa?rskilt delar i fritext som inte alls utnyttjas i den medicinska forskningen. Vi har tidigare gjort experiment pa? 5 000 avidentifierade patientjournaler inom reumatologi och hittat tva? problem:
Ett problem a?r att journalerna trots att de har avidentifierats fo?r att kunna utnyttjas i forskningen fortfarande inneha?ller information som kan go?ra att patienterna kan identifieras eftersom det bland annat refereras till patientens yrke (VD-position pa? Alfa Laval), eller familjemedlemmar och telefonnummer (patientens man Bengt-A?ke na?s pa? telefonummer 08-123 4567). Det andra problemet a?r att journaltexterna inneha?ller ma?nga felstavningar och grammatiska fel men a?ven tvetydiga fo?rkortningar som go?r dem sva?ra att bearbetas av dataprogram.
Vi a?mnar da?rfo?r i detta forskningsprojekt dels ordna att dessa patientjournalerna korrigeras fra?n felstavningar och fa?r en enhetlig stavning av begrepp och dels att texten avidentifieras. Ba?de ra?ttstavning och avidentifiering av texterna kommer att ske med helt automatiska spra?kteknologiska metoder. Vi kommer att utga? fra?n drygt en miljon patientjournaler som vi snart kommer att fa? tillga?ng till genom Stockholms la?ns landsting.
Dessa patientjournaltexter a?r det material vi kommer att la?ta va?ra system tra?nas upp pa? sa? att de la?r sig att ka?nna igen nya begrepp. De automatiska metoderna fo?r automatisk namnigenka?nning och da?rmed avidentifiering kan skapas antingen genom regelbaserade eller statistikbaserade metoder. Med dessa metoder kan man sedan automatiskt ka?nna igen personnamn, yrken, platser, organisationer, mm. Na?r detta a?r utfo?rt kommer vi med att ha ett stort antal patientjournaler med kanske upp till 99 procent helt avidentifierat inneha?ll som mo?jliggo?r forskning pa? ett unikt material. Vi hoppas kunna tillga?ngliggo?ra va?r rentva?ttade patientjournalkorpus och va?ra framtagna spra?kteknologiska verktyg till Svensk Nationell Datatja?nst (SND) fo?r att a?stadkomma vidare spridning.
Det automatiska ra?ttstavningssystemet bygger pa? regler fo?r hur felstavade ord i en text kan korrigeras. Ra?ttstavningsystemet anva?nder sig av ba?de lexikon och fo?rkortningslistor och kommer att korrigera de felstavade orden i patientjournalerna, men vi kommer a?ven att anva?nda oss av speciella medicinska ordlistor som t.ex. FASS-listor med la?kemedelsnamn. Patientjournaltexterna med o?ver en miljon patientjournaler ga?r ocksa? att utnyttja fo?r att ta fram nya doma?nspecifika ordlistor, da? kan man la?ta de vanligaste stavningarna av orden “vinna o?ver” de ovanligare stavningarna av orden.
Forskningen som kan go?ras pa? dessa patientjournaler a?r ba?de traditionell so?kning inom en individs samlade journaltext men ocksa? bland flera individer. Viktigast av allt a?r att man kommer att ha ett stort material som samlar va?rdefull information om ett stort antal patienter, som man kan utnyttja fo?r att extrahera ny information och kunskap.
Projektet har tva? ma?l: dels att skapa en stor avidentifierad patientjournalskorpus pa? svenska fo?r forskningssa?ndama?l, och dels ge forskarva?rlden tillga?ng till i projektet framtagna spra?kteknologiska verktyg fo?r avidentifiering och arbete med liknande textma?ngder. I och med detta kommer man i framtiden enkelt kunna skapa nya avidentifierade textma?ngder och arbeta med stora, informationsta?ta
textma?ngder.
Va?rt projekt a?r unikt sa?tillvida att det a?r fo?rsta ga?ngen na?gon kommer att genomfo?ra avidentifiering och rentva?ttning av drygt en miljon patientjournaltexter (pa? svenska). Tidigare arbete har oftast ro?rt sig om ho?gst na?gra fa? tusen patientjournaler pa? engelska. Denna forskning a?r mycket relevant eftersom den kommer att bidra till att ha?lsova?rden kommer att kunna utnyttja alla de samlade kunskaperna som finns skrivna i fri text tillsammans med mer “ha?rda” ma?tva?rden och genom detta kunna hitta ny kunskap fo?r ba?ttre ha?lsova?rd.