Hvad er (Q)SAR?

For over 100 år siden opdagede en gruppe forskere, at der er en sammenhæng mellem hvordan små organiske kemikalier fordeler sig mellem olie og vand og deres giftighed, og at denne sammenhæng kunne beskrives matematisk. Den første (Q)SAR model var dermed opfundet. Siden da har udviklingen af egentlige (Q)SAR modeller dog taget fart.

Den stadig større og hurtigere computerkraft har åbnet muligheder for at udvikle stadigt mere sofistikerede modeller. (Q)SAR anvendes i dag bl.a. inden for toksikologi og økotoksikologi, hvor formålet er at afdække kemikaliernes skadelige effekter på mennesker og miljø.

(Q)SAR står for (Quantitative) Structure Activity Relationships – altså sammenhængen mellem kemisk struktur og stoffets aktivitet. Q i parentes angiver, at modellen enten kan være kvantitativ eller kvalitativ.

Kemiske strukturer, der ligner hinanden, kan have samme effekt

Den grundlæggende hypotese for (Q)SAR modellerne er, at kemiske stoffer, der ligner hinanden, vil have samme type af egenskaber. Derved kan man forudsige egenskaber for kemikalier, hvor man ikke har eksperimentelle forsøgsdata. Dette kan medvirke til at reducere det antal af dyreforsøg, som er nødvendige i vurderingen af kemiske stoffer, og ligeledes øge mængden af information for et givet stof (inklusive informationer om metabolitter/nedbrydningsprodukter).

(Q)SAR modellernes opbygning

Modellernes træningssæt
Alle (Q)SAR modeller er opbygget på basis af et træningssæt. Det består af et antal kemiske strukturer med tilhørende testdata for en given effekt (eksempelvis dødelighed over for fisk eller kræft i rotter). Ofte indgår også andre deskriptorer af de kemiske stoffer, eksempelvis stoffets fordelings-koefficient i octanol og vand (log Kow), vandopløselighed mm. Det er dette ”træningssæt”, som indbefatter testdata for den egenskab af de kemiske stoffer man vil forudsige noget om, der ved hjælp af en matematisk model, kan forudsige effekterne af andre ikke-testede stoffer.

Globale og Lokale (Q)SAR modeller
Som udgangspunkt kan en (Q)SAR model kun give troværdige forudsigelser for stoffer, der til en vis grad ligner de stoffer, der indgår i træningssættet. Modeller, som er designet til at give forudsigelser for en snæver gruppe af stoffer med lignende kemiske strukturer kaldes forlokale modeller.

Derimod kaldes modeller, som er designet til at kunne give forudsigelser for et stort antal stoffer med vidt forskellige kemiske strukturer forglobale modeller.

Modellernes applikabilitetsdomæne
Angivelse af gyldighedsområde (”applikabilitetsdomæne”) er en hjørnesten i anvendelse af (Q)SAR. Det bruges til at vurdere, om en (Q)SAR model kan give troværdige forudsigelser for et givent kemisk stof.

Applikabilitetsdomænet kan bl.a. opdeles i et strukturdomæne og et deskriptordomæne, som sammen afgrænser det område, hvor modellen kan give troværdige forudsigelser.

Eksempelvis kan en model have et strukturdomæne, der omfatter ”alifatiske aminer” og et deskriptordomæne, som kræver at log Kow skal være mellem 1 og 6.Hvis man med en sådan model forsøger at udlede estimater for en alifatisk amin med log Kow på 7 vil estimatet være uden for modellens deskriptordomæne, og dermed vil forudsigelsen være usikker.

For mere komplicerede modeller bliver angivelsen af applikabilitetsdomænet ofte tilsvarende kompliceret, da modellerne kan have adskillige deskriptorer med forskellig vægtning. For denne type af modeller kan domæneangivelsen være indbygget i computerversionen af (Q)SAR modellen og angives f.eks. som en sandsynlighed for, at en given forudsigelse er inden for modellens domæne.

(Q)SAR modellernes præcision

Q)SAR modeller bliver vurderet i forhold til, hvor gode de er til at forudsige en given egenskab (f.eks. bioakkumulering i fisk), hvor der skelnes mellem intern performance og ekstern performance.

Intern performance angives ved hjælp af ”goodness-of-fit”, som er et mål for, hvor godt modellen tager højde for variationen i træningssættet og robusthed, som er et mål for modellens stabilitet (f.eks. hvor meget modellens forudsigelser bliver påvirket af, at man fjerner et stof fra træningssættet).

Ekstern performance måles ved tre forskellige udtryk for modellens prædiktivitet (”forudsigelseskraft”), nemlig konkordans, sensitivitet og specificitet.

Sensitiviteten er et mål for, hvor god modellen er til at komme med korrekte forudsigelser for, at et stof har en effekt. Sensitiviteten kan matematisk beskrives som andelen af de eksperimentelt positive, som er korrekt forudsagt.

Specificitet angiver derimod hvor god modellen er til at komme med korrekte forudsiger for, at et stof ikke har en effekt. Matematisk kan det beskrives som andelen af de eksperimentelt negative, som er korrekt forudsagt.

Konkordans er et mål for hvor stor en del af modellens estimater, der er korrekte, og er således et overordnet mål for modellens præcision.

En models performance bør altid ses i sammenhæng med variationen i testdata. De bedste (Q)SAR modeller kan lave forudsigelser der faktisk er sammenlignelige med - eller i visse tilfælde endog bedre end - testdata med hensyn til præcision, når kun forudsigelser inden for modellernes applikabilitetsdomæne bruges.