La Granda Lingvomodelo (LLM) povas verki konvinkajn artikolojn bazitajn sur promptaj vortoj, sukcese trapasi profesiajn kompetentecajn ekzamenojn, kaj verki paciento-amikajn kaj empatiajn informojn. Tamen, krom la konataj riskoj de fikcio, fragileco kaj malprecizaj faktoj en LLM, aliaj nesolvitaj problemoj iom post iom fariĝas la fokuso, kiel ekzemple AI-modeloj enhavantaj eble diskriminaciajn "homajn valorojn" en sia kreado kaj uzo, kaj eĉ se LLM jam ne fabrikas enhavon kaj forigas klare malutilajn rezultojn, "LLM-valoroj" ankoraŭ povas devii de homaj valoroj.
Sennombraj ekzemploj ilustras kiel la datumoj uzataj por trejni AI-modelojn ĉifras individuajn kaj sociajn valorojn, kiuj povas solidiĝi ene de la modelo. Ĉi tiuj ekzemploj implikas gamon da aplikoj, inkluzive de aŭtomata interpretado de torakaj rentgenaj fotoj, klasifiko de haŭtmalsanoj, kaj algoritma decidiĝo koncerne medicinan rimedan asignon. Kiel deklarite en lastatempa artikolo en nia revuo, misgvidaj trejnaj datumoj povas plifortigi kaj riveli la valorojn kaj biasojn ĉeestantajn en la socio. Male, esplorado ankaŭ montris, ke AI povas esti uzata por redukti biason. Ekzemple, esploristoj aplikis profundajn lernadajn modelojn al genuaj rentgenaj filmoj kaj malkovris faktorojn, kiujn pretervidis normaj severecindikiloj (gradigitaj de radiologoj) ene de la genua artiko, tiel reduktante neklarigitajn dolordiferencojn inter nigraj kaj blankaj pacientoj.
Kvankam pli kaj pli da homoj rimarkas la antaŭjuĝon en AI-modeloj, precipe rilate al trejnaj datumoj, multaj aliaj enirejoj de homaj valoroj ne ricevas sufiĉe da atento en la disvolva kaj deploja procezo de AI-modeloj. Medicina AI lastatempe atingis imponajn rezultojn, sed grandparte ĝi ne eksplicite konsideris homajn valorojn kaj ilian interagadon kun riskotakso kaj probabla rezonado, nek ĝi estis modelita.
Por konkretigi ĉi tiujn abstraktajn konceptojn, imagu, ke vi estas endokrinologo, kiu devas preskribi rekombinan homan kreskohormonon por 8-jaraĝa knabo, kiu estas sub la 3-a percentilo de sia aĝo. La stimulita homa kreskohormona nivelo de la knabo estas sub 2 ng/mL (referenca valoro >10 ng/mL, referenca valoro por multaj landoj ekster Usono estas >7 ng/mL), kaj lia homa kreskohormona kodanta geno detektis maloftajn inaktivigajn mutaciojn. Ni kredas, ke la apliko de homa kreskohormona terapio estas evidenta kaj nediskutebla en ĉi tiu klinika konteksto.
La apliko de homa kreskiga hormona terapio en la jenaj scenaroj povas kaŭzi polemikon: la alteco de 14-jaraĝa knabo ĉiam estis en la 10-a percentilo de liaj samuloj, kaj la pinto de homa kreskiga hormono post stimulo estas 8 ng/mL. Ne ekzistas konataj funkciaj mutacioj, kiuj povas influi la altecon, nek aliaj konataj kaŭzoj de mallonga staturo, kaj lia ostaĝo estas 15-jara (t.e., neniu evolua prokrasto). Nur parto de la polemiko ŝuldiĝas al diferencoj en la sojlaj valoroj determinitaj de fakuloj surbaze de dekoj da studoj pri homaj kreskigaj hormonaj niveloj uzataj por diagnozi izolitan kreskigan hormonan mankon. Almenaŭ tiom da polemiko devenas de la risko-utila ekvilibro de uzado de homa kreskiga hormona terapio el la perspektivoj de pacientoj, pacientaj gepatroj, sanprofesiuloj, farmaciaj kompanioj kaj pagantoj. Pediatriaj endokrinologoj povas pesi la maloftajn malfavorajn efikojn de ĉiutagaj injektoj de kreskiga hormono dum 2 jaroj kun la probableco de neniu aŭ nur minimuma kresko en plenkreska korpograndeco kompare kun la nuna tempo. Knaboj povas kredi, ke eĉ se ilia alteco povas nur pliiĝi je 2 cm, valoras injekti kreskigan hormonon, sed la paganto kaj farmacia kompanio povas havi malsamajn vidpunktojn.
Ni prenas kreatininan bazitan eGFR kiel ekzemplon, kiu estas vaste uzata renafunkcia indikilo por diagnozi kaj stadiigi kronikan renan malsanon, starigi kondiĉojn por ren-transplantado aŭ donaco, kaj determini reduktokriteriojn kaj kontraŭindikojn por multaj preskribitaj medikamentoj. EGFR estas simpla regresa ekvacio uzata por taksi la mezuritan glomerulan filtradrapidecon (mGFR), kiu estas referenca normo, sed la taksadmetodo estas relative maloportuna. Ĉi tiu regresa ekvacio ne povas esti konsiderata kiel AI-modelo, sed ĝi ilustras multajn principojn pri homaj valoroj kaj probabla rezonado.
La unua enirejo por homaj valoroj eniri eGFR estas dum elektado de datumoj por alĝustigi ekvaciojn. La originala atendovico uzata por desegni la eGFR-formulon konsistas plejparte el nigraj kaj blankaj partoprenantoj, kaj ĝia aplikebleco al multaj aliaj etnaj grupoj ne estas klara. La postaj enirejoj por homaj valoroj en ĉi tiun formulon inkluzivas: elekti mGFR-precizecon kiel la ĉefan celon por taksi renan funkcion, kio estas akceptebla nivelo de precizeco, kiel mezuri precizecon, kaj uzi eGFR kiel sojlon por ekigi klinikan decidiĝon (kiel ekzemple determini kondiĉojn por ren-transplantado aŭ preskribi medikamentojn). Fine, dum elektado de la enhavo de la eniga modelo, homaj valoroj ankaŭ eniros ĉi tiun formulon.
Ekzemple, antaŭ 2021, gvidlinioj sugestas alĝustigi la kreatininajn nivelojn en la eGFR-formulo surbaze de la aĝo, sekso kaj raso de la paciento (klasifikite nur kiel nigraj aŭ ne-nigraj individuoj). La alĝustigo bazita sur raso celas plibonigi la precizecon de la mGFR-formulo, sed en 2020, gravaj hospitaloj komencis pridubi la uzon de raso-bazita eGFR, citante kialojn kiel prokrasti la elekteblecon de la paciento por transplantado kaj konkretigi rason kiel biologian koncepton. Esplorado montris, ke desegni eGFR-modelojn laŭ raso povas havi profundajn kaj ŝanĝiĝantajn efikojn sur precizeco kaj klinikaj rezultoj; Tial, selekteme fokusiĝi sur precizeco aŭ fokusiĝi sur parto de la rezultoj reflektas valorjuĝojn kaj povas maski travideblan decidiĝon. Fine, la nacia laborgrupo proponis novan formulon, kiu estis reagordita sen konsideri rason por balanci agadon kaj justecajn aferojn. Ĉi tiu ekzemplo ilustras, ke eĉ simpla klinika formulo havas multajn enirejojn al homaj valoroj.
Kompare kun klinikaj formuloj kun nur malgranda nombro da prognozaj indikiloj, LLM povas konsisti el miliardoj ĝis centoj da miliardoj da parametroj (modelaj pezoj) aŭ pli, kio malfaciligas ĝian komprenon. La kialo, kial ni diras "malfacile komprenebla", estas ke en la plej multaj LLM-oj, la preciza maniero elvoki respondojn per demandado ne povas esti mapita. La nombro da parametroj por GPT-4 ankoraŭ ne estis anoncita; Ĝia antaŭulo GPT-3 havis 175 miliardojn da parametroj. Pli da parametroj ne nepre signifas pli fortajn kapablojn, ĉar pli malgrandaj modeloj, kiuj inkluzivas pli da komputilaj cikloj (kiel la modelserio LLaMA [Large Language Model Meta AI]) aŭ modeloj, kiuj estas fajne agorditaj surbaze de homa religo, funkcios pli bone ol pli grandaj modeloj. Ekzemple, laŭ homaj taksistoj, la modelo InstrumentGPT (modelo kun 1.3 miliardoj da parametroj) superas GPT-3 en optimumigo de modelaj eligaj rezultoj.
La specifaj trejnaj detaloj de GPT-4 ankoraŭ ne estas malkaŝitaj, sed la detaloj de antaŭaj generaciaj modeloj, inkluzive de GPT-3, InstrumentGPT, kaj multaj aliaj malfermitkodaj LLM-oj, estas malkaŝitaj. Nuntempe, multaj AI-modeloj venas kun modelkartoj; La taksaj kaj sekurecaj datumoj de GPT-4 estas publikigitaj en simila sistemkarto provizita de la modelkreada kompanio OpenAI. La kreado de LLM povas esti malglate dividita en du etapojn: la komenca antaŭtrejna etapo kaj la fajnagorda etapo celanta optimumigi la modelajn elirrezultojn. En la antaŭtrejna etapo, la modelo ricevas grandan korpuson inkluzive de la originala interreta teksto por trejni ĝin antaŭdiri la sekvan vorton. Ĉi tiu ŝajne simpla "aŭtomata kompletiga" procezo produktas potencan fundamentan modelon, sed ĝi ankaŭ povas konduki al malutila konduto. Homaj valoroj eniros la antaŭtrejnan etapon, inkluzive de elektado de antaŭtrejnaj datumoj por GPT-4 kaj decido forigi maltaŭgan enhavon, kiel ekzemple pornografian enhavon, el la antaŭtrejnaj datumoj. Malgraŭ ĉi tiuj klopodoj, la baza modelo eble ankoraŭ nek utilas nek kapablas enhavi malutilajn elirrezultojn. En la sekva etapo de fajnagordo, aperos multaj utilaj kaj sendanĝeraj kondutoj.
En la fajnagorda stadio, la konduto de lingvomodeloj ofte profunde ŝanĝiĝas per kontrolita fajnagordado kaj plifortiga lernado bazita sur homa retrosciigo. En la kontrolita fajnagorda stadio, dungita kontrakta personaro skribos respondajn ekzemplojn por promptaj vortoj kaj rekte trejnos la modelon. En la fazo de plifortiga lernado bazita sur homa retrosciigo, homaj taksistoj ordigos la modelajn elirajn rezultojn kiel enigajn enhavajn ekzemplojn. Poste aplikos la supre menciitajn komparajn rezultojn por lerni la "rekompencan modelon" kaj plue plibonigi la modelon per plifortiga lernado. Mirinda malaltnivela homa implikiĝo povas fajnagordi ĉi tiujn grandajn modelojn. Ekzemple, la InstrumentGPT-modelo uzis teamon de ĉirkaŭ 40 kontraktaj personaroj rekrutitaj de homamasfontaj retejoj kaj pasis kribran teston celantan selekti grupon de komentantoj, kiuj estas sentemaj al la preferoj de malsamaj loĝantargrupoj.
Kiel montras ĉi tiuj du ekstremaj ekzemploj, nome la simpla klinika formulo [eGFR] kaj la potenca LLM [GPT-4], homa decidiĝo kaj homaj valoroj ludas nemalhaveblan rolon en formado de modelaj rezultoj. Ĉu ĉi tiuj AI-modeloj povas kapti iliajn diversajn pacientajn kaj kuracistajn valorojn? Kiel publike gvidi la aplikon de AI en medicino? Kiel menciite sube, reekzameno de medicina decidanalizo povus provizi principan solvon al ĉi tiuj problemoj.
Analizo de medicinaj decidoj ne estas konata al multaj klinikistoj, sed ĝi povas distingi inter probabla rezonado (por necertaj rezultoj rilataj al decidiĝo, kiel ekzemple ĉu administri homan kreskohormonon en la polemika klinika scenaro montrita en Figuro 1) kaj konsiderfaktoroj (por subjektivaj valoroj ligitaj al ĉi tiuj rezultoj, kies valoro estas kvantigita kiel "utileco", kiel ekzemple la valoro de 2 cm pliiĝo en vira alteco), provizante sistemajn solvojn por kompleksaj medicinaj decidoj. En decidoanalizo, klinikistoj devas unue determini ĉiujn eblajn decidojn kaj probablojn asociitajn kun ĉiu rezulto, kaj poste integri la utilecon de la paciento (aŭ alia partio) asociitan kun ĉiu rezulto por elekti la plej taŭgan opcion. Tial, la valideco de decidoanalizo dependas de ĉu la rezulta aranĝo estas ampleksa, same kiel ĉu la mezurado de utileco kaj la takso de probablo estas precizaj. Ideale, ĉi tiu aliro helpas certigi, ke decidoj estas bazitaj sur evidenteco kaj kongruas kun la preferoj de la paciento, tiel malvastigante la interspacon inter objektivaj datumoj kaj personaj valoroj. Ĉi tiu metodo estis enkondukita en la medicinan kampon antaŭ pluraj jardekoj kaj aplikita al individua decidiĝo de pacientoj kaj taksado de la sano de la loĝantaro, kiel ekzemple provizado de rekomendoj por ekzamenado de kolorekta kancero al la ĝenerala loĝantaro.
En analizo de medicinaj decidoj, diversaj metodoj estis evoluigitaj por akiri utilecon. Plej multaj tradiciaj metodoj rekte derivas valoron de individuaj pacientoj. La plej simpla metodo estas uzi taksoskalon, kie pacientoj taksas sian nivelon de prefero por certa rezulto sur cifereca skalo (kiel ekzemple lineara skalo de 1 ĝis 10), kun la plej ekstremaj sanrezultoj (kiel kompleta sano kaj morto) situantaj ĉe ambaŭ finoj. La metodo de tempointerŝanĝo estas alia ofte uzata metodo. En ĉi tiu metodo, pacientoj devas decidi kiom da sana tempo ili pretas pasigi kontraŭ periodo de malbona sano. La norma hazardluda metodo estas alia ofte uzata metodo por determini utilecon. En ĉi tiu metodo, pacientoj estas demanditaj, kiun el la du opcioj ili preferas: aŭ vivi certan nombron da jaroj en normala sano kun specifa probableco (p) (t), kaj porti la riskon de morto kun 1-p probableco; Aŭ certigi vivi dum t jaroj sub krucaj sankondiĉoj. Demandi pacientojn plurfoje je malsamaj p-valoroj ĝis ili montras neniun preferon por iu ajn opcio, por ke utileco povu esti kalkulita surbaze de pacientaj respondoj.
Aldone al metodoj uzataj por ellogi individuajn pacientajn preferojn, metodoj ankaŭ estis evoluigitaj por akiri utilecon por la pacientaro. Precipe fokusgrupaj diskutoj (kunvenigantaj pacientojn por diskuti specifajn spertojn) povas helpi kompreni iliajn perspektivojn. Por efike agregi grupan utilecon, diversaj strukturitaj grupdiskutaj teknikoj estis proponitaj.
En praktiko, la rekta enkonduko de utileco en la klinikan diagnozan kaj kuracan procezon estas tre tempopostula. Kiel solvo, enketaj demandaroj kutime estas distribuitaj al hazarde elektitaj populacioj por akiri utilecajn poentarojn je la populacia nivelo. Kelkaj ekzemploj inkluzivas la 5-dimensian demandaron EuroQol, la 6-dimensian utilecan pezon mallongan formon, la Sanan Utilecan Indekson, kaj la Kancer-Specifan Eŭropan Kanceresploran kaj Kuracan Organizon pri Vivkvalito-Enketilon Core 30 ilon.
Afiŝtempo: 1-a de junio 2024




