Az AI genomikai alkalmazásának egyik legnagyobb kihívása, hogy a komplex DNS-adatokból nem áll rendelkezésre értelmezhető, lépésről lépésre követhető érvelés. A DNS-alapú modellek kiválóan alkalmasak variánsok előrejelzésére és génszabályozási mintázatok felismerésére, de gyakran fekete dobozként működnek, korlátozott betekintést nyújtva az alapul szolgáló biológiai folyamatokba. Ezzel szemben a nagy nyelvi modellek (LLM-ek) lenyűgöző érvelési képességekkel rendelkeznek, azonban nem arra lettek kifejlesztve, hogy nyers genomikus szekvenciákat kezeljenek. Ez a szakadék a pontos DNS-reprezentáció és a mély biológiai érvelés között akadályozza az AI rendszereket abban, hogy szakértői szintű megértést nyújtsanak, és korlátozza az új tudományos hipotézisek generálásának lehetőségét.
A DNS-alapú modellek jelentős előrelépést értek el azzal, hogy gazdag reprezentációkat tanultak ki a genomikus szekvenciákból, és számos biológiai feladatban kiemelkedő teljesítményt nyújtottak. Az Evo2-hez hasonló modellek nagy potenciállal bírnak, de az érvelési képesség hiánya gátat szab a mélyebb biológiai megértésnek. Eközben a nagy nyelvi modellek kiválóan értelmezik a biomedicinális szövegeket, viszont jellemzően nem dolgoznak közvetlenül nyers DNS-adatokkal. Az olyan kísérletek, mint a GeneGPT és a TxGemma, korai próbálkozások e szakadék áthidalására. A jelenlegi genomikus benchmarkok azonban nem elegendőek az érvelés és hipotézisalkotás minőségének értékeléséhez.
A Torontói Egyetem, a Vector Institute, az University Health Network (UHN), az Arc Institute, a Cohere, a Kaliforniai Egyetem (San Francisco) és a Google DeepMind kutatói bemutatták a BioReason nevű rendszert – egy úttörő mesterséges intelligencia modellt, amely ötvözi a DNS-alapú modellezést a nagy nyelvi modellek érvelési képességeivel. Ez az integrált megközelítés lehetővé teszi, hogy a BioReason nyers genomszekvenciákat elemezzen, miközben LLM-alapú érvelést alkalmaz a biológiailag megalapozott következtetések megfogalmazásához. Felügyelt finomhangolás és megerősítéses tanulás révén a modell 15%-os vagy annál is nagyobb teljesítménynövekedést ér el a hagyományos rendszerekhez képest, és akár 97%-os pontosságot biztosít a KEGG-alapú betegségútvonal-előrejelzés során. A BioReason képes értelmezhető, lépésről lépésre felépülő következtetések megfogalmazására, ezáltal elősegíti a biológiai folyamatok mélyebb megértését és támogatja az új hipotézisek kidolgozását.
A BioReason egy multimodális keretrendszer, amely a genomszekvenciák és természetes nyelvi lekérdezések egyesítésével támogatja a biológiai érvelést. A rendszer DNS-alapú modellt használ a nyers genomikus adatokból származó gazdag, kontextusérzékeny beágyazások létrehozására, majd ezeket tokenizált szöveges lekérdezésekkel kombinálja, hogy egységes bemenetet alkosson a Qwen3 modell számára. A BioReason lépésről lépésre képes biológiai folyamatokat magyarázni. A DNS-beágyazásokat egy tanulható vetítési rétegen keresztül illeszti az LLM térbe, amelyet pozíciós kódolással is gazdagít. A rendszer érvelési képességeit tovább finomítja a megerősítéses tanulás, különösen a csoportos relatív optimalizálás alkalmazásával.
A modellt három különböző adatkészleten értékelték, amelyek a DNS-variánsok értelmezésére és a biológiai érvelés pontosságára összpontosítottak. A BioReason minden esetben felülmúlta azokat a modelleket, amelyek kizárólag DNS-alapú vagy kizárólag LLM-alapú megközelítést alkalmaztak. A legjobban teljesítő változat – amely az Evo2-t és a Qwen3-4B-t kombinálta – kiemelkedő pontosságot és F1-pontszámokat ért el minden feladatban. Egy különösen figyelemre méltó esettanulmányban a BioReason pontosan előre jelezte az ALS-sel összefüggésbe hozható PFN1 mutáció hatását, és egy tíz lépésből álló magyarázatot adott, amely végigkövette a variáns hatásának útját az aktin dinamikán keresztül egészen a motoros neuronok degenerációjáig. Ez jól mutatja, hogy a BioReason nemcsak a predikcióban, hanem az érvelés átláthatóságában és biológiai megalapozottságában is erős.
Összegzés
A BioReason ötvözi a DNS-kódolók és a nagy nyelvi modellek előnyeit, hogy részletes és értelmezhető következtetéseket lehessen levonni genomikus adatok alapján. A hagyományos modellektől eltérően nemcsak pontos előrejelzéseket ad, hanem világosan elmagyarázza azok biológiai alapjait is. Ez hozzájárul a betegségek jobb megértéséhez és új kutatási kérdések megfogalmazásához. Ugyanakkor a modell használata számítási szempontból költséges, és jelenleg korlátozottak a bizonytalanság mérésére szolgáló eszközök. A jövőbeni fejlesztések célja ezen kihívások kezelése, például a skálázhatóság javításával, további biológiai adatforrások – például RNS és fehérjék – integrálásával, valamint a modell kiterjesztése új alkalmazási területekre, például GWAS-vizsgálatokra. Összességében a BioReason ígéretes eszköznek tűnik a precíziós orvoslás és a genomkutatás fejlődésének támogatására.