Üretken Derin Öğrenme ile Yeni Protein Dizilerinin Moleküler İşlev Odaklı Otomatik Tasarımı


Doğan T. (Yürütücü)

TÜBİTAK Projesi, 2022 - 2025

  • Proje Türü: TÜBİTAK Projesi
  • Başlama Tarihi: Aralık 2022
  • Bitiş Tarihi: Aralık 2025

Proje Özeti

Proteinler, canlıdaki moleküler süreçlerin gerçekleştirilmesinde görev alan biyolojik makromoleküllerdir. Proteinler, işlevsel hale geçmek amacıyla dizilerindeki bilgiyi kullanarak üç boyutlu (3B) spesifik şekillere katlanırlar. 20 farklı amino asidin farklı kombinasyonlar ve sıralar ile bir araya gelmesi ile ortaya çıkan protein dizisinde kodlu olan 3B yapının çeşitliliği ile canlıdaki kompleks fonksiyonel repertuvar sağlanır. Bu sebeple, proteinlerin dizi-yapı-fonksiyon ilişkilerinin ortaya çıkarılması, hastalık durumlarının temel biyolojisinin anlaşılmasında ve terapötik çözümlerin geliştirilmesinde büyük önem taşımaktadır. Bu doğrultuda son yıllarda bilinen protein dizi ve yapılarından yola çıkılarak istenen işlevsel özelliklere yönelik olarak optimize edilmiş yeni proteinlerin tasarlanması ilgi çekici bir alan olarak ortaya çıkmıştır. Bu konunun bir alt başlığı olan de novo protein tasarımında, istenen işlevlere sahip tamamen yeni dizileri bulmak amaçlanır. Bu kapsamdaki çalışmalar, biyoteknolojik ve biyomedikal alanlarda kullanılacak yeni biyomoleküler ürünlerin ortaya çıkarılmasını amaçlar. Ancak, çok çekici bu fikri uygulamaya geçirmek biyomoleküler araştırmalar kapsamında çalışılan en zorlu süreçlerden biridir. Doğal proteinlerinin ortalama uzunluğu olan 200 amino asitlik dizler temel alındığında, sıfırdan yapılacak bir tasarım için 20200 adet farklı dizi kombinasyonu içerisinde istenen işleve sahip yeni protein dizilerini deneysel ve klasik hesaplamalı yöntemlerle incelemek, teknolojik kısıtlar sebebiyle mümkün değildir.

Yapay öğrenmeye dayalı üretken modelleme, gerçek/doğal veriden öğrenilen bir olasılık dağılımına uyan sentetik örneklerin otomatik olarak üretildiği bir yaklaşımdır. Veri odaklı üretken yaklaşımların klasik modelleme yaklaşımlarına göre avantajı, veri kümesindeki örneklerin içerisinde saklı olarak bulunan örüntüleri ve uzun mesafeli ilişkileri otomatik şekilde ortaya çıkarmaları sayesinde çok boyutlu dizi/yapı/fonksiyon uzayındaki dağılımı daha yüksek başarı ile öğrenmeleridir. Bu sebeple, protein tasarımında kullanılmak için oldukça iyi bir alternatif olarak öne çıkmaktadır. Bu projenin amacı, üretken modelleme yaklaşımı ve derin yapay sinir ağları kullanılarak, belirli işlevlere sahip yeni protein dizilerinin de novo tasarımını gerçekleştirecek hesaplamalı bir sistemin geliştirilmesi ve bu sistem kullanılarak seçili moleküler işlevlere sahip olacak tekil domain seviyesinde protein dizilerinin tasarlanmasıdır. Derin öğrenme tabanlı protein tasarlayıcı sistemin yapısında, sentetik imaj/video üretimi alanında yüksek performansa sahip olan çekişmeli üretken ağlar (“GAN”), doğal dil işlemede standart haline gelen “transformer” mimarisi ve sosyal ağlar gibi ilişkisel tipteki verinin analizinde etkin biçimde uygulanan çizge sinir ağları beraberce kullanılanacaktır. Doğal/de novo proteinlerin çizge temsilli 3B yapıları ve Gen Ontolojisi temelli işlev terimleri/anotasyonları kullanılarak eğitilecek modeller son aşamada seçili moleküler fonksiyonlara sahip diziler tasarlamak üzere çalıştırılacaktır.

Sistem tarafından tasarlanan de novo diziler, farklı seviyelerde gerçekleştirilecek fizik tabanlı hesaplamalarla analiz edilerek yöntemin doğrulaması(validasyonu) yapılacaktır. Bu amaçla, sistem olarak epigenetik modülasyonda kritik roller oynayan öncül DNA (sitozin5) metil transferaz (DNMT-3A/B, EC 2.1.1.37) enzim ailesi seçilmiştir. DNMT3A/B aracılı DNA metilasyonu, yaşamsal dengenin sürdürülebilmesi için temel teşkil eden pek çok sürecin (transkripsiyonun düzenlenmesi, embriyonik gelişim, genom stabilitesi, vb.) yürütülmesinde öncül bir rol üstlenmektedir. DNMT enzimlerinin doğru çalışmamasının kansere ve otoimmün/sinir/kalp hastalıklarına neden olduğu gözlenmiştir. Bu doğrultuda, DNMT özelliklerine sahip yeni bir enzimin tasarlanması hem terapötik hem de biyoteknolojik potansiyele sahiptir. Yaklaşımımız ile üretilecek yeni DNMT enziminin istenen fonksiyonel özelliklere sahip olup olmadığının belirlenmesi için enerji temelli moleküler mekanik simülasyonları gerçekleştirilecektir. Bu süreçte ilgili fonksiyona sahip olduğu bilinen doğal proteinlerle bağlanma enerjileri üzerinden karşılaştırmalar yapılarak oluşturulan makromoleküler sistemin uygunluğu/verimliliği değerlendirilecektir.

Çalışmanın diğer bir hedefi, geliştirilecek protein tasarlayıcı sistemin alfa sürümünü ve sonuçlarını içeren çevrim içi ağ servisinin ve komut satırı aracının geliştirilmesi ve araştırma dünyasının kullanımına sunulmasıdır. Önerilen proje, farklı işlevleri aynı model altında ele alan jenerik ve çok yönlü bir tasarlayıcı sistem geliştirilmesi ve bunun için farklı derin öğrenme yaklaşım ve mimarilerinin bir arada kullanılması açısından son derece özgün bir değer sahiptir. Çalışmanın yaygın etkisi, muazzam büyüklükteki dizi/yapı uzayından istenilen işlevlere sahip tamamen yeni örneklerin otomatik olarak çekilmesini sağlayarak, nihai anlamda yeni biyoteknolojik ürünlerin ve terapötik seçeneklerin geliştirilmesine katkıda bulunmak olacaktır.