論文レビューメモ

オープンアクセスの論文を一つのテーマに沿って3本ピックアップし、まとめています。2024年は生成AIを論文の執筆や解釈、まとめにどう使えるかを試していきます。

de novoタンパク質デザインとAlphaFold2

タンパク質の構造や機能予測を目的とした研究経験はないのだけれど、バイオインフォマティクスによって研究が飛躍的に進展した分野の一つという認識。タンパク質は立体構造が分かれば機能を推定することが可能になるので、立体構造の予測はタンパク質研究の重要な要素になっている。タンパク質研究の基礎中の基礎。AIを使った構造予測についてはバックグラウンド含めて知らないこと・わからないことが多いので、これまでの理解をアップデートするために、「人工タンパク質のデザイン」とタンパク質研究の強力なツールになっている(と理解している)「AlphaFold2」で論文をピックアップ。

 

というわけで、今回選んだ論文3本はこちら。

1. Goverde CA et al., De novo protein design by inversion of the AlphaFold structure prediction network.

https://onlinelibrary.wiley.com/doi/full/10.1002/pro.4653

2. Bennett NR et al., Improving de novo protein binder design with deep learning.

www.nature.com

3. Edich M et al., The impact of AlphaFold2 on experimental structure solution.

pubs.rsc.org

ChatGPT (Aug 3 version) による3本の論文のまとめはこちら

※まめにバージョンアップしてるのね

これらの3つの論文は、人工タンパク質研究の現状における共通の重要なテーマを明らかにしています。まず、タンパク質のデノボ(新規)デザインは、タンパク質の折りたたみや相互作用の基本原則を理解し、バイオテクノロジー分野に新たな機能をもたらす可能性を持っています。しかし、デザインの成功率はまだ低いという課題があります。これを解決するため、機械学習を活用したアプローチが模索されています。

また、AlphaFold2という機械学習ベースのプログラムは、アミノ酸配列からタンパク質構造を予測する高い正確性を持っており、これを利用して発現構築物の設計やデノボタンパク質デザイン、Cryo-EMデータの解釈が可能です。しかし、その一方で、訓練データに基づいているために構造の変動や柔軟性の予測、補因子や修飾の考慮、多量体複合体のモデリングには限界があります。さらに、化学的な幾何学の面でも完璧とは言えない点が指摘されています。

こうした課題や制約にもかかわらず、機械学習ベースのタンパク質デザインと折り畳み予測は、構造バイオインフォマティクスと実験に革命をもたらす可能性があります。今後の展望に対しても期待が寄せられており、これらの手法の発展によって、人工タンパク質研究は新たな局面に進むことが期待されます。

 

タンパク質の構造予測はAlphaFold2とroseTTAFoldの2つのソフトウェアの登場によって大きく様変わりした。それまでは分子熱力学的な計算によって構造を予測するというアプローチが取られていたけど(David E. Shaw博士が独占的にむちゃんこ頑張った)、今は既知のアミノ酸配列と立体構造のデータ(タンパク質データバンクで公開されている)を使ってディープラーニングをかけてニューラルネットワークを構築し、立体構造を知りたいアミノ酸配列を与えて予測させる、というアプローチが全盛、というのが今の状態。既知のタンパク質からうまく推測できるものもあれば、そうでないものもある。特に特殊な構造のもの、そもそも立体構造を持たないもの、そして人工的に作ったタンパク質についてはまだまだうまく予測ができない。そこで、ニューラルネットワーク中で「正しくない」「さらに微調整が必要」と判定する方法が論文1、論文2で検討されている。(詳細までは理解が及ばず。。。)。論文3ではコロナウイルスの研究にAF2を使用した例が紹介されていて、こちらについてもやはりうまくいかないことが多かったようだ。

タンパク質工学の最終目的地は「立体構造を設計して目的とする機能を持つタンパク質を合成する」というところにあるので、人工的に作ったタンパク質の構造予測ができないのは画竜点睛を欠いている状態。とはいえ、それでも今まで構造がわからなかったタンパク質の構造が低価格で即座に予測できる、というのはタンパク質をターゲットとした医薬の開発の初期スクリーニングには大きく貢献できるのだろう。本当に実現したいことに対してはまだ道半ばというのがいまのAIによるタンパク質構造予測、といったところ。

というか、立体構造をデザインすることでこれまでにない機能をもつタンパク質を作ることがそもそも可能なのか?と思うけども、どうなんだろうか。

ゴリゴリのバイオインフォマティクスの論文はやっぱり難しいな。

 

以下はまとめを作るためのメモ

結構知らないことが多いので、まずはhttps://doi.org/10.1016/j.jbc.2021.100558こちらの総説でこの研究分野の概要をざっと把握。

人工タンパク質の研究は新しい生物学的な機能を与えるもの、とか目的とする反応を触媒するものを開発する、というのが流れになっている。例えばウイルス感染の阻害剤、免疫調整、自動組み立て生体素材、検知して反応する情報伝達システム、タンパク質の論理ゲート(論理回路)への応用がある。

2次構造がらせん状(α-ヘリックス)になるタンパク質についてはかなりデザイン可能な技術水準になっている。βシートについても技術の適用が広がっていて、TIMバレル(αヘリックスとβシートが8つずつからなるタンパク質構造のこと)やβシートのみのタンパク質にも応用されている。

人工タンパク質のデザインの主要なポイントは1. バックボーンの設計、2. アミノ酸配列の最適化、3. 活性中心のデザイン 4. 立体構造の安定性の評価の4つ。

いずれの場合もマシンラーニングが予測の精度を上げるために生かされている、というのが現在の位置。研究手法のゲームチェンジャーとなっていることは確実で、今後もマシンラーニングを生かした研究が進む。

 

1.  AlphaFold2を使った構造予測が特殊なタンパク質では不十分なので、別のやり方をしました、という提案。タンパク質の構造予測はアミノ酸配列が長くなればなるほど計算量が増えて難しくなる。人工タンパク質のデザインは古典的には既存のタンパク質データベースの情報をもとに「バックボーン」を選んで「側鎖」との立体構造を設計していく。AlphaFold2が構造予測に使う学習データは既知のタンパク質の構造なので、de novo 人工タンパクとか、特殊な構造のタンパク質(疎水性が高い部分があるとか、浸水性が高い部分があるとか)ではうまく推定ができない。その場合に、スコアリングの方法を修正することで改善が可能、というのが大まかな趣旨だと思うけど、細かいところまでは理解できず。MCMCでフィッティングさせていくときにバックボーンの一致具合だけを見るのではなくて側鎖となるループの部分も見るようにするといい、ということなのかなと思ったけど、AF2の「答え」の出し方を理解していないのでちょっと自信なし。

2. こちらもAF2の予測精度に難があるので、その改善策を検討した論文。スコアリング(predicted Local Distance Difference Test)のところを改善するのが重要だ、ということですね。タンパク質工学は究極的には人工タンパク質のデザイン、というところに向かっているので、de novoのタンパク質で構造予測ができるために必要な技術開発、という流れなんだな。中身の詳しいところまでは理解できないけど、おそらくフィッティングの誤差をどう評価するか、というところにコツがある、ということだと理解しています。

3. コロナウイルスに関する研究の中でAlphaFold2が生かされた報告。Cryo-EMとは低温顕微鏡法(凍結させて試料を固定する方法。解像度がむちゃくちゃ高いのと試料が電子線で動かないのでタンパク質の立体構造を直接観察することができる。ATP合成酵素もこの方法で構造決定された)。コロナウイルスのタンパク質を対象とした研究でAF2を使った結果を報告。AF2で立体構造を作るとされたβコロナウイルス特異的なマーカードメインの構造を予測させたら安定的な立体構造が予測されたけど、実験的に確かめたところ、安定的に立体構造を形成しない領域(disordered)だったことがわかった。この安定的に立体構造を形成しない領域っていうのは結構あるみたい。