Nanopore シーケンサと深層学習を用いた新型コロナウィル …Nanopore シーケンサと深層学習を用いた新型コロナウィルス RNA 塩基修飾の解析

Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析

生命データサイエンス分野講師上田宏生

新型コロナウイルス感染症対応HPCI臨時課題

駒場第２キャンパス

東京大学先端科学技術研究センター講師

上田宏生 (Hiroki Ueda)

略歴2000年 8月カナダブリティッシュコロンビア州立ビクトリア大学卒業2002年12月首都圏コンピュータ技術者協同組合2003年 3月金沢工業大学大学院工学研究科修士課程修了2006年 9月日本バイオ情報産業化コンソーシアム登録研究員2010年 4月株式会社インテック研究所研究員2013年 9月東京大学大学院工学系研究科博士課程修了2015年 4月富士通株式会社未来医療開発センター研究員2018年 3月東京大学先端科学技術研究センター講師

-生命情報若手アライアンス生命データサイエンス分野PI2018年 9月国立がん研究センター特任研究員（兼任）

https://www.lsbm.org/

https://www.lsbm.org/

CNN (畳み込みニューラルネットワーク)を用いた学習

Conv

olut

ion

SEN

et

GAP

and

Soft

max

Max

poo

ling

Conv

olut

ion

Max

po

olin

g

Gus

sian

noise

クラス分類・距離分類

修飾部位検出

GPUによる計算（HPCI -ABCI）

（研究の概要） Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析

ウィルスゲノム

ナノポアシーケンサウィルス

RNA

修飾あり

ウィルスRNA

修飾なし

DNA

IN VITRORNA

https://www.gisaid.org/epiflu-applications/next-hcov-19-app/

世界中で新型コロナウィルスの配列解析が行われ、ウィルスが変異を繰り返していることが分かっている。配列解析はウィルスの毒性や感染力を評価する上で必要。ウィルスが変異するとワクチンが効かないことや、ワクチンの副作用が増強されること（抗体依存性感染増強ADE）が懸念されており、ワクチンや薬剤の開発においても配列解析が重要である。

出展GISAID

新型コロナウィルスの進化


KOREA England

Australia

KOREA

4402 T -> C5062 G -> T8782 C -> T28144 T -> C

Australia

19065 T -> C22303 T -> G26144 G ->T29750 Del 10

England

8782 C -> T18488 T -> C23605 T -> G28144 T -> C29596 A -> G


Covid19 Direct RNA Sequence from 3 groups

Wohan

Wohan

Wohan


RNA修飾とは

出展：New Twists in Detecting mRNA Modification Dynamics Ina Anreiter et. al. ,Trends in Biotechnology ,Available online 1 July 2020

RNAウィルスである新型コロナウィルスのゲノムは、約３万のA,C,G,Uの４つの塩基から構成されており、これらが変異して進化する。

RNAには化学的な修飾が起こり、塩基の機能が変化する。RNA修飾は100種類以上知られているが、新型コロナウィルス SERS-COV2 には２種類のRNAメチル化修飾酵素（nsp-14,nsp16）がコードされており、5’Cap 構造、5mC (メチル化) が知られている他、韓国のグループにより新規修飾の可能性が示唆されている。

出展： Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020

5’Cap

５ｍC

UnknownMod ？

RNA修飾の役割：5’Cap 構造を作成することで、細胞内の自然免疫系から逃れる。また、3’ のメチル化により、分解系から逃れる、タンパクとの結合、転写活性の変化などの役割が考えられるが、RNA化学修飾の部位と種類についての詳細は分かっていない。

2’-O-M, m7G-M

新型コロナウィルスRNA修飾解析の意義

１．RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.

２．（新規）RNA修飾が新たな創薬のターゲットになりうる.

３．mRNAワクチン作成の際に重要な情報となる.（5’Cap, メチル化による免疫、分解回避）


１．RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.

現在は、ウィルスを分類する上でRNA塩基修飾は加味されていない。

より詳細な分類は、ウィルスの種類ごとのオーダーメイド治療につながる。

また、ウィルス特性の変化をより詳細に捉えられる可能性がある。


２．（新規）RNA修飾が新たな創薬のターゲットになりうる.

5’Cap

５‘Cap構造はRNAの増殖に必須の構造。それ以外にも、ウィルスのライフサイクルにおいて重要な修飾は、阻害薬のターゲットになりうる。

出展： Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020

新型コロナウィルスRNA修飾解析の意義３．mRNAワクチン作成の際に重要な情報となる.

（5’Cap, メチル化による免疫、分解回避）26 candidate vaccines in clinical evaluationDRAFT landscape of COVID-19 candidate vaccines – 31 July 2020

※mRNAワクチンは有力なワクチン作成の方法

出展：moderna社5’Cap AAAAA

S-protein※実際のウィルスのRNAをミミックすることで、自然免疫系や分解から保護し、有効なワクチンを作成することが期待できる

ViralVector Inactivated mRNA ProteinSubunit DNA VLP

ウィルスベクター

RNAワクチン

不活化ワクチン

タンパクサブユニット

DNAワクチン

nanopore シーケンサを用いた新型コロナウィルスRNA修飾解析法

RNA修飾解析の方法

RT-PCR＋通常のシーケンサ

RNA修飾の情報はRT-PCRの過程で失われるため、通常のシーケンサは使えない

質量分析器

存在するRNA修飾の種類を特定することは可能であるが、位置情報を特定することは困難

ナノポアシーケンサ

https://nanoporetech.com/jp/how-it-works

RNA１分子ごとに解析が可能。修飾塩基は異なる電流値として検出される。

複雑な大量データの解析が課題となる

ウィルスRNA

RT-PCR (逆転写)

DNA

DNAシーケンサによる解析

RNA修飾

消失

ウィルスRNA

位置情報消失

イオン化MS/MS


NanoporeシーケンサによるRNA修飾解析の方法ナノポアシーケンサ


シグナル

深層学習（RNN）

AUCGGGACUCUUC…

塩基配列

塩基修飾

ウィルスRNA

増幅を介さないDirect RNA Sequence～70 base/sec

GigaScience,Haotian Teng et al Chiron: Translating nanopore raw signal directly into nucleotide sequence using deep learning


CNN (畳み込みニューラルネットワーク)を用いた学習

Conv

olut

ion

SEN

et

GAP

and

Soft

max

Max

poo

ling

Conv

olut

ion

Max

po

olin

g

Gus

sian

noise

クラス分類・距離分類

修飾部位検出

ナノポアシーケンサ

ウィルスRNA

ウィルスゲノム

深層学習を用いた新手法の開発

比較

修飾あり

ウィルスRNA

修飾なし

DNA

IN VITRORNA

GPUによる計算（HPCI -ABCI）

ABCI3,750/7,000 CPUノード時間7TB storage最大32ノードを同時使用を使用（8/6時点）

RT-PCR

Stephenson et alKSStats従来手法

nanoDoc新手法

テストデータ（rRNA）を用いた検証

深層学習を使用することで、従来手法より高精度なRNA塩基修飾検出を可能にした。

新手法AUC=0.96

深層学習を用いない従来手法1AUC=0.89

電流差のみAUC=0.79

RNA塩基修飾箇所

ゲノム位置

スコア False positive rate

True

pos

itive

rate

ROC Curve

Yeast 18S rRNA

https://www.biorxiv.org/content

Direct RNA Sequence, 既報データの再解析

Kim et al, The architecture of SARS-CoV-2 transcriptome , Cell 2000

Viehweger et al, Direct RNA nanopore sequencing offull-length coronavirus genomesprovides novel insights into structuralvariants and enables modification analysis

Genome Research 2019

Sequen

ce IDVirus DRS kit size

Mappe

d reads

/numbe

r of

read

Tombo

mappe

d %

DRS

Invitro

Transc

ript

Mass

Spec

SQK-

RNA002

1,456,24

9 /

1,593,62

4

91.30%

R9.4.1 (in vitro) 64.90%

570,916/

879,679

(Infected

)

SQK-

RNA002

198,765

/

680,347

29.20%

R9.4.1(Infected

)4.50%

19,394 /

430,923(Viron)

SERS-

COV2

SQK-

RNA002

496,027

/

1,520,31

9

BetaCo

V/Englan

d/02/202

0

MIN106

D R9

(Infected

)

R9.4

✔Davidso

n et al

EPI_ISL_

407073

(GISAID

)

✔ 160GB 32.60%

Taiaroa

et al

MT0075

44.1

SERS-

COV2

Australia

/VIC01/2

020

✔ 130GB

Kim et

al

MT0398

90.1

SERS-

COV2

isolate

SNU01/

✔ 730GB ✔

시트1

RT primers for in vitro transcription

RTprimer-1TGTTTCTTCTGCATGTGCGAGC4399 4420

RTprimer-2GAAATCTTTAACGTTCCATATC 8398 8419

RTprimer-3TGCATTGTTGATAATGTTGTTG12400 12421

RTprimer-4TGAGTCACATCTGTGACATCAC 16400 16421

RTprimer-5AATCTTCTAATTCAAAAGGTGA20401 20422

RTprimer-6TGACCACATCTTGAAGTTTTCC24398 24419

RTprimer-7AGTATTATTGGGTAAACCTTGG 28399 28420

RTprimer-8TTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29880

PCR primers for in vitro transcription

IVT-frag1-FCCCCTAATACGACTCACTATAGGATTAAAGGTTTATACCTTCC1 20

IVT-frag1-RTTTTTTTTTTTTTTTTTTTTTCAAAGCCAAAAATTTATTTACAAGC2305 2329

IVT-frag2-FCCCCTAATACGACTCACTATAGGGCTAACTAACATCTTTGGCACTG2100 2123

IVT-frag2-RTTTTTTTTTTTTTTTTTTTTTGTTTCTTCTGCATGTGCGAGC4399 29891

IVT-frag3&4-FCCCCTAATACGACTCACTATAGGGTTACAACAACTCTGGAAGAAAC 3980 4002

IVT-frag3-RTTTTTTTTTTTTTTTTTTTTTTGGTTTTGTGCTCCAAAGAC6300 6319

IVT-frag4-RTTTTTTTTTTTTTTTTTTTTGAAATCTTTAACGTTCCATATC8398 8420

IVT-frag5-FCCCCTAATACGACTCACTATAGGGTTACTAGATCAGGCATTAGTGTCTG7975 8000

IVT-frag5-RTTTTTTTTTTTTTTTTTTTTTTTAAGCTTAAGTACACAATTTTGC10300 10323

IVT-frag6-FCCCCTAATACGACTCACTATAGGCATCTGGTAAAGTTGAGGGTTG10080 10101

IVT-frag6-RTTTTTTTTTTTTTTTTTTTTTGCATTGTTGATAATGTTGTTG12400 12422

IVT-frag7-FCCCCTAATACGACTCACTATAGGGAAGCCTTTGAAAAAATGGTTTC11981 12003

IVT-frag7-RTTTTTTTTTTTTTTTTTTTTTTTTGGGTGGTATGTCTGATCCC14309 14330

IVT-frag8-FCCCCTAATACGACTCACTATAGGCAATGGTAACTGGTATGATTTCGG14076 14099

IVT-frag8-RTTTTTTTTTTTTTTTTTTTTTGAGTCACATCTGTGACATCAC

IVT-frag9-FCCCCTAATACGACTCACTATAGGGATATCGTAAAAACAGATGGTACAC15976 16000

IVT-frag9-RTTTTTTTTTTTTTTTTTTTTTACCCCTCGACATCGAAGCC18301 18319

IVT-frag10-FCCCCTAATACGACTCACTATAGGACTGGGTTACATCCTACACAGG18085 18106

IVT-frag10-RTTTTTTTTTTTTTTTTTTTTAATCTTCTAATTCAAAAGGTGA20401 20422

IVT-frag11-FCCCCTAATACGACTCACTATAGGCACTGTCTTTTTTGATGGTAGAGTTG19977 20002

IVT-frag11-RTTTTTTTTTTTTTTTTTTTTTAATCACCAGGAGTCAAATAACTTC22299 22322

IVT-frag12-FCCCCTAATACGACTCACTATAGGGCCTTTTCTTATGGACCTTGAAGG22081 22104

IVT-frag12-RTTTTTTTTTTTTTTTTTTTTTGACCACATCTTGAAGTTTTCC24398 29891

IVT-frag13-FCCCCTAATACGACTCACTATAGGTTACCAGATCCATCAAAACCAAGC23978 24001

IVT-frag13-RTTTTTTTTTTTTTTTTTTTTTCGAAAGCAAGAAAAAGAAGTACGC26291 26314

IVT-frag14-FCCCCTAATACGACTCACTATAGGTCTACAATAAAATTGTTGATGAGCC26087 26111

IVT-frag14-RTTTTTTTTTTTTTTTTTTTTAGTATTATTGGGTAAACCTTGG28399 28420

IVT-frag15-FCCCCTAATACGACTCACTATAGGACCATATGTAGTTGATGACCCGTG27980 28003

IVT-frag15-RTTTTTTTTTTTTTTTTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29894

PCR primers for reverse transcription and PCR

Primer #1-3-FCAAACCAACCAACTTTCGATCTCTTGTA28 55

Primer #1-RTAAACTCTGAACTCACTTTCCATCC22017 22041

Primer #2-RAGTGTTATAAACACTATTGCCGCAAC27703 27728

Primer #3-RTGAGTCACATCTGTGACATCAC16400 16421

Primer #4-FATTCTAGTCTTACTATTAAGAAACCTAATG 6570 6599

Primer #4-RATGTAGTTACGAGAATTCATTCTGC29613 2963

Sheet1

Sequence IDVirusDRSkitsizeMapped reads /number of readTombo mapped %DRS　Invitro TranscriptMass Spec

Kim et alMT039890.1SERS-COV2 isolate SNU01/✔SQK-RNA002730GB1,456,249 / 1,593,62491.30%✔

46478(in vitro)64.90%

570,916/879,679

(Infected)

Taiaroa et alMT007544.1SERS-COV2 Australia/VIC01/2020✔SQK-RNA002130GB198,765 / 680,34729.20%

46478(Infected)4.50%

19,394 / 430,923

(Viron)

Davidson et alEPI_ISL_407073 (GISAID)SERS-COV2✔SQK-RNA002160GB496,027 / 1,520,31932.60%✔

BetaCoV/England/02/2020MIN106D R9 (Infected)

R9.4

nanoDoc: RNA modification detection using Nanopore raw reads with Deep One-Class Classificationhttps://www.biorxiv.org/content/10.1101/2020.09.13.295089v1

新型コロナウィルスデータの解析

研究成果の一部をbiorxivで公開

まとめ・RNA修飾部位を高精度に検出する深層学習の手法を開発

・海外３グループのデータを再解析を完了

・既知のNタンパク領域のRNA修飾を確認他の領域については検証が必要。

今後の予定• シグナルの詳細解析による塩基修飾の種類の推定• 解析手法、解析結果の発表

スライド番号 1スライド番号 2スライド番号 3新型コロナウィルスの進化Covid19 Direct RNA Sequence from 3 groupsRNA修飾とは新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義�nanopore シーケンサを用いた�新型コロナウィルスRNA修飾解析法�RNA修飾解析の方法NanoporeシーケンサによるRNA修飾解析の方法深層学習を用いた新手法の開発スライド番号 15Direct RNA Sequence, 既報データの再解析スライド番号 17まとめ今後の予定スライド番号 1スライド番号 2

Documents

Nanopore シーケンサと深層学習を用いた 新型コロナウィル …Nanopore シーケンサと深層学習を用いた 新型コロナウィルス RNA 塩基修飾の解析

Nanopore シーケンサと深層学習を用いた新型コロナウィル …Nanopore シーケンサと深層学習を用いた新型コロナウィルス RNA 塩基修飾の解析