Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析
生命データサイエンス分野 講師上田 宏生
新型コロナウイルス感染症対応HPCI臨時課題
駒場第2キャンパス
東京大学先端科学技術研究センター 講師
上田 宏生 (Hiroki Ueda)
略歴2000年 8月 カナダ ブリティッシュコロンビア州立 ビクトリア大学卒業2002年12月 首都圏コンピュータ技術者協同組合2003年 3月 金沢工業大学大学院工学研究科 修士課程修了2006年 9月 日本バイオ情報産業化コンソーシアム登録研究員2010年 4月 株式会社 インテック研究所 研究員2013年 9月 東京大学大学院工学系研究科博士課程修了2015年 4月 富士通株式会社未来医療開発センター 研究員2018年 3月 東京大学先端科学技術研究センター 講師
-生命情報若手アライアンス 生命データサイエンス分野PI2018年 9月 国立がん研究センター特任研究員(兼任)
https://www.lsbm.org/
https://www.lsbm.org/
CNN (畳み込みニューラルネットワーク)を用いた学習
Conv
olut
ion
SEN
et
GAP
and
Soft
max
Max
poo
ling
Conv
olut
ion
Max
po
olin
g
Gus
sian
noise
クラス分類・距離分類
修飾部位検出
GPUによる計算 (HPCI -ABCI)
(研究の概要) Nanoporeシーケンサと深層学習を用いた新型コロナウィルスRNA塩基修飾の解析
ウィルスゲノム
ナノポアシーケンサウィルス
RNA
修飾あり
ウィルスRNA
修飾なし
DNA
IN VITRORNA
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
世界中で新型コロナウィルスの配列解析が行われ、ウィルスが変異を繰り返していることが分かっている。配列解析はウィルスの毒性や感染力を評価する上で必要。ウィルスが変異するとワクチンが効かないことや、ワクチンの副作用が増強されること(抗体依存性感染増強ADE)が懸念されており、ワクチンや薬剤の開発においても配列解析が重要である。
出展GISAID
新型コロナウィルスの進化
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
KOREA England
Australia
KOREA
4402 T -> C5062 G -> T8782 C -> T28144 T -> C
Australia
19065 T -> C22303 T -> G26144 G ->T29750 Del 10
England
8782 C -> T18488 T -> C23605 T -> G28144 T -> C29596 A -> G
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
Covid19 Direct RNA Sequence from 3 groups
Wohan
Wohan
Wohan
https://www.gisaid.org/epiflu-applications/next-hcov-19-app/
RNA修飾とは
出展:New Twists in Detecting mRNA Modification Dynamics Ina Anreiter et. al. ,Trends in Biotechnology ,Available online 1 July 2020
RNAウィルスである新型コロナウィルスのゲノムは、約3万のA,C,G,Uの4つの塩基から構成されており、これらが変異して進化する。
RNAには化学的な修飾が起こり、塩基の機能が変化する。RNA修飾は100種類以上知られているが、新型コロナウィルス SERS-COV2 には2種類のRNAメチル化修飾酵素(nsp-14,nsp16)がコードされており、5’Cap 構造、5mC (メチル化) が知られている他、韓国のグループにより新規修飾の可能性が示唆されている。
出展: Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020
5’Cap
5mC
UnknownMod ?
RNA修飾の役割:5’Cap 構造を作成することで、細胞内の自然免疫系から逃れる。また、3’ のメチル化により、分解系から逃れる、タンパクとの結合、転写活性の変化などの役割が考えられるが、RNA化学修飾の部位と種類についての詳細は分かっていない。
2’-O-M, m7G-M
新型コロナウィルスRNA修飾解析の意義
1.RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.
2.(新規)RNA修飾が新たな創薬のターゲットになりうる.
3.mRNAワクチン作成の際に重要な情報となる.(5’Cap, メチル化による免疫、分解回避)
新型コロナウィルスRNA修飾解析の意義
1.RNA塩基の変異に加えて、塩基修飾を含めた解析を行うことにより、ウィルスのより詳細な分類が期待できる.
現在は、ウィルスを分類する上でRNA塩基修飾は加味されていない。
より詳細な分類は、ウィルスの種類ごとのオーダーメイド治療につながる。
また、ウィルス特性の変化をより詳細に捉えられる可能性がある。
新型コロナウィルスRNA修飾解析の意義
2.(新規)RNA修飾が新たな創薬のターゲットになりうる.
5’Cap
5‘Cap構造はRNAの増殖に必須の構造。それ以外にも、ウィルスのライフサイクルにおいて重要な修飾は、阻害薬のターゲットになりうる。
出展: Kim, Lee, et al. The architecture of SARS-CoV-2 transcriptome Cell 2020
新型コロナウィルスRNA修飾解析の意義3.mRNAワクチン作成の際に重要な情報となる.
(5’Cap, メチル化による免疫、分解回避)26 candidate vaccines in clinical evaluationDRAFT landscape of COVID-19 candidate vaccines – 31 July 2020
※mRNAワクチンは有力なワクチン作成の方法
出展:moderna社5’Cap AAAAA
S-protein※実際のウィルスのRNAをミミックすることで、自然免疫系や分解から保護し、有効なワクチンを作成することが期待できる
ViralVector Inactivated mRNA ProteinSubunit DNA VLP
ウィルスベクター
RNAワクチン
不活化ワクチン
タンパクサブユニット
DNAワクチン
nanopore シーケンサを用いた新型コロナウィルスRNA修飾解析法
RNA修飾解析の方法
RT-PCR+通常のシーケンサ
RNA修飾の情報はRT-PCRの過程で失われるため、通常のシーケンサは使えない
質量分析器
存在するRNA修飾の種類を特定することは可能であるが、位置情報を特定することは困難
ナノポアシーケンサ
https://nanoporetech.com/jp/how-it-works
RNA1分子ごとに解析が可能。修飾塩基は異なる電流値として検出される。
複雑な大量データの解析が課題となる
ウィルスRNA
RT-PCR (逆転写)
DNA
DNAシーケンサによる解析
RNA修飾
消失
ウィルスRNA
位置情報 消失
イオン化MS/MS
https://nanoporetech.com/jp/how-it-works
NanoporeシーケンサによるRNA修飾解析の方法ナノポアシーケンサ
https://nanoporetech.com/jp/how-it-works
シグナル
深層学習(RNN)
AUCGGGACUCUUC…
塩基配列
塩基修飾
ウィルスRNA
増幅を介さないDirect RNA Sequence~70 base/sec
GigaScience,Haotian Teng et al Chiron: Translating nanopore raw signal directly into nucleotide sequence using deep learning
https://nanoporetech.com/jp/how-it-works
CNN (畳み込みニューラルネットワーク)を用いた学習
Conv
olut
ion
SEN
et
GAP
and
Soft
max
Max
poo
ling
Conv
olut
ion
Max
po
olin
g
Gus
sian
noise
クラス分類・距離分類
修飾部位検出
ナノポアシーケンサ
ウィルスRNA
ウィルスゲノム
深層学習を用いた新手法の開発
比較
修飾あり
ウィルスRNA
修飾なし
DNA
IN VITRORNA
GPUによる計算 (HPCI -ABCI)
ABCI3,750/7,000 CPUノード時間7TB storage最大32ノードを同時使用を使用(8/6時点)
RT-PCR
Stephenson et alKSStats従来手法
nanoDoc新手法
テストデータ(rRNA)を用いた 検証
深層学習を使用することで、従来手法より高精度なRNA塩基修飾検出を可能にした。
新手法AUC=0.96
深層学習を用いない従来手法1AUC=0.89
電流差のみAUC=0.79
RNA塩基修飾箇所
ゲノム位置
スコア False positive rate
True
pos
itive
rate
ROC Curve
Yeast 18S rRNA
https://www.biorxiv.org/content
Direct RNA Sequence, 既報データの再解析
Kim et al, The architecture of SARS-CoV-2 transcriptome , Cell 2000
Viehweger et al, Direct RNA nanopore sequencing offull-length coronavirus genomesprovides novel insights into structuralvariants and enables modification analysis
Genome Research 2019
Sequen
ce IDVirus DRS kit size
Mappe
d reads
/numbe
r of
read
Tombo
mappe
d %
DRS
Invitro
Transc
ript
Mass
Spec
SQK-
RNA002
1,456,24
9 /
1,593,62
4
91.30%
R9.4.1 (in vitro) 64.90%
570,916/
879,679
(Infected
)
SQK-
RNA002
198,765
/
680,347
29.20%
R9.4.1(Infected
)4.50%
19,394 /
430,923(Viron)
SERS-
COV2
SQK-
RNA002
496,027
/
1,520,31
9
BetaCo
V/Englan
d/02/202
0
MIN106
D R9
(Infected
)
R9.4
✔Davidso
n et al
EPI_ISL_
407073
(GISAID
)
✔ 160GB 32.60%
Taiaroa
et al
MT0075
44.1
SERS-
COV2
Australia
/VIC01/2
020
✔ 130GB
Kim et
al
MT0398
90.1
SERS-
COV2
isolate
SNU01/
✔ 730GB ✔
시트1
RT primers for in vitro transcription
RTprimer-1TGTTTCTTCTGCATGTGCGAGC4399 4420
RTprimer-2GAAATCTTTAACGTTCCATATC 8398 8419
RTprimer-3TGCATTGTTGATAATGTTGTTG12400 12421
RTprimer-4TGAGTCACATCTGTGACATCAC 16400 16421
RTprimer-5AATCTTCTAATTCAAAAGGTGA20401 20422
RTprimer-6TGACCACATCTTGAAGTTTTCC24398 24419
RTprimer-7AGTATTATTGGGTAAACCTTGG 28399 28420
RTprimer-8TTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29880
PCR primers for in vitro transcription
IVT-frag1-FCCCCTAATACGACTCACTATAGGATTAAAGGTTTATACCTTCC1 20
IVT-frag1-RTTTTTTTTTTTTTTTTTTTTTCAAAGCCAAAAATTTATTTACAAGC2305 2329
IVT-frag2-FCCCCTAATACGACTCACTATAGGGCTAACTAACATCTTTGGCACTG2100 2123
IVT-frag2-RTTTTTTTTTTTTTTTTTTTTTGTTTCTTCTGCATGTGCGAGC4399 29891
IVT-frag3&4-FCCCCTAATACGACTCACTATAGGGTTACAACAACTCTGGAAGAAAC 3980 4002
IVT-frag3-RTTTTTTTTTTTTTTTTTTTTTTGGTTTTGTGCTCCAAAGAC6300 6319
IVT-frag4-RTTTTTTTTTTTTTTTTTTTTGAAATCTTTAACGTTCCATATC8398 8420
IVT-frag5-FCCCCTAATACGACTCACTATAGGGTTACTAGATCAGGCATTAGTGTCTG7975 8000
IVT-frag5-RTTTTTTTTTTTTTTTTTTTTTTTAAGCTTAAGTACACAATTTTGC10300 10323
IVT-frag6-FCCCCTAATACGACTCACTATAGGCATCTGGTAAAGTTGAGGGTTG10080 10101
IVT-frag6-RTTTTTTTTTTTTTTTTTTTTTGCATTGTTGATAATGTTGTTG12400 12422
IVT-frag7-FCCCCTAATACGACTCACTATAGGGAAGCCTTTGAAAAAATGGTTTC11981 12003
IVT-frag7-RTTTTTTTTTTTTTTTTTTTTTTTTGGGTGGTATGTCTGATCCC14309 14330
IVT-frag8-FCCCCTAATACGACTCACTATAGGCAATGGTAACTGGTATGATTTCGG14076 14099
IVT-frag8-RTTTTTTTTTTTTTTTTTTTTTGAGTCACATCTGTGACATCAC
IVT-frag9-FCCCCTAATACGACTCACTATAGGGATATCGTAAAAACAGATGGTACAC15976 16000
IVT-frag9-RTTTTTTTTTTTTTTTTTTTTTACCCCTCGACATCGAAGCC18301 18319
IVT-frag10-FCCCCTAATACGACTCACTATAGGACTGGGTTACATCCTACACAGG18085 18106
IVT-frag10-RTTTTTTTTTTTTTTTTTTTTAATCTTCTAATTCAAAAGGTGA20401 20422
IVT-frag11-FCCCCTAATACGACTCACTATAGGCACTGTCTTTTTTGATGGTAGAGTTG19977 20002
IVT-frag11-RTTTTTTTTTTTTTTTTTTTTTAATCACCAGGAGTCAAATAACTTC22299 22322
IVT-frag12-FCCCCTAATACGACTCACTATAGGGCCTTTTCTTATGGACCTTGAAGG22081 22104
IVT-frag12-RTTTTTTTTTTTTTTTTTTTTTGACCACATCTTGAAGTTTTCC24398 29891
IVT-frag13-FCCCCTAATACGACTCACTATAGGTTACCAGATCCATCAAAACCAAGC23978 24001
IVT-frag13-RTTTTTTTTTTTTTTTTTTTTTCGAAAGCAAGAAAAAGAAGTACGC26291 26314
IVT-frag14-FCCCCTAATACGACTCACTATAGGTCTACAATAAAATTGTTGATGAGCC26087 26111
IVT-frag14-RTTTTTTTTTTTTTTTTTTTTAGTATTATTGGGTAAACCTTGG28399 28420
IVT-frag15-FCCCCTAATACGACTCACTATAGGACCATATGTAGTTGATGACCCGTG27980 28003
IVT-frag15-RTTTTTTTTTTTTTTTTTTTTTTTTGTCATTCTCCTAAGAAGC29853 29894
PCR primers for reverse transcription and PCR
Primer #1-3-FCAAACCAACCAACTTTCGATCTCTTGTA28 55
Primer #1-RTAAACTCTGAACTCACTTTCCATCC22017 22041
Primer #2-RAGTGTTATAAACACTATTGCCGCAAC27703 27728
Primer #3-RTGAGTCACATCTGTGACATCAC16400 16421
Primer #4-FATTCTAGTCTTACTATTAAGAAACCTAATG 6570 6599
Primer #4-RATGTAGTTACGAGAATTCATTCTGC29613 2963
Sheet1
Sequence IDVirusDRSkitsizeMapped reads /number of readTombo mapped %DRS Invitro TranscriptMass Spec
Kim et alMT039890.1SERS-COV2 isolate SNU01/✔SQK-RNA002730GB1,456,249 / 1,593,62491.30%✔
46478(in vitro)64.90%
570,916/879,679
(Infected)
Taiaroa et alMT007544.1SERS-COV2 Australia/VIC01/2020✔SQK-RNA002130GB198,765 / 680,34729.20%
46478(Infected)4.50%
19,394 / 430,923
(Viron)
Davidson et alEPI_ISL_407073 (GISAID)SERS-COV2✔SQK-RNA002160GB496,027 / 1,520,31932.60%✔
BetaCoV/England/02/2020MIN106D R9 (Infected)
R9.4
nanoDoc: RNA modification detection using Nanopore raw reads with Deep One-Class Classificationhttps://www.biorxiv.org/content/10.1101/2020.09.13.295089v1
新型コロナウィルスデータの解析
研究成果の一部をbiorxivで公開
まとめ・RNA修飾部位を高精度に検出する深層学習の手法を開発
・海外3グループのデータを再解析を完了
・既知のNタンパク領域のRNA修飾を確認他の領域については検証が必要。
今後の予定• シグナルの詳細解析による塩基修飾の種類の推定• 解析手法、解析結果の発表
スライド番号 1スライド番号 2スライド番号 3新型コロナウィルスの進化Covid19 Direct RNA Sequence from 3 groupsRNA修飾とは新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義新型コロナウィルスRNA修飾解析の意義�nanopore シーケンサを用いた�新型コロナウィルスRNA修飾解析法�RNA修飾解析の方法NanoporeシーケンサによるRNA修飾解析の方法深層学習を用いた新手法の開発スライド番号 15Direct RNA Sequence, 既報データの再解析スライド番号 17まとめ今後の予定スライド番号 1スライド番号 2