9
MASON t0 ˜l 0¥ Analysis MASON Read Generation Tool t YP L0ıYü [email protected] Abstract 2000D ˜0 | X NGS|— \ l \ ˜ . l RNA\ l \ ˜ p ü\ mRNA| t'X mRNA t · ü0 · tøX| > l p DD (X . t\ l · t X ·/ X X| LD· ¥ \ l . X \ l \ ˜(˜ lX D` · t J@ t ˛D, pt0| t'X ˜lX 1¥D !X@ . l\ t\ ˜lX 1 ¥D !X0 t 8p\0 `X | 1X, Q ˜l $ ü ¨ U\ X t0 ˜l DX. l wgSIMü T· Q˜l 1¥ü\ ' t0 ˜lx MASONt LD MASON ıX Sanger, 454, Illumina «ü˜ 1 )D DP\. l t| \ t «ü˜ 1 | DPt˜] \. Keywords: RNA, Simulator Tool, MASON, NGS 1 1 t0X D1 8˜<\ p D |<0X 2004D x\(Human Genome Project)X t˜ xX | »0\ l ˜¨<p Sanger[1])Dt'X 2007DL<\ xX ˜ | »D ¨. t˜ 2008D FLX 454| t' X 2007D\\ x ˜X 1%X D'<\ ü0D t ¥tp t| t'X X | »D ¨<p t˜˜ t\ l˜· T .[2] X ü0D »D t ü0\ \ t ¥tL t| t't ü0ü | X0\ Q ˜l l, ¨.[3] t\ Q˜lX 1¥D X0 t 8p— ·˜\ UX Q Uxt ·| Xp, X x l˜ lX D` ü0X ˛@ t J <p, Indel, SNPü@x t@ \0 ü0D }DL 1

Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

MASON 시뮬레이터 도구 기능 분석

Analysis MASON Read Generation Tool

권대건

부산대학교 컴퓨터공학과

[email protected]

Abstract

2000년대후반부터유전정보를분석하는 NGS분야에대한연구가활발히진행되고있다.그중 RNA에 대한 연구가 활발히 진행되고 있는데 주로 mRNA를 이용하여 mRNA에서 발현되는 특징이 전체유전자 염기서열에서 어느 부분에 해당하는가를 찾는 연구가 큰 비중을

차지하고있다.이러한연구는전체유전자서열에서특정부분이우리몸의어떤부분의발현에 관여하는지를 알아내는 가장 중요한 연구가 된다. 하지만 현재 유전정보에 대한 연구가활발히진행됨에도불구하고아직전체유전자서열에대해밝혀지지않은부분이많아,실제유전 데이터를 이용하여 도구의 성능을 측정하는것은 힘들다. 그러므로 이러한 도구의 성능을측정하기위해서는참조서열로부터가상의리드를생성하고,매핑도구실행시나오는결과가 얼마나 정확한지 평가하는 시뮬레이터 도구가 필요하다. 본 보고서에서는 wgSIM과더불어매핑도구성능평가에주로사용되는시뮬레이터도구인MASON에대해서알아보고MASON에서 제공하는 Sanger, 454, Illumina 플랫폼별 리드 생성 방식을 비교한다. 그리고이를 실제로 수행해보고 각 플랫폼별 생성되는 리드를 비교해보도록 한다.

Keywords: RNA, Simulator Tool, MASON, NGS

1 리드 생성 시뮬레이터의 필요성

세계적으로 큰 관심을 불러일으켰던 2004년 인간게놈프로젝트(Human Genome Project)의 종

료 선언 이후 개인의 유전자 정보를 얻기위한 연구는 계속되었으며 Sanger[1]방법을 이용하여

2007년에 처음으로 개인의 유전 지도 정보를 얻을수 있었다. 이후 2008년에는 FLX 454를 이용

하여 2007년에발표한개인유전자지도의 1%의비용으로염기서열을분석이가능해지며이를

이용하여 대량의 유전자 정보를 얻을수 있게 되었으며 이후에도 이에대한 연구가 계속되어 왔

다.[2] 대량의 염기서열을 얻을 수 있게 되면서 염기서열에 대한 광범위한 분석이 가능해졌고

이를이용해염기서열과발현형태를분석하기위한여러가지매핑도구가연구,개발되었다.[3]

이러한매핑도구의성능을평가하기위해서는리드가참조서열에어느정도로정확하게매핑되

는지확인이되어야하는데,하지만지속적인연구에도불구하고아직염기서열의많은부분이

밝혀지지 않고 있으며, Indel, SNP과 같은 자연적인 변이와 유전자로부터 염기서열을 읽을때

1

Page 2: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

발생하는 오류로 인해 실제 유전 정보를 이용하기에는 많은 제약이 따르기 때문에, 실제 염

기서열 데이터를 이용하여 매핑도구들의 정확한 성능평가를 한다는 것은 사실상 불가능하다.

이러한 매핑도구의 성능을 평가하기 위해 대부분의 논문에서 가상의 리드서열을 생성하는 시

뮬레이터를 사용하고 있으며 이로인해 염기 서열을 분석하는데 있어서 매핑도구 뿐만 아니라

시뮬레이터 도구 또한 중요한 연구로 자리잡고 있다.

본 보고서에서는 wgsim[4]과 더불어 매핑 도구의 성능 평가를 하기위해 주로 사용되는 시

뮬레이터인 MASON[5] 시뮬레이터 도구의 기본 배경과 MASON에서 제공하는 기능에 대해

분석해보고 실제 염기서열을 시뮬레이션해봄으로써 현재 시뮬레이터의 성능을 확인하고 추후

시뮬레이터 연구에 있어서 고려해야 될 사항을 검토하려고 한다.

2 MASON 시뮬레이터 전체 구조

MASON은 wgsim과 더불어 여러 논문에서 인용되는 대표적인 시뮬레이터 도구이다. MASON

에서는 염기서열의 RNA 발현과정에서 자연적으로 생기는 변이와 실제 플랫폼에서 시퀀스를

읽을때 오류가 발생하는 환경과 유사한 환경을 시뮬레이션하여 리드를 생성한다. 실제 플랫

폼에서 시퀀스를 읽을때 플랫폼의 종류에 따라 생성되는 리드서열이 조금식 차이가 나게된다.

현재 NGS에서 주로 사용되는 플랫폼은 Sanger, 454, Illumina, Solid인데, MASON에서는 이중

Solid를 제외한 나머지 3개의 플랫폼에 대해 오류모델을 제공한다. 전체 MASON 기능 구조는

그림1와 같이 크게 공통(Global), 에러 모델(Error Model), Quality 모델 에 관련된 옵션으로

나뉜다. 공통옵션의 경우 주로 리드 생성 자체에 관련된 옵션이나, 리드서열 생성시 자연적인

변이 값을 설정하는 옵션이다.

MASON에서 리드를 생성하는 방법은 아래 순서로 진행된다.

1. 참조서열을 파일로 부터 읽어들인다.

2. 참조서열로부터 indel, subtitution 를 적용한 리드를 생성한다. 이때 각 모델의 Error설정

에 따라 리드를 생성한다.

3. 염기서열의 Quality를 계산한다. 각 모델별로 Quality를 계산하는 방법에 차이가 있기

때문에, Quality의 계산은 각 모델에 맞게 수행된다.

4. 리드에 대한 메타정보를 추가한다.

RNA 발현시 일어나는 자연적인 변이 작용은 사용자가 입력한 indel, subtitution 비율에 따라

랜덤하게적용된다.이후사용자가입력한플랫폼과에러정보에따라실제플랫폼과유사하게

2

Page 3: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

MASON Option

Sanger

Global ErrorModel Quaility

454

Global ErrorModel

Illumina

Global ErrorModel Quaility

]

그림 1: MASON 전체 구조. Mason에서는 Sanger, 454,Illumina플랫폼별 기능을 나누어 제공한다.

시뮬레이션 하여 리드를 생성한다. MASON의 각 플랫폼 모델별 특징은 아래 표1에 잘 나타나

있다.

최근에 가장 많이 사용되는 Illumina는 다른 플랫폼과 달리 리드길이가 고정적이고 매우

짧다는 단점이 있으나 비용이 저렴하고 빠르기 때문에 개인 DNA 분석과 관련된 분야에서

가장 각광받는 플랫폼이다. MASON에서는 실제 플랫폼에서 시퀀싱을 수행하게 될때 신호를

감지 하지못하는 경우, 신호를 잘못 읽는 경우, 신호 방출이 늦게 일어나서 신호 방출전에 이미

시퀀싱이 완료되는 경우와 같은 이유로 잘못된 데이터가 삽입, 삭제, 변환 되는것을 플랫폼

에서 리드를 읽어들이는 단계에 따라 고려하여 시뮬레이션 한다. 시뮬레이션을 통해 리드를

생성할때 생성된 리드가 편향되지 않도록 하지만 실제 플랫폼에서 유전자를 읽어들일때 화학

적 방법을 사용하여 읽기 때문에, 리드 서열에서 에러를 발생할시 어느정도 위치를 고려하여

리드를 생성한다.

NGS분야가 생겨난 후 최초로 상용화된 454 플랫폼은 Illumina에 비해 throughput이 낮아

NGS관련 분야에 많이 사용되지는 않다. 하지만 Sanger에 비해 저비용으로 염기 서열을 추출

할 수 있으며 Illumina보다 리드 길이가 상대적으로 길기 때문에 De novo Sequencing 과 같이

몇몇 특정한 용도에서는 비중이 높게 사용된다. 454에서의 에러모델은 454 기반으로한 시뮬레

이터도구인 MetaSIM[6]의 에러모델을 이용하였다.

표 1: 플랫폼별 특징 정리

플랫폼 Quaility 지원 리드 길이 리드 형태 Error model특징

Illumina O 짧다 고정 길이 Position based Model

454 X 길다 가변 길이 MetaSIM

Sanger O 길다 가변 길이 CelSIM Ramp Function

3

Page 4: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

Sanger 플랫폼은 NGS이전에 사용된 고전적인 염기서열 결정 방법으로 비용이 상대적으

로 비싸고 시퀀싱 과정이 오래걸리기 때문에 현재 실제 산업에는 잘 사용되지는 않다. 하지만

Sanger에서 생성되는 리드서열은 다른 플랫폼에 비해 정확하기 때문에 연구용으로 아직 많이

사용한다. MASON에서는 1999년발표된 Sanger를기반으로한시뮬레이터도구인 CelSIM[7]을

참고하여 에러모델을 고려하였다.

3 MASON 시뮬레이터 기능

MASON은 3개의 플랫폼에 대해 리드 생성을 지원한다. 플랫폼마다 리드의 생성 방식이나, 에

러 발생이 차이가 있기 때문에, MASON에서는 다음과 같이 세개의 플랫폼을 각각 분리하여

제공한다.

./MASON sanger [OPTIONS] SEQUENCE

./MASON 454 [OPTIONS] SEQUENCE

./MASON illumina [OPTIONS] SEQUENCE

위 세개의 플랫폼에 대해 MASON에서는 공통적인 옵션과 각 플랫폼의 특징을 제어하는

옵션을 제공한다. 공통적인 옵션은 주로 리드서열의 생성과 일반적인 변이에 관한 옵션들로

이루어져 있다. 또한 앞서 언급한것과 같이 플랫폼 별로 리드의 생성방식이 조금씩 다르기

때문에각플랫폼에맞는세분화된옵션을제공한다.세분화된옵션은유전체로부터서열을읽

을때 플랫폼에서 생성되는 리드의 길이나, 리드 생성과정에서 발생하는 오류에 대한 옵션이다.

MASON의 옵션에 대한 자세한내용은 다음과 같다.

3.1 공통 옵션

공통적으로들어있는옵션은주로리드의형식을지정하는옵션과,입출력파일형식을지정하

는 옵션이다. 대표적인 옵션은 다음과 같다.

1. Main Option

• - aNg : 참조 서열중 N(None) 에 대해서도 리드에 포함하도록 한다. (default false)

• - N : 생성할 리드 서열의 개수를 결정한다. (Default : 1000000)

• - s : seed Number를 설정한다. (Default : 0)

• - spA, -spC, -spG : 리드에서 A,C,G가 나오는 비율을 설정한다. T는 앞의 A,C,G

비율에 의해 결정된다.(Default : 0.25)

4

Page 5: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

• - o : outputfile을 설정한다.

2. Mate-Pair Option

• - mp : 해당 옵션을 선택하면 Mate-pair 형태로 리드를 생성한다.

• - ll : Mate-pair 의 길이 범위를 의미한다 (Default : 1000)

3. Haplotype Opton

• - hn : Haplotype 의 수를 지정한다 (Default : 1)

• - hs : Haplotype에서 SNP 비율을 설정한다. (Default : 0.001)

• - hi : Haplotype에서 indel 비율을 설정한다. (Default : 0.001)

• - hm : Haplotype에서 최소 indel 크기를 설정한다. (Default : 1)

• - hM : Haplotype에서 최대 indel 크기를 설정한다. (Default : 6)

• - hnN : 삽입, 치환시 N을 허용하지 않는다.

위의 옵션은 리드를 시뮬레이션 할때 주로 사용되는 옵션으로 이외에도 리드의 naming 설

정을 비롯한10여개의 옵션이 더 존재한다. 공통 옵션에서는 주로 리드 파일에 대한 설정이나,

변이와 관련된 부분에 대해 설정 할 수 있다.

3.2 플랫폼별 옵션

플랫폼별 옵션에는 리드의 길이, 리드생성시 발생하는 에러의 모델, 그리고 Quality에 대한 설

정을 할 수 있다. 454는 Quility를 지원하지 않고, Illumina는 고정길이의 리드 서열을 생성하는

것과 같이 각각의 모델별로 리드생성 형식이 약간식 차가 난다. 그렇기 때문에 각각의 Option

은 약간씩의 차이가 있으며, 그중 중요한 몇몇 Option들만 아래와 같이 소개한다.

3.2.1 Illumina 옵션

1. Illumina Read Length

• - n :리드의길이를설정한다.모든리드는동일한길이를지니고있다.(Default : 36)

2. Illumina Error Model

• - pi : insert가 발생할 확률을 설정한다. (Default : 0.001)

• - pd : delete가 발생할 확률을 설정한다. (Default : 0.001)

5

Page 6: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

• - pmm : mismatch의 평균 비율을 설정한다. (Default :0.004)

• - pmmb, - pmme : 리드의 시작, 끝부분에서 mismatch가 생갈 확률을 설정한다.

• - nN : 이를 설정할경우 리드에 N이 나타나지 않는다.

Illumina의에러모델에서는 Quality의전체평균,분산 mismatch에서의평균,분산대해서도

설정할수있다.또한 Illumina의경우리드길이가다른플랫폼에비해짧으며평균과분산으로

리드가 설정되는것이 아닌 고정된 길이를 가지는 리드를 생성한다.

3.2.2 454 옵션

454는 Quality에 대한 설정은 지원하지 않는다.454의 리드길이와 에러모델에 대한 설정은 다음

과 같다.

1. 454 Read Lenght Parametars

• - nu : 해당 옵션을 설정하면 리드의 길이를 일정하게 설정한다.

• - nm : 리드의 길이를 설정한다 (Default : 400)

• - ne : nu옵션을설정하지않았을경우이값은편차를의미한다. nu가설정되어있다면

일정한 간격을 의미한다.

2. 454 Error Mdoel parameters

• -nsq 설정할경우 오류 계산시 제곱근 연산을 사용하지 않는다.

• -k : 에러 발생의 비례상수의 편차를 설정한다. (Default : 0.15)

위에서언급한옵션이외에도에러모델에서리드에 noise가생길확률에대한옵션이존재한다.

3.2.3 Sanger 옵션

Sanger의 경우 리드길이, 에러모델, Quaility에 대해 설정 할 수있다.

1. Sanger Read Lenght Parametars

• Sanger의 리드길이 설정은 454와 동일하여 생략.

2. Sanger Error Model Parameters

• - pmb, -pme : 리드서열의 처음,끝에서 mismatch가 발생할 확률을 설정한다.

- pib, pie : 리드서열의 처음,끝에서 insert가 발생할 확률을 설정한다.

- pdb, pde : 리드서열의 처음,끝에서 delete가 발생할 확률을 설정한다.

6

Page 7: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

3. Sanger Quality Model Parameters

• 리드의 시작, 끝부분의 매칭, 오류에 대한 평균과 표준편차를 설정한다.

Sanger의 Quaility에 대한 자세한 설명은 생략하였다. 에러모델의경우 리드서열의 처음, 끝

에서 Error가 발생할 확률을 설정하고 전체 에러 비율을 앞서 설정한 처음, 끝에서 발생하는

에러확률을이용하여 Ramp function에의해계산하여결정한다. Ramp function은다음과같다.

y =

x (x >= 0)

0 (x < 0)(1)

4 MASON 구동 및 Option 비교

이제까지 MASON의 특징을 살펴보고 MASON에 어떠한 옵션이 있는지 확인하였다.이제 실제

로 MASON을 실행해 보고 임의로 생성한 염기서열로부터 몇가지 옵션에 따른 결과를 비교해

보도록 한다.

MASON의 입력은 Fasta Format형태의 시퀀스 데이터이다. 출력은 콘솔에서는 MASON 전

체옵션값이출력되며, File형태로 Fastq Format의리드시퀀스와리드의실제매핑위치결과인

SAM Format 데이터가 출력된다.

MASON 실행은 3개의 플랫폼중 Illumina 플랫폼에서만 테스트하였다. 참조서열은 임의로

생성한 길이 100의 시퀀스를 사용하였다. MASON 옵션으로는 리드 생성개수 10개 리드길이를

8bp로 하고 오류율을 10% 로 두었으며, 이외에 다른 Option들은 기본 옵션으로 사용하였다.

실행문은 아래와 같다.

./MASON illumina -N 10 -n 8 -pi 0.1 -rnp read -o sample1.fastq sample1.fasta¿ sample1.result

리드 생성 결과는 그림2와 같이 출력된다. 리드의 실재 매핑 결과로 생성된 SAM File에서

8번 리드의 Position과 cigar code를 확인해보면 83, 7M1I 즉 83번째 위치부터 순서대로 7개

매핑되고마지막한개는 Insert발생되었다고표시되어있음을확인할수있다.실제로생성된

참조서열과 생성된 리드를 비교하보면

참조서열 (83 - 90) : TGCATCAT

생성된 8번리드 : TGCATCAN

으로 SAM 결과 파일과 일치함을 확인 할 수 있엇다.

7

Page 8: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

그림 2: 참조 서열 길이=100, N=10, n=8, Insert=0.1 일때Fastq Format의 리드 시퀀스

이후 MASON의 리드 생성 개수와 Insert 비율을 조정하며 전체 Insert 개수를 비교하였다.

표2 에서는 5000의 길이를 가지는 참조서열로부터 리드길이가 10 인 리드를 개수를 달리하여

출력하고그결과를비교하였다.위결과에서보면리드길이를제외한모든옵션을기본설정된

값으로둘때전체리드개수의 3%정도되는 Insert가생김을확인할수있었다.또한표3에서와

같이. 생성하는 리드의 개수를를 10000으로 고정하고 Insert의 비율을 바꾸어가며 비교 해 본

결과 각각의 Insert 수에 따라 차이는 있으나, 전체 Insert된 리드의 개수는 어느정도 비례하여

올라감을 확인 할 수 있었다.

표 2: 리드개수에 따른 Insert된 리드 수

insert 수 -n 100 -n 1000 -n 10000

1 2 25 253

2 1 3 17

3 0 3 20

4 0 1 8

5 0 0 3

표 3: Insert Option에 따른 Insert된 리드 수

insert 수 -pi 0.001 -pi 0.005 -pi 0.010

1 253 578 1071

2 17 17 30

3 20 20 20

4 8 5 1

5 3 1 2

8

Page 9: Analysis MASON Read Generation Toolpearl.cs.pusan.ac.kr/~wiki/images/a/a6/TR13-06-kdg.pdf · 2015-01-18 · Sanger «ü@NGSt — ‹'˝à xü0˝ô ° )Ł

5 결론 및 추후 연구과제

매핑도구를검증하기위한시뮬레이터는매핑도구에대한연구와더불어 NGS분야에서앞으로

유전자 염기서열을 연구하는데 있어서 매우 중요한 연구중 하나이다. 본 보고서에서는 대표적

인 시뮬레이터중 하나인 MASON의 3가지 플랫폼에서 리드생성 방식의 기본 배경을 알아보고

각각의옵션을분석해보았다. MASON에서는각플랫폼에따라리드의길이, Quality,에러모델

에 대한 옵션을 제공하였으며 이를 통해유사한 형태의 리드 데이터를 생성 할 수 있엇다. 또한

MASON에서리드를생성하였을때생성된리드가여러곳에매핑이가능한경우,실제올바르게

매핑이 되더라도 MASON에서 제공하는 SAM File통해 검증 할 경우 잘못된 결과 출력 될 수

있는 가능성을 확인 할 수 있엇다. 이후 연구에서는 MASON 시뮬레이터 도구에서 제공하는

여러특징과 발견된 문제점을 고려하여 새로운 시뮬레이터 도구에 대해 연구하려고 한다.

References

[1] Coulson AR Sanger F, Nicklen S, “Dna sequencing with chain-terminating inhibitors,” Proc

Natl Acad Sci, vol. 74, no. 12, pp. 5463–5467, 1977.

[2] Olena Morozova and Marco A. Marra, “Applications of next-generation sequencing tech-

nologies in functional genomics,” Genomics, vol. 92, no. 5, pp. 255 – 264, 2008.

[3] Badr A Zhang G Zhang J, Chiodini R, “The impact of next-generation sequencing on

genomics,” Genomics, vol. 38, no. 3, pp. 95 – 109, 2011.

[4] Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan, Nils Homer, Gabor Marth,

Goncalo Abecasis, Richard Durbin, and 1000 Genome Project Data Processing Subgroup,

“The sequence alignment/map format and samtools,” Bioinformatics, vol. 25, no. 16, pp.

2078–2079, 2009.

[5] Holtgrewe M, “A read simulator for second generation sequencing data,” Tech Rep, 2010.

[6] Daniel C. Richter, Felix Ott, Alexander F. Auch, Ramona Schmid, and Daniel H. Huson,

“Metasim - a sequencing simulator for genomics and metagenomics,” PLoS ONE, vol. 3, no.

10, pp. e3373, 10 2008.

[7] Mayers G, “A dataset generator for whole genome shotgun sequencing,” 1 1999.

9