19
MAPLE Submission Data Maker Ver. 1.0 ユーザーマニュアル JAMSTEC 11/15/2018

MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

MAPLE Submission Data Maker

Ver. 1.0

ユーザーマニュアル

JAMSTEC 11/15/2018

Page 2: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

2

目 次

1. はじめに ......................................................................................................................... 3 2. 動作環境 ........................................................................................................................ 3 3. 動作概要 ........................................................................................................................ 3

3.1. 入力データ ............................................................................................................. 3 3.2. 出力データ ............................................................................................................. 4 3.3. 解析パイプラインの概要 ....................................................................................... 4

4. サーバーの操作 ............................................................................................................ 5 4.1. サーバーの起動 ..................................................................................................... 5 4.2. サーバーの終了 ..................................................................................................... 7 4.3. サーバーの設定変更 ............................................................................................ 8

5. 解析パイプラインの操作 ............................................................................................. 10 5.1. 新規ジョブの登録 ................................................................................................ 10 5.2. ジョブの実行 ......................................................................................................... 12 5.3. 解析パラメータの設定、変更 .............................................................................. 13 5.4. ジョブリストの表示 ................................................................................................ 13 5.5. ジョブリストの更新 ................................................................................................ 15 5.6. 解析状況の確認 .................................................................................................. 15 5.7. 解析結果のダウンロード...................................................................................... 17 5.8. 解析の中止 ........................................................................................................... 17 5.9. 解析結果の消去 .................................................................................................. 18

参考文献 ............................................................................................................................. 19

Page 3: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

3

1. はじめに 本マニュアルでは、MAPLE Submission Data Maker(以下、MSDM)の利用方法について説明します。

MSDM は、クライアント・サーバー方式で動作します。MSDM の仮想サーバーイメージを仮想化ソフト上

でサーバーとして動作させ、ウェブブラウザを介してサーバーを制御し、Illumina シーケンスデータから

MAPLE [1, 2] 解析用の入力データを作成できます。 下図に MSDM の実行環境の概要を示します。

2. 動作環境

MSDM の動作環境は以下の通りです。

OS Windows 10 または Mac OS X CPU 4 スレッド以上 メモリ 16GB 以上 ストレージ 256GB(SSD を推奨)以上の空き領域 Web ブラウザ Google Chrome または Firefox 仮想化ソフト VirtualBox 5.2.20 以上

3. 動作概要

MSDM は、MAPLE の入力データを作成するための解析パイプラインとそのユーザーインタフェースを

提供します。

3.1.入力データ MSDM は、特定の条件を満たす Illumina ショットガンメタゲノムシーケンスのリード配列を入力として受

け付けます。具体的には下図のように、ライブラリー断片長に対して、リード1とリード2の合計長が大きくな

るようデザインされたライブラリーとリード長であることが必要です。3.3.節で詳しく述べますが、リード1とリ

ード2について、オーバーラップ配列をもとにマージ(merge)できた、ライブラリー断片の全長に対応する

配列のみを解析対象とするため、オーバーラップがないと MAPLE の入力データを得ることができません。

/

A

/

Page 4: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

4

入力データは、リード1とリード2のそれぞれの配列の FASTQ ファイルのペアまたは FASTQ の gzip 圧縮

ファイルのペアになります。

MSDM の入力リードの条件

3.2.出力データ 出力データは、ライブラリー断片配列上に予測された ORF のアミノ酸配列群です。開始コドンから終始

コドンまでを含む完全な ORF の他に、開始コドンまたは終止コドンのいずれかまたは両方を持たない

partial ORF についても、一定の長さ以上であれば MAPLE での解析に有効であるため出力されます。出

力データはアミノ酸配列の FASTA ファイルになります。

アミノ酸配列が多すぎると MAPLE の解析が非常に重たくなるため、閾値で設定した数を超えるアミノ

酸配列群が得られた場合は、設定した数になるようダウンサンプルされて出力されます。

3.3.解析パイプラインの概要 下図にパイプラインの概要を示します。

(1) 入力となるリード1(Forward reads)とリード2(Reverse reads)の FASTQ ファイルから、各ペアのリー

ドについて、3’末端より 10 塩基以上のオーバーラップ配列を見つけ、リード1とリード2をマージした

配列を生成します。本ステップには、PEAR [3] を使用します。マージされた配列のみが以降の解

析の対象となります。

MSDM パイプラインの概要

(2) マージされた配列数が、ユーザー定義可能な配列上限数を超えないよう必要に応じてランダムに

ダウンサンプルされ、以降の解析に使用されます。

����� �

����

����

������

oMfP- 452- F 8F F 8 GO

oMfQ- 4523 FG F 8 GO

qfoMf kM

oMf h pcoq _ oe h pcoq 8G E7E 8 7 F 1 6 h pcoq y v F G E

oMfP oMfQ kM 1 3 kM S ToMf d qaqioq

s 3- s 8 8 F

( l w F8 G 8 ) u 3-RX t r 8F 8 3- 7 O t r 3- nqdmaqioq F8 A 9 O

l w - 45

Page 5: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

5

(3) ユーザー設定可能なクウォリティ基準に満たない配列は、本ステップでフィルターアウトされます。

FASTX-toolkit [4] の fastq_quality_filter が使用されます。

(4) 残った配列は、Illumina シーケンサーの PhiX コントロール配列にマッピングされ [5]、フィルターア

ウトされます。

(5) 同一配列を持つ配列は、PCR duplication と判断され、重複がなくなるようフィルターアウトされます。

本ステップには、PRINSEQ [6] を使用します。

(6) 以上のステップで残った配列に対し、MetaGeneAnnotator [7, 8] を用いて ORF を予測します。

(7) (6) で予測された ORF について、翻訳アミノ酸配列を生成します。

(8) (7) で得られた翻訳アミノ酸配列について、カスタムスクリプト(AA_divide)を用いて、開始コドンで

始まり終止コドンで終わる complete ORF のアミノ酸配列と、そうでない partial ORF のアミノ酸配列

に分割します。さらに、partial ORF のアミノ酸配列について、ユーザー定義可能な閾値に満たない

配列長のものをフィルターアウトします。complete ORF と残った partial ORF のアミノ酸配列を出力

します。

(9) (8) で出力されたアミノ酸配列について、カスタムスクリプト(randompick)を用いて、ユーザー定義

可能な配列上限数を超えないよう、必要に応じてランダムにダウンサンプルし、最終結果としてアミ

ノ酸配列の FASTA ファイルを出力します。

4. サーバーの操作 4.1.サーバーの起動 MSDM パイプラインを利用するには、MSDM サーバーが起動している必要があります。インストール後

サーバーを起動する前に 4.3. 節に示す手順により使用環境に合わせてサーバーの搭載 CPU 数とメモリ

量を変更することをお勧めします。

MSDM サーバーの起動は、以下の手順により行います。

(1) VirtualBox を起動し、VirtualBox Manager ウィンドウの仮想サーバーリストから MSDM サーバーを

選択します。Powered Off の状態であることを確認し、Start ボタンをクリックすると起動が始まります。

Page 6: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

6

(2) しばらくすると起動が終了し、MSDM サーバーのコンソールに下図のようなログイン画面が表示されます。

(3) サーバー起動後、Web ブラウザを起動し、接続先の URL に localhost:30080/MSDM を入力し、接続し

ます。

(4) サーバーへの接続が完了すると、ブラウザ上に下図のような MSDM のメイン画面が表示されます。

MSDM はこの画面から利用します。MSDM の利用方法についての詳細は 5 節を参照してください。

なお、下図はジョブが1件も登録されていない初期状態の画面例です。通常は、登録、実行を行っ

た複数のジョブリストが表示されます。

Page 7: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

7

MSDMサーバーが起動している状態のときは、相当量のハードウェア資源を使用しているため、なるべ

く他の作業を控えるようご注意ください。

4.2.サーバーの終了 MSDM パイプラインの利用を終了するには、MSDM サーバーを終了します。MSDM サーバーの終了

は、以下の手順により行います。なお、MSDM パイプラインを利用中に異常が発生し、操作不能に陥った

場合や、ジョブを削除してもディスクの使用量が減少しないなどの問題が発生した場合などにも、サーバ

ーの再起動は有効な手段です。

(1) Web ブラウザから MSDM サーバーに接続し、Running 状態のジョブが存在しないことを Status 欄より

確認します。ただし、パイプラインが操作できないなどの異常な状態に陥った場合は、この限りではあ

りません。

(2) VirtualBox Manager ウィンドウメニューから Machine→Close→Power Off を選択し、MSDM サーバー

を停止します。あるいは、サーバーのコンソールのログイン画面右上に表示される電源停止ボタンか

ら停止することも可能です。

Page 8: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

8

(3) サーバーが終了すると、サーバーコンソール画面がクローズします。VirtualBox Manager ウィンドウに

て、MSDM サーバーが Powered Off になっていることを確認します。

以上でサーバーの停止は完了です。必要に応じて VirtualBox も終了してください。

4.3.サーバーの設定変更 MSDM パイプラインの実行性能は、MSDM サーバーに割り当てられる CPU 数とメモリ量に大きく依存

します。初期状態では、CPU 数、メモリ量ともに推奨値が設定されていますが、ご使用のコンピュータのス

ペックに合わせ、本節の手順に従って適宜変更してください。

(1) VirtualBox を起動し、VirtualBox Manager ウィンドウの仮想サーバーリストから MSDM サーバーを選

択します。Powered Off の状態であることを確認し、Settings ボタンをクリックします。

(2) サーバーの設定画面から、System アイコンを選択します。

Page 9: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

9

(3) サーバーの搭載メモリ量は、Motherboard タブ内に表示される Base Memory 欄にて変更することがで

きます。値を変更後 OK ボタンをクリックすることで、次回のサーバー起動からサーバーのメモリ搭載

量が変更されます。CPU の数を変更する場合は、Processor タブを選択します。

(4) Processor(s)欄にて CPU 数を変更し、OK ボタンをクリックします。設定変更後、サーバーを起動する

と変更後の仮想ハードウェア構成でサーバーが起動します。

Page 10: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

10

5. 解析パイプラインの操作 本節では MSDM パイプラインのユーザーインターフェースを介して、解析パイプラインの実行・制御・

解析結果の確認・取得といった各種操作方法について説明します。

5.1.新規ジョブの登録 解析を実行する前の準備として、入力ファイルや実行パラメータなどを指定し、ジョブを登録する必要

があります。ジョブの登録を行うには、New Job ボタンをクリックします。

ジョブ登録ダイアログが表示されます。

ジョブを登録するにはダイアログに下記情報を入力し、Upload ボタンをクリックします。

(a) Title (必須)

ジョブのタイトルを指定します。Title は出力ファイルの prefix に使用されるため、空白文字を含まな

い識別子を入力してください。プロジェクト名とサンプル名を特定できる識別子であることが望ましいで

す。

(b) Description(必須)

ジョブに関する説明やメモをフリーテキストで入力します。

(c) FASTQ ファイル(必須)

Page 11: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

11

入力となる Paired-End リードの FASTQ ファイルを Forward (Read 1)と Reverse (Read 2)にそれぞれ指

定します。それぞれの Choose File ボタンをクリックするとファイル選択ダイアログが現れます。指定可能な

ファイル形式は、FASTQ または gzip 圧縮した FASTQ ファイルのいずれかですが、Forward と Reverse で

同じ形式のファイルを選択する必要があります。

また、FASTQ ファイルのサイズが小さいとサーバーへのアップロード時間が早くなるため、なるべく gzip

圧縮のファイルを指定するようにしてください(Illumina シーケンサーから出力される FASTQ ファイルも、

通常は fastq.gz で終わるファイル名をもつ gzip 圧縮形式になっています)。

Parameters の右横の Show ボタンをクリックするとパラメータ設定フォームが出現します。ここを変更す

ることで登録ジョブの解析パラメータを変更することができます。

必要に応じて Value カラムの設定値を変更してください。編集時に各行の Default カラムに表示されたデ

フォルトパラメータをクリックすると、デフォルト値に戻すことができます。各パラメータの説明については、

5.3 節を参照してください。

必要なすべての設定を完了した後、Upload ボタンをクリックすると、ファイルのアップロードが開始され

ます。ただし、10GB を超えるサイズのファイルはアップロードできないようになっていますのでご注意くだ

さい。

また、サーバーのメモリ量より大きいサイズのファイルを指定するとアップロードに過剰な時間がかかる

ので注意してください。サーバーのメモリ量はジョブリスト画面右上表示により確認できます。

ファイルのアップロードとジョブ登録が完了し、ジョブが実行可能な状態になると、新たなジョブがリスト

に出現します。このとき、ジョブの Status は、Only uploaded と表示されています。

Page 12: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

12

5.2.ジョブの実行 登録が完了すると、ジョブリストの該当ジョブの Command カラムに Run ボタンが出現します。

Run コマンドをクリックすると、下図のようにジョブの実行確認ダイアログが表示されます。

実行前に解析パラメータの再確認、変更を行う場合には Parameters の右横の Show ボタンを選択してく

ださい。

各パラメータの現在の設定値とデフォルト値が表示されます。Value カラムの値を編集することで変更

することができます。各パラメータの説明については、5.3 節を参照してください。

Page 13: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

13

Run ボタンをクリックすると、ジョブの実行が開始され、ジョブリストの Status 欄が Running ... に変わります。

5.3.解析パラメータの設定、変更

設定可能な解析パラメータとその説明を下表にまとめます。

Command Parameter Description pear -j PEAR コマンドのスレッド数

→ サーバーの CPU 数より大きくしないこと

pear lenMin マージ後の配列長の下限値

これより短い配列はフィルターアウトされる

pear #seqMax マージ後の配列数の上限値

これより多い数の配列が得られた場合は、ランダムにダ

ウンサンプルされる

fastq_quality_filter -p 指定したパーセント以上の塩基が-q で指定したクウォリ

ティスコアを超えない配列はフィルターアウトされる

fastq_quality_filter -q クウォリティスコアの下限値

AA_divide aalen partial ORF のアミノ酸配列長の下限値

これより短い partial ORF のアミノ酸配列はフィルターア

ウトされる

randompick #seq 出力されるアミノ酸配列の最大数

これより多い数のアミノ酸配列が得られた場合は、ランダ

ムにダウンサンプルされる

それぞれのパラメータはジョブ登録時、ジョブ実行時、ジョブ再実行時に設定することができます。

5.4.ジョブリストの表示 本システムのメイン画面ではジョブリストが表示されています。ジョブリストは入力データのアップロード完

了時刻が新しい順に表示されています。

Page 14: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

14

リスト右上には、画面表示更新時点での MSDM サーバーのストレージ使用量/上限量、メモリの使用

量/搭載量が表示されていますので、サーバーに過剰な負荷がかかり過ぎないよう、ジョブの実行を制

限したり、解析データを消去したりといった対処を適宜行ってください。

下表にジョブリストに表示される項目を示します。

No. 項目名 内容 1 ID 自動採番されたジョブの ID

2 Title ジョブ登録時にユーザーが入力した Title

3 Description ジョブ登録時にユーザーが入力した Description

4 Input reads ジョブ登録時にユーザーが指定した各リードデータ

のファイル名

5 Period 1 行目にジョブ開始時刻、2 行目にジョブ完了時刻が

表示されます。

6 Run time [sec] ジョブ実行にかかった時間、ジョブ実行中の場合は

経過時間が表示されます。

7 Status ジョブのステータスを表示します。以下のいずれかの

値をとります。

・Only uploaded : ファイルアップロード完了

・Running... :ジョブ実行中

・Terminated : ジョブが途中で停止したか、サーバー

の停止によりジョブが停止された状態

・Complete : ジョブが正常終了した状態

・Error: ジョブ実行中に異常終了した状態

8 Parameters 解析パラメータ表示ボタン

9 Statistics 解析パイプラインの各ステップにおける統計情報を

進捗状況に応じ順次表示します。核酸塩基のリード

/配列数および塩基長、またはアミノ酸配列数およ

び配列長などが表示されます。

10 Result 解析正常終了後に解析結果のアミノ酸配列のダウン

ロードボタンを表示

11 Sequence length distribution

Merged reads: リード1とリード 2 のマージ後の配列

長のヒストグラムを表示するボタン

Result: 最終解析結果のアミノ酸配列の配列長のヒ

ストグラムを表示するボタン

12 Command ジョブに対する各種コマンド実行ボタンを表示

Run: ジョブの実行

Rerun: ジョブの再実行(解析結果上書き)

Terminate: ジョブの実行中止

Delete: ジョブの削除(付随データ含む)

Page 15: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

15

5.5.ジョブリストの更新 ジョブリストの表示を最新の状態に更新するには、ジョブリスト上部の Reload ボタンもしくは、画面左上

のシステムタイトルをクリックします。

ジョブリスト中に Status が Running 状態のものがある場合、Running...という表示をクリックすることでも、

ジョブリストを最新の状態に更新することができます。

5.6.解析状況の確認 解析実行中のジョブや解析完了後のジョブについて、解析パラメータや各種統計情報など解析状況を

随時確認することができます。

(a) 解析パラメータの確認

ジョブリストの任意のジョブの Parameters 欄の Show ボタンをクリックするとポップアップウィンドウが現れ

解析パラメータが表示されます。ポップアップウィンドウはドラッグすると移動できます。閉じる際には、左

上の x ボタンをクリックします。

(b) 各解析ステップにおける統計情報の確認

任意のジョブの Statistics 欄にある Detail ボタンをクリックすることで、各解析ステップにおけるリード

数/配列数、リード長/配列長などの統計情報を表示できます。

解析途中のジョブについては、解析が完了したステップまでの統計情報が確認できます。

Page 16: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

16

(c) マージされたリードの配列長の分布の確認

PEAR によるリード1とリード2のマージが完了すると、Sequence length distribution 欄にある Merged

reads ボタンにより、マージされた配列の長さによるヒストグラムが表示できます。グラフはドラッグにより

移動でき、グラフ内をクリックすることで閉じることができます。

PEAR による解析が完了しているかどうかは、Statistics 欄の Detail ボタンで統計情報を表示したとき

に pear (limited) の統計情報が表示されているか否かで確認できます。

ヒストグラムは X 軸にマージされた配列の長さ、Y 軸に配列数を表示します。青い線は PEAR によりマ

ージされた全配列についてのヒストグラムを、赤い線は配列長や配列数の閾値によりフィルタリング/ダウ

ンサンプリングされた後の配列長のヒストグラムを示します。本ヒストグラムにより、想定したサイズのライブ

ラリー分布に準じた配列長の分布になっているかを確認することをお勧めします。

この段階で異常がみられた場合は、解析パラメータの見直しやシーケンシングのやり直しなどを検討す

る必要があるかもしれません。実行中のジョブの中止や再解析については、5.8.節を参照してください。

(d) 解析結果のアミノ酸配列長の分布の確認

解析が正常に終了すると、Sequence length distribution 欄に Result ボタンが表示されます。このボタン

をクリックすると、最終結果のアミノ酸配列長のヒストグラムが表示できます。ヒストグラムは X 軸にアミノ酸

配列の長さ、Y 軸に配列数を表示します。長い配列が多いほど、MAPLE の解析の信頼性が高くなります。

Page 17: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

17

5.7.解析結果のダウンロード ジョブが正常に終了すると、Result カラムに FASTA ボタンが出現します。

FASTA ボタンをクリックすると、アミノ酸配列の FASTA ファイルがダウンロードされます。本ファイルが

MAPLE の入力ファイルになります。MAPLE での解析を実行する前に 5.6.節に示す方法で各種統計情

報を表示確認し、解析結果が適切なものになっているかを確認することをお勧めします。

5.8.解析の中止 ジョブの実行を中止するには、ジョブリストから実行中のジョブの Command 欄にある Terminate ボタン

をクリックします。

Page 18: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

18

ジョブ実行中止の確認ダイアログが表示されるので、OK を選択します。

ジョブが中止されると、Status が Terminated に変わります。この状態で Command 欄にある Rerun ボタ

ンをクリックすると、ジョブを最初から再実行することができます。

5.9.解析結果の消去 サーバーのディスク空き領域を増やすためには、解析結果やインプットデータを削除する必要がありま

す。そのためにはジョブリストから Delete ボタンをクリックします。

Page 19: MAPLE Submission Data Maker Ver. 1...MAPLE [1, 2] 解析用の入力データを作成できます。 下図にMSDM の実行環境の概要を示します。 2. 動作環境 MSDM

19

消去確認ダイアログが表示されるので、OK を選択します。

消去したジョブがリストから消失します。

参考文献

[1] Arai, W., Taniguchi, T., Goto, S., Moriya, Y., Uehara, H., Takemoto, K., et al. (2018). MAPLE 2.3.0: an improved system for evaluating the functionomes of genomes and metagenomes. Bioscience,

Biotechnology, and Biochemistry, 82(9), 1515–1517. [2] Takami, H., Taniguchi, T., Arai, W., Takemoto, K., Moriya, Y., Goto, S. (2016); An automated system

for evaluation of the potential functionome: MAPLE version 2.1.0, DNA Research, 23(5), 467–475. [3] Zhang, J., Kobert, K., Flouri, T., and Stamatakis, A. (2014). PEAR: a fast and accurate Illumina Paired-

End reAd mergeR. Bioinformatics, 30(5), 614–620. [4] http://hannonlab.cshl.edu/fastx_toolkit/ [5] Langmead, B., and Salzberg, S. L. (2012). Fast gapped-read alignment with Bowtie 2. Nature Methods,

9(4), 357–359. [6] Schmieder, R., and Edwards, R. (2011). Quality control and preprocessing of metagenomic datasets.

Bioinformatics, 27(6), 863–864. [7] Noguchi, H., Taniguchi, T., & Itoh, T. (2008). MetaGeneAnnotator: Detecting Species-Specific

Patterns of Ribosomal Binding Site for Precise Gene Prediction in Anonymous Prokaryotic and Phage Genomes. DNA Research, 15(6), 387–396.

[8] Noguchi, H., Park, J., & Takagi, T. (2006). MetaGene: prokaryotic gene finding from environmental genome shotgun sequences. Nucleic Acids Research, 34(19), 5623–5630.