日本DNAデータバンク(DDBJ)DDBJ, GenBank,...

Preview:

Citation preview

DDBJ, GenBank, EMBL-Bankは伝統的な塩基配列データバンクであり、SRAは新型シークエンサーの、TraceArchiveはサンガー法のそれぞれ生データアーカイブである。これに加えBioProjectデータベースのデータ交換体制が始まっている(IACは国際諮問委員会、ICMは国際実務者会議を示す)

中村保一,小笠原理,神沼英里,大久保公策,高木利久

日本DNAデータバンク(DDBJ)大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 DDBJセンター

日本DNAデータバンク(DDBJ)は、米国GenBank、欧州ENAとで国際塩基配列データベース(INSDC)を構成している。伝統的な配列アーカイブは1.6億エントリ、1,500億塩基の配列データを公開している。新型シーケンサを活用した配列情報と配列情報のプロジェクト化に対応するための新規アーカイブと解析支援系 (DRA、DOR、DDBJ pipeline、BioProject、BioSample) について報告する。2012年3月の遺伝研スーパーコンピュータの更新により、解析・運用能力が大幅に向上したのであわせて紹介する。

新しいアーカイブ・解析支援系の展開

新型シーケンサからの大量の塩基配列の解析支援のため、解析リソースとして遺伝研スーパーコンピュータを容易に活用するための公開型解析パイプラインを構築し提供している。

http://p.ddbj.nig.ac.jp/DDBJ Read Annotation pipeline

http://trace.ddbj.nig.ac.jp/dra/DDBJ Read Archive (DRA)

(準備中)

INSDCとして国際的に統一展開をしているSequence Read Archive (SRA) の日本ノードとして、DRA を2009年に開発し運営してきている。

DDBJ Omics Repository (DOR)

GEO, ArrayExpressに相当するアーカイブとして、ArrayExpressとのデータ互換を想定した国際的レポジトリの整備を予定している。種々の障害によりサービスインが遅れたが、今年度に開発を開始する予定。

http://trace.ddbj.nig.ac.jp/bioproject/BioProjectデータベース

BioProject はプロジェクトのゴール、実験材料や研究費の提供元といった情報を含み、それらプロジェクト由来のデータをまとめるための機能を有するデータベースである。NCBI Genome Project データベースを拡張し、種々のプロジェクトを記述し収集するプロジェクトDBとしてINSDCが共同で構築・維持する。

(準備中)BioSampleデータベース

NCBIとEBIはそれぞれサンプル情報を管理するBioSampleデータベースを稼働させており、2012年に開催されたINSDC国際実務者会議ではDDBJもINSDCの枠組みのなかでBioSampleデータベースを作成・提供することとなった。BioSample データベースはSRAのメタデータXMLのSampleオブジェクトのデータセットが独立発展したものと位置づけられる。

2012年3月更新の遺伝研スーパーコンピュータシステムは、2012年6月時点のTop500ランキングで世界280位、国内21位のスペックである。このシステムの最大の特徴は現在主流の汎用スパコンとは異なりCPUの演算パワーの充実により塩基配列情報処理の効率を高めることを明確な目標として構成していることである。

http://ddbj.nig.ac.jp/submission/新しい配列登録システムの開発

「Web 版DDBJ 塩基配列登録システム beta」を2012年10月3日に公開した。これまでの「SAKURA」からアノテーション入力インタフェイスを大幅に改善。エラーチェックは大量登録システム (MSS) で使用している jParser との統合を実現した。

ページ内に挙げられているアノテーションパターンに完全に合致する場合、template を利用した表形式でのアノテーション入力が可能になります。リストのいずれかを選択し、"Input annotation"をクリックしてください。 例えば、バクテリア16S rRNAの登録を行う場合はここを選択します。

上記リストに該当する項目がない場合にother を選択します。この場合、テーブル形式のアノテーション入力は利用できません。

このページにおいてテンプレートを変更した場合、7.Annotationで入力した内容は失われます。

template選択後、"Input annotation"をクリックします

28

このページで入力を中断・再開するにはブラウザでブックマークするか、ページのURLを保存してください。ブラウザーを閉じた後でもブックマークしたURLを用いて、再開することが可能です。

6. Template

表形式アノテーション入力画面では4種類の入力方法が存在します Editアイコンをクリック(推奨) セルをダブルクリック Qualifierの編集アイコンをクリック Edit Columnをクリック

Editクリックで、各エントリーごとの編集が可能です

各セルをダブルクリックし、入力・編集が可能です

Qualifier編集アイコンのクリックで列ごとの編集が行えます

列ごとの編集が行え、copy & pasteによる一括入力が可能です

Qualifierを選択します

29

このページで入力を中断・再開するにはブラウザでブックマークするか、ページのURLを保存してください。ブラウザーを閉じた後でもブックマークしたURLを用いて、再開することが可能です。

登録件数

submission ID

塩基配列入力時に指定したEntry nameが表示されます

7.Annotation

Link: Feature key の定義 Qualifier key の定義 Organism qualifier に記載する生物名 CDS feature について

ヘルプファイルより新登録ポータル

http://sc.ddbj.nig.ac.jp/遺伝研スーパーコンピュータ

Recommended