1
DDBJ, GenBank, EMBL-Bankは伝統的な塩基配列データバンク であり、SRAは新型シークエンサーの、TraceArchiveはサン ガー法のそれぞれ生データアーカイブである。これに加え BioProjectデータベースのデータ交換体制が始まっている(IAC は国際諮問委員会、ICMは国際実務者会議を示す) 中村保一,小笠原理,神沼英里,大久保公策,高木利久 日本DNAデータバンク(DDBJ) 大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 DDBJセンター 日本DNAデータバンク(DDBJ)は、米国GenBank、欧州ENAとで国際塩基配列データベース(INSDC)を構成している。伝統的 な配列アーカイブは1.6億エントリ、1,500億塩基の配列データを公開している。新型シーケンサを活用した配列情報と配列情報の プロジェクト化に対応するための新規アーカイブと解析支援系 DRADORDDBJ pipelineBioProjectBioSampleについて 報告する。20123月の遺伝研スーパーコンピュータの更新により、解析・運用能力が大幅に向上したのであわせて紹介する。 新しいアーカイブ・解析支援系の展開 新型シーケンサからの大量の塩基配列の解析支援のため、解析リ ソースとして遺伝研スーパーコンピュータを容易に活用するため の公開型解析パイプラインを構築し提供している。 http://p.ddbj.nig.ac.jp/ DDBJ Read Annotation pipeline http://trace.ddbj.nig.ac.jp/dra/ DDBJ Read Archive (DRA) (準備中) INSDCとして国際的に統一展開をしているSequence Read Archive (SRA) の日本ノードとして、DRA を2009年に開発し運 営してきている。 DDBJ Omics Repository (DOR) GEO, ArrayExpressに相当するアーカイブとして、ArrayExpress とのデータ互換を想定した国際的レポジトリの整備を予定してい る。種々の障害によりサービスインが遅れたが、今年度に開発を 開始する予定。 http://trace.ddbj.nig.ac.jp/bioproject/ BioProjectデータベース BioProject はプロジェクトのゴール、実験材料や研究費の提供元 といった情報を含み、それらプロジェクト由来のデータをまとめ るための機能を有するデータベースである。NCBI Genome Project データベースを拡張し、種々のプロジェクトを記述し収 集するプロジェクトDBとしてINSDCが共同で構築・維持する。 (準備中) BioSampleデータベース NCBIとEBIはそれぞれサンプル情報を管理するBioSampleデータ ベースを稼働させており、2012年に開催されたINSDC国際実務 者会議ではDDBJもINSDCの枠組みのなかでBioSampleデータ ベースを作成・提供することとなった。BioSample データベース はSRAのメタデータXMLのSampleオブジェクトのデータセット が独立発展したものと位置づけられる。 2012年3月更新の遺伝研スーパーコンピュータシステムは、2012 年6月時点のTop500ランキングで世界280位、国内21位のスペッ クである。このシステムの最大の特徴は現在主流の汎用スパコン とは異なりCPUの演算パワーの充実により塩基配列情報処理の効 率を高めることを明確な目標として構成していることである。 http://ddbj.nig.ac.jp/submission/ 新しい配列登録システムの開発 「Web 版DDBJ 塩基配列登録システム beta」を2012年10月3日 に公開した。これまでの「SAKURA」からアノテーション入力イ ンタフェイスを大幅に改善。エラーチェックは大量登録システム (MSS) で使用している jParser との統合を実現した。 ページ内に挙げられているアノテーションパ ターンに完全に合致する場合、template を利 用した表形式でのアノテーション入力が可能 になります。リストのいずれかを選択し、 "Input annotation"をクリックしてください。 例えば、バクテリア16S rRNAの登録を行う場 合はここを選択します。 template選択後、"Input annotation"をクリックします このページで入力を中断・再開するにはブラウザでブックマークするか、ページ いて、再開することが可能です。 6. Template 表形式アノテーション入力画面では4種類の入力方法が存在します Editアイコンをクリック(推奨) セルをダブルクリック Qualifierの編集アイコンをクリック Edit Columnをクリック Editクリックで、各エント リーごとの編集が可能 です セルをダブルクリック し、入力・編集が可能で Qualifier編集アイコ ンのクリックで列ごと の編集が行えます 列ごとの編集が行え、 copy & pasteによる一括 入力が可能です Qualifierを選択します 29 このページで入力を中断・再開するにはブラウザでブックマーク するか、ページのURLを保存してください。ブラウザーを閉じた後 でもブックマークしたURLを用いて、再開することが可能です。 登録件数 submission ID 塩基配列入力時に 指定したEntry name が表示されます 7.Annotation Link: Feature key の定義 Qualifier key の定義 Organism qualifier に記載する生物名 CDS feature について ヘルプファイルより 新登録ポータル http://sc.ddbj.nig.ac.jp/ 遺伝研スーパーコンピュータ

日本DNAデータバンク(DDBJ)DDBJ, GenBank, EMBL-Bankは伝統的な塩基配列データバンク であり、SRAは新型シークエンサーの、TraceArchiveはサン

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 日本DNAデータバンク(DDBJ)DDBJ, GenBank, EMBL-Bankは伝統的な塩基配列データバンク であり、SRAは新型シークエンサーの、TraceArchiveはサン

DDBJ, GenBank, EMBL-Bankは伝統的な塩基配列データバンクであり、SRAは新型シークエンサーの、TraceArchiveはサンガー法のそれぞれ生データアーカイブである。これに加えBioProjectデータベースのデータ交換体制が始まっている(IACは国際諮問委員会、ICMは国際実務者会議を示す)

中村保一,小笠原理,神沼英里,大久保公策,高木利久

日本DNAデータバンク(DDBJ)大学共同利用機関法人 情報・システム研究機構 国立遺伝学研究所 DDBJセンター

日本DNAデータバンク(DDBJ)は、米国GenBank、欧州ENAとで国際塩基配列データベース(INSDC)を構成している。伝統的な配列アーカイブは1.6億エントリ、1,500億塩基の配列データを公開している。新型シーケンサを活用した配列情報と配列情報のプロジェクト化に対応するための新規アーカイブと解析支援系 (DRA、DOR、DDBJ pipeline、BioProject、BioSample) について報告する。2012年3月の遺伝研スーパーコンピュータの更新により、解析・運用能力が大幅に向上したのであわせて紹介する。

新しいアーカイブ・解析支援系の展開

新型シーケンサからの大量の塩基配列の解析支援のため、解析リソースとして遺伝研スーパーコンピュータを容易に活用するための公開型解析パイプラインを構築し提供している。

http://p.ddbj.nig.ac.jp/DDBJ Read Annotation pipeline

http://trace.ddbj.nig.ac.jp/dra/DDBJ Read Archive (DRA)

(準備中)

INSDCとして国際的に統一展開をしているSequence Read Archive (SRA) の日本ノードとして、DRA を2009年に開発し運営してきている。

DDBJ Omics Repository (DOR)

GEO, ArrayExpressに相当するアーカイブとして、ArrayExpressとのデータ互換を想定した国際的レポジトリの整備を予定している。種々の障害によりサービスインが遅れたが、今年度に開発を開始する予定。

http://trace.ddbj.nig.ac.jp/bioproject/BioProjectデータベース

BioProject はプロジェクトのゴール、実験材料や研究費の提供元といった情報を含み、それらプロジェクト由来のデータをまとめるための機能を有するデータベースである。NCBI Genome Project データベースを拡張し、種々のプロジェクトを記述し収集するプロジェクトDBとしてINSDCが共同で構築・維持する。

(準備中)BioSampleデータベース

NCBIとEBIはそれぞれサンプル情報を管理するBioSampleデータベースを稼働させており、2012年に開催されたINSDC国際実務者会議ではDDBJもINSDCの枠組みのなかでBioSampleデータベースを作成・提供することとなった。BioSample データベースはSRAのメタデータXMLのSampleオブジェクトのデータセットが独立発展したものと位置づけられる。

2012年3月更新の遺伝研スーパーコンピュータシステムは、2012年6月時点のTop500ランキングで世界280位、国内21位のスペックである。このシステムの最大の特徴は現在主流の汎用スパコンとは異なりCPUの演算パワーの充実により塩基配列情報処理の効率を高めることを明確な目標として構成していることである。

http://ddbj.nig.ac.jp/submission/新しい配列登録システムの開発

「Web 版DDBJ 塩基配列登録システム beta」を2012年10月3日に公開した。これまでの「SAKURA」からアノテーション入力インタフェイスを大幅に改善。エラーチェックは大量登録システム (MSS) で使用している jParser との統合を実現した。

ページ内に挙げられているアノテーションパターンに完全に合致する場合、template を利用した表形式でのアノテーション入力が可能になります。リストのいずれかを選択し、"Input annotation"をクリックしてください。 例えば、バクテリア16S rRNAの登録を行う場合はここを選択します。

上記リストに該当する項目がない場合にother を選択します。この場合、テーブル形式のアノテーション入力は利用できません。

このページにおいてテンプレートを変更した場合、7.Annotationで入力した内容は失われます。

template選択後、"Input annotation"をクリックします

28

このページで入力を中断・再開するにはブラウザでブックマークするか、ページのURLを保存してください。ブラウザーを閉じた後でもブックマークしたURLを用いて、再開することが可能です。

6. Template

表形式アノテーション入力画面では4種類の入力方法が存在します Editアイコンをクリック(推奨) セルをダブルクリック Qualifierの編集アイコンをクリック Edit Columnをクリック

Editクリックで、各エントリーごとの編集が可能です

各セルをダブルクリックし、入力・編集が可能です

Qualifier編集アイコンのクリックで列ごとの編集が行えます

列ごとの編集が行え、copy & pasteによる一括入力が可能です

Qualifierを選択します

29

このページで入力を中断・再開するにはブラウザでブックマークするか、ページのURLを保存してください。ブラウザーを閉じた後でもブックマークしたURLを用いて、再開することが可能です。

登録件数

submission ID

塩基配列入力時に指定したEntry nameが表示されます

7.Annotation

Link: Feature key の定義 Qualifier key の定義 Organism qualifier に記載する生物名 CDS feature について

ヘルプファイルより新登録ポータル

http://sc.ddbj.nig.ac.jp/遺伝研スーパーコンピュータ