植物のゲノム研究に携わるお客様より、解析用PCの構成をご相談いただきました。
用途は、推定280Mbの2倍体生物のゲノムアセンブリで、RNA-seqの解析まで研究を広げる予定と伺っています。ご予算は100万~120万ほどで、OSはLinux (Ubuntu) をプリインストールしたマシンをご希望です。
使用するソフトウェアについては、RNA-seq解析ではTrinityの利用予定があり、ゲノム解析のハプロイドのサンプルではSPAdes、Platanus、Racon、medaka、ディプロイドのサンプルではFALCONかCanuを想定されています。
はじめは10Gb程度のデータからアセンブリング~シンテニー解析を行う予定で、詳細なソフトウェアは未定です。
これらの条件に合わせて、弊社からは下記の構成をご提案しました。
CPU | Intel Xeon W5-3435X 3.10GHz(TB3.0時4.70GHz) 16C/32T |
メモリ | 合計 256GB DDR5 4800 REG ECC 32GB × 8 |
ストレージ1 | 1TB SSD M.2 NVMe Gen4 |
ストレージ2 | 16TB HDD S-ATA |
ビデオ | NVIDIA T400 4GB (MiniDisplayPort x3) |
ネットワーク | on board (1GbE x1 /10GbE x1) |
筐体+電源 | タワー型筐体 + 1000W |
OS | Ubuntu 22.04 |
解析用PCの選定においては、計算に十分なメモリ容量の確保を重視するのが一般的な考え方です。そのため、スペック選定の順番とコスト比重は、まずメモリを必要量確保し、残った予算で解析用のCPUやデータ用ストレージを検討する流れとなります。
本件では、10Gb程度のデータから始めるというお話ですので、ご予算120万円の範囲である程度の解析を行うことができる構成をご提案しています。構成のポイントはメモリの拡張性で、「後から+768GBまでは増設できる」点が特徴です。扱うデータ量を段階的に増やす過程で、メモリ不足が発生した場合に増設できる余地のある構成になっています。
注意点として、本事例の構成は解析が可能なメモリ容量を重視しているため、処理速度そのものを重視した構成ではありません。処理速度について条件がある場合は、お気軽にご相談ください。
参考:Trinityのメモリについての表記(Running Trinity · trinityrnaseq/trinityrnaseq Wiki · GitHub)
■キーワード・Trinityとは Trinityは、トランスクリプトームのde novoアセンブリを行うためのソフトウェア。リファレンスゲノムが利用できない生物種や、新規転写産物の発見を目的とする場合に有効。RNA-Seqのリード(短い塩基配列)を使って、元のmRNA配列を復元することができる。 ・SPAdesとは SPAdesは、ゲノム配列のde novoアセンブリを行うためのソフトウェア。次世代シーケンサー (NGS) データを用いてゲノム配列を再構築するためのアセンブラで、特にバクテリアゲノムのアセンブリに適している。シングルセルシーケンシング (SCS) データにも対応している。
・Platanusとは Platanusは、ゲノム配列のde novoアセンブリを行うためのソフトウェア。特に高度に異質性のあるゲノムのアセンブリに適したツールで、次世代シーケンサーのショートリードデータを使用して、高精度なゲノム配列を再構築することができる。
・Raconとは Raconは、ロングリードシーケンスデータを用いたde novoゲノムアセンブリにおいて、高速かつ正確なコンセンサス配列を生成するためのツール。エラー率の高いロングリードから高品質なコンセンサス配列を迅速に生成することを目的としており、特にPacBioやOxford Nanopore Technologiesのデータに適している。 ・medakaとは medakaは、次世代シーケンシングデータの解析、特にDNAの変異検出に使用されるツール。主にOxford Nanopore Technologies (ONT)のロングリードシーケンスデータを対象としたポリッシングと変異検出のためのツールでで、特に、de novoアセンブリの後処理や、既知のリファレンスゲノムに対する変異コールに適している。
・FALCONとは FALCONは、PacBioのロングリードシーケンスデータを用いたde novoゲノムアセンブリを行うためのソフトウェア。Pacific Biosciences (PacBio) 社が開発したde novoゲノムアセンブラーで、大規模で複雑なゲノムのアセンブリに適している。 ・canuとは Canuは、ロングリードシーケンスデータを用いたde novoゲノムアセンブリを行うためのソフトウェア。PacBioやOxford Nanopore Technologiesのロングリードデータに特化したde novoアセンブラーで、大規模で複雑なゲノムのアセンブリに適している。 |
■ このPC事例に関する詳細、お問い合わせはこちら ※事例の名称またはご希望の条件などをご記入ください。 |