NGS解析用ワークステーション (2024年11月版) | 研究開発者向け情報発信メディア TEGAKARI

植物のゲノム研究に携わるお客様より、解析用PCの構成をご相談いただきました。

用途は、推定280Mbの2倍体生物のゲノムアセンブリで、RNA-seqの解析まで研究を広げる予定と伺っています。ご予算は100万～120万ほどで、OSはLinux (Ubuntu) をプリインストールしたマシンをご希望です。

使用するソフトウェアについては、RNA-seq解析ではTrinityの利用予定があり、ゲノム解析のハプロイドのサンプルではSPAdes、Platanus、Racon、medaka、ディプロイドのサンプルではFALCONかCanuを想定されています。
はじめは10Gb程度のデータからアセンブリング～シンテニー解析を行う予定で、詳細なソフトウェアは未定です。

これらの条件に合わせて、弊社からは下記の構成をご提案しました。

CPU	Intel Xeon W5-3435X 3.10GHz(TB3.0時4.70GHz) 16C/32T
メモリ	合計 256GB DDR5 4800 REG ECC 32GB × 8
ストレージ1	1TB SSD M.2 NVMe Gen4
ストレージ2	16TB HDD S-ATA
ビデオ	NVIDIA T400 4GB (MiniDisplayPort x3)
ネットワーク	on board (1GbE x1 /10GbE x1)
筐体+電源	タワー型筐体 + 1000W
OS	Ubuntu 22.04

解析用PCの選定においては、計算に十分なメモリ容量の確保を重視するのが一般的な考え方です。そのため、スペック選定の順番とコスト比重は、まずメモリを必要量確保し、残った予算で解析用のCPUやデータ用ストレージを検討する流れとなります。

本件では、10Gb程度のデータから始めるというお話ですので、ご予算120万円の範囲である程度の解析を行うことができる構成をご提案しています。構成のポイントはメモリの拡張性で、「後から+768GBまでは増設できる」点が特徴です。扱うデータ量を段階的に増やす過程で、メモリ不足が発生した場合に増設できる余地のある構成になっています。

注意点として、本事例の構成は解析が可能なメモリ容量を重視しているため、処理速度そのものを重視した構成ではありません。処理速度について条件がある場合は、お気軽にご相談ください。

参考：Trinityのメモリについての表記(Running Trinity · trinityrnaseq/trinityrnaseq Wiki · GitHub)

■キーワード

・Trinityとは

Trinityは、トランスクリプトームのde novoアセンブリを行うためのソフトウェア。リファレンスゲノムが利用できない生物種や、新規転写産物の発見を目的とする場合に有効。RNA-Seqのリード(短い塩基配列)を使って、元のmRNA配列を復元することができる。

参考：trinityrnaseq · GitHub ※外部サイトに飛びます

・SPAdesとは

SPAdesは、ゲノム配列のde novoアセンブリを行うためのソフトウェア。次世代シーケンサー (NGS) データを用いてゲノム配列を再構築するためのアセンブラで、特にバクテリアゲノムのアセンブリに適している。シングルセルシーケンシング (SCS) データにも対応している。

参考：GitHub – ablab/spades: SPAdes Genome Assembler ※外部サイトに飛びます

・Platanusとは

Platanusは、ゲノム配列のde novoアセンブリを行うためのソフトウェア。特に高度に異質性のあるゲノムのアセンブリに適したツールで、次世代シーケンサーのショートリードデータを使用して、高精度なゲノム配列を再構築することができる。

参考：GitHub – rkajitani/Platanus_B: De novo genome assembler for bacterial genomes ※外部サイトに飛びます

・Raconとは

Raconは、ロングリードシーケンスデータを用いたde novoゲノムアセンブリにおいて、高速かつ正確なコンセンサス配列を生成するためのツール。エラー率の高いロングリードから高品質なコンセンサス配列を迅速に生成することを目的としており、特にPacBioやOxford Nanopore Technologiesのデータに適している。

参考：GitHub – isovic/racon: Ultrafast consensus module for raw de novo genome assembly of long uncorrected reads. http://genome.cshlp.org/content/early/2017/01/18/gr.214270.116 Note: This was the original repository which will no longer be officially maintained. Please use the new official repository here: ※外部サイトに飛びます

・medakaとは

medakaは、次世代シーケンシングデータの解析、特にDNAの変異検出に使用されるツール。主にOxford Nanopore Technologies (ONT)のロングリードシーケンスデータを対象としたポリッシングと変異検出のためのツールでで、特に、de novoアセンブリの後処理や、既知のリファレンスゲノムに対する変異コールに適している。

参考：GitHub – nanoporetech/medaka: Sequence correction provided by ONT Research ※外部サイトに飛びます

・FALCONとは

FALCONは、PacBioのロングリードシーケンスデータを用いたde novoゲノムアセンブリを行うためのソフトウェア。Pacific Biosciences (PacBio) 社が開発したde novoゲノムアセンブラーで、大規模で複雑なゲノムのアセンブリに適している。

参考：GitHub – PacificBiosciences/FALCON: FALCON: experimental PacBio diploid assembler — Out-of-date — Please use a binary release: https://github.com/PacificBiosciences/FALCON_unzip/wiki/Binaries ※外部サイトに飛びます

・canuとは

Canuは、ロングリードシーケンスデータを用いたde novoゲノムアセンブリを行うためのソフトウェア。PacBioやOxford Nanopore Technologiesのロングリードデータに特化したde novoアセンブラーで、大規模で複雑なゲノムのアセンブリに適している。