このページの翻訳:
  • ja

遺伝子データベース一覧

Approved gene symbols

UCSC

    • The most extensive genome browser covering most annotation databases
    • Showing nucleotide conservations of a large number of species
    • めちゃくちゃ便利 そのまま論文のfigureにも使える
      • Genes and Gene Predictions の項目はEnsembl,GENCODE,NCBI refseqがおすすめ
    • Homology search of > 40 nucleotide sequence against reference sequences
    • Tools>Blatで 塩基配列をここにいれて,類似配列を探せという命令をする
      • Ncbi gene で塩基配列を持ってきてここに入力して GRCm38 入力 → 「マウスではどこ?」など
      • 種を超えてマウス実験したりするときとか薬剤感受性とかそういう系で使えたり
    • Toolsの上から4つめ
    • マウスの配列をもとにヒトゲノム(hmgC38)に変換,など一気に検索する
    • Conversion of coordinates between different versions of genome assemblies

ENSEMBL

    • ESNG:XXXXXXXX というIDがgenomeに与えられている
    • NCBIのヨーロッパ版のようなもの;European counterpart of NCBI
    • Best to visualize splicing variants, exon/intron structures and sequence information
      • 一番上に出てくるものが一番いいとは限らないので注意.特にクローンを買うときは事前によく調べておいたほうがよい.
        • Wet実験を始める前にはバリアントどれ使うかよく調べる.Refseq match が何があるかも見るとよい.
    • ENSEMBLのいいところは,”exons” “cDNA” “Protein” ボタン.この辺りが一番よく使う.
    • Primer設計するときに SNPsをまたがず 3 prime end にするようにみたりすることができる.
  • ESBL BioMart
    • gene databaseを落とす場所としては最も使い勝手がよい.プログラム書く人には BioMartが必須.
    • データベースで「Ensembl」「human genes GRCh38」「filter»で色々指定」からダウンロードする
    • 「一気にカスタマイズしてダウンロード」も可能.人力でいろんなDBハシゴすれば同じことができるが,最もシンプルに可能なのでおすすめ.
    • Homology search of a query sequence against reference sequences
    • UCSCと同様のサービス.BLAST,BLAT選べる
    • 「BLATでは UCSC,BLASTはNCBIを使う」というスタイルの人は ENSEMBLではやらなくてよい
    • BLASTはBLATよりはるかに緻密でfine tuningしやすいがめちゃくちゃ時間がかかる
    • Human and mouse gene annotations by Wellcome Trust Sanger Institute
    • UCSC経由で使うのであれば直接 GENCODE にいかなくてもよい
Isoform1代表的な転写産物とされるが,実際には2がdominantだったりすることもあるので注意.
1は実は肝臓では発現しないなども.
CCDS〜〜割といま終わってる「共通アノテーションコード作ろうよproject」無視して良い

DBTSS

    • Database of Kashiwa Encyclopedia for human genome mutations in Regulatory regions and their Omics contexts
    • 東京大学の鈴木先生が作成している.この中に DBTSS (Transcriptional start site database) が含まれる
      • もとは Cap sequence(遺伝子コードの開始点につくcapを用いた網羅的sequencing)のために作られた

遺伝子発現プロファイル

GTEx

    • Extensive and organized gene expressions in 54 tissues in ~1000 healthy human subjects
    • 人の遺伝子だけ.1000人の健康成人の54の組織でどのくらい遺伝子発現しているか確認する
    • たとえば whole bloodで発現が十分あれば採血で評価できるということになる
    • 他にも毛根,尿(中に出てきた膀胱の細胞)などサンプリングしやすいもので遺伝子拾えるかチェックする等
      • ただしGTExで発現しなくても nested PCR で出ることあるので全く無意味というわけではない
    • また,Exonごとにどこに発現しているかもチェックしている
      • Figure綺麗なのでそのままスクショで論文に使える

Fantom 5 Zenbu Browser

    • Extensive and accurate gene expression profiles
    • RIKENのサービス.Genome browser が大変便利
    • 余談だがRNA polymerase は方向を知らず間違えた方向にいくこともあるがキャンセルされる
      • 逆方向に転写されることもある

遺伝子の疾患関連情報を調べる方法

  • How to search for disease-related information of a gene of your interest

OMIM (NCBI)

  • OMIM (Online Mendelian Inheritance in Men)
    • Extensive catalog of genes associated with human diseases especially Mendelian disorders
    • 有用な点は,”Gene Function” という部分.説明がシンプルでわかりやすい.
    • 欠損したときの表現型も書いてある
    • アスタリスクは遺伝子 #は病名
    • 学会などでよくわからない遺伝子が出てきて「え?なにそれ?」というときは OMIM で gene functionを調べるとすごく良くわかりやすい

ClinVar (NCBI)

  • ClinVar = Variations with clinical significance
    • Extensive database of variations with clinical significance
    • Pathogenic な variant はどこにあるか一覧表示してくれる
    • 病原性のある single nucleotide variant のデータベースで,網羅性が高い

Human Gene Mutation Database

    • The most extensive database of human mutations
    • Clinvar に似たサービス.研究者が集めていたが,途中から有料サービスになった
    • 無料でも使えるが過去3年の新しいデータは見れない
      • 有料のプロ版では150万くらいととっても「お高い」
    • Clinvarと HGMD を見れば,publicに発表されている pathogenic な variant はほぼ網羅できる

MedGen (NCBI)

  • MedGen (Medical Genetics)
    • Portal to information about conditions and phenotypes related to Medical Genetics

遺伝子レビュー

Gene Reviews (NCBI)

    • NCBIのサービスの中の “books” の中に入っている1)
    • キュレーションされたreviewになっている
    • OMIM に似ているが,それぞれの領域の専門家に認証されているのがポイント
      • とは言えまずは OMIM を読んで自分で review article を個別に読むのでも十分

Gene (NCBI)

  • NCBI GeneRefSeq
    • A service to obtain gene sequence and genomic sequence
    • FASTA出力するとゲノム配列がそのまま文字配列として出てくる
      • mRNAはエクソンの最後で終わる.CDSはTranslation start site から始まる.
  • また単に配列を検索するのみでなく,NCBI gene で割り当てられている ID のページに行けばその遺伝子についての全情報がだいたい網羅されている.しかし情報量が多すぎて目が滑る…

RefSeq

NC:XXXXX Complete chromosomal sequence
NG:XXXXX Incomplete chromosomal sequence
NW:XXXXX Celera’s complete genomic sequence
NT:XXXXX Genomic contig
NM:XXXXX mRNA
XM:XXXXX mRNA, (computed) predicted2)
NR:XXXXX ncRNA
NP:XXXXX Protein
XP:XXXXX Protein, (computed) predicted

Gene format

  • NCBIでは gene をそのままデータ出力可能.formatは以下から指定可能
    • とりあえず.gbと.fastaでの出力さえおさえておけばよい
GenBank .gb: classical and the most established detailed annotation of a gene
Fasta .fasta: a short format for sequence data
Fastq Fasta format with quality scores (used in next generation sequencers)
ASN1 歴史的なフォーマットだがほとんど使ってる人を見たことがない
  • .gbで出力した(NCBI上で右上の send to: で出力)ものを mac vector で開くと,結構らくに画像出力できたりして便利(そうしなくても ENSEMBL でなんとかなるが)
  • IGV:integrative genomics viewer はできのいい次世代シークエンサのブラウザ

EST

  • Expressed Sequence Tags
  • Availability of EST clones
    • Mammalian Gene Collection (MGC clones) 全長が含まれるクローンをたくさん取ろうと
    • OriGene (long cDNAs) http://www.origene.com/
      • MGCは5kbp以上のものは集めていないので予算に余裕があればcommercial だがOriGeneから買う

その他の NCBI サービス

BLAST (NCBI)

  • BLAST (Basic Local Alignment Search Tool)
    • A tool to search for sequence homology
  • 適当に FASTA のコードを upload ないし手打ちすればOK
    • なお Mammal の genome は BLAST で対応できるが,bacterial genome は homology 全くないような配列が同じ機能を持つというようなことがあるため対応できない.Virusはもっと難しい.
    • BLAST検索の word size を選択することができる(highly similar sequences/More dissimilar sequences/Somewhat similar sequencesから3択もできる)
    • さらに,より細かく algorithm parameters を指定した検索も可能.
      • デフォルトでは max target 100,0.05 以上のもの word size 28になっている.
BlastnNucleotide Blast
BlastpProtein Blast
BlastxNucleotide query - Protein database
TblastnProtein query - Translated nucleotide database
TblastxNucleotide query - Translated nucleotide database

dbSNP (NCBI)

    • SNPのデータベース.ENSEMBL でも見ることができるが,NCBI の dbSNP が一番網羅性高い
    • 以下の 2 つのタブをひたすら使う
      • Frequencyのタブでどのくらいの頻度かわかる
      • Clinical significance のタブで病的意義もわかる
    • 1%以上の minor allele frequencing(MAF) は一般に遺伝的に病的意義ないvariant? 1万人に一人
    • 0.1%以上のMAFなら 100万人に一人

dbVar (NCBI)

  • dbVar : copy number variations (CNV) のデータベース
SNVsingle nucleotide variant
CNVcopy number variation
Indel

Genome (NCBI)

    • Species-ベースの genome database

その他の遺伝子 DB

Genome Aggregation Database (gnomAD)125748 exome sequences and 15708 whole-genome sequences.dbSNPのなかに取り込まれているサービス.新しいデータはこちらに直接アクセスした方がいい
Human Genetic Variation Database (HGVD)The most extensive SNPs in Japanese people;日本人のSNVのデータベース
Sequence Variant Nomenclature at Human Genome Variation Society (HGV)Community-approved variation nomenclature (Comprehensive). 遺伝子の表現方法をまとめているサイト.権威のあるサイトではないが遺伝子表記については(▼)のほうが分かりやすい
Atlas of Genetics and Cytogenetics in Oncology and HaematologyCommunity-approved variation nomenclature (Representative)

Primer設計

    • MacVectorやOligoNucleotideといったツールでも primer設計できるが,9割がたこういうサイトを使えば困らない.Fine tuningも十分できる.
    • ただし問題が起きた時には色々かんがえる必要がある.primerの中にcommon SNPsが入ってしまっていたり

Portal sites

    • 遺伝子のポータルサイト
    • かなり網羅性が高いので,ここをデフォルトのポータルサイトにしている人もいる
  • 統合ID by Database Center for Life Science (DBCLS)
    • To search for associated genetic information by typing in NCBI gene ID.

その他

1)
英語の教科書をフリーで読むことができるのが NCBI books.Molecular biology of the cells も入っている(やや古いバージョンだが基本的なところは変わらない)
2)
予測されたものであり wet で確かめられたものではない.NM_で始まるものを見ればOK