meta data for this page
このページの翻訳:
- ja
遺伝子データベース一覧
目次
Approved gene symbols
-
- A portal site for a gene of your interest. useful to search for gene symbols in the human genome
- 論文では,一番上にでる community approved な名前を使うと良い
- Alpha flod でタンパクの折りたたみ像まで見ることができる
- Mouse Genome Informatics (MGI)|mouse gene のポータル
- Rat Genome Database (RGD)|rat gene のポータル
UCSC
-
- The most extensive genome browser covering most annotation databases
- Showing nucleotide conservations of a large number of species
- めちゃくちゃ便利 そのまま論文のfigureにも使える
- Genes and Gene Predictions の項目はEnsembl,GENCODE,NCBI refseqがおすすめ
-
- Homology search of > 40 nucleotide sequence against reference sequences
- Tools>Blatで 塩基配列をここにいれて,類似配列を探せという命令をする
- Ncbi gene で塩基配列を持ってきてここに入力して GRCm38 入力 → 「マウスではどこ?」など
- 種を超えてマウス実験したりするときとか薬剤感受性とかそういう系で使えたり
-
- Toolsの上から4つめ
- マウスの配列をもとにヒトゲノム(hmgC38)に変換,など一気に検索する
- Conversion of coordinates between different versions of genome assemblies
ENSEMBL
-
- ESNG:XXXXXXXX というIDがgenomeに与えられている
- NCBIのヨーロッパ版のようなもの;European counterpart of NCBI
- Best to visualize splicing variants, exon/intron structures and sequence information
- 一番上に出てくるものが一番いいとは限らないので注意.特にクローンを買うときは事前によく調べておいたほうがよい.
- Wet実験を始める前にはバリアントどれ使うかよく調べる.Refseq match が何があるかも見るとよい.
- ENSEMBLのいいところは,”exons” “cDNA” “Protein” ボタン.この辺りが一番よく使う.
- Primer設計するときに SNPsをまたがず 3 prime end にするようにみたりすることができる.
- ESBL BioMart
- gene databaseを落とす場所としては最も使い勝手がよい.プログラム書く人には BioMartが必須.
- データベースで「Ensembl」「human genes GRCh38」「filter»で色々指定」からダウンロードする
- 「一気にカスタマイズしてダウンロード」も可能.人力でいろんなDBハシゴすれば同じことができるが,最もシンプルに可能なのでおすすめ.
-
- Homology search of a query sequence against reference sequences
- UCSCと同様のサービス.BLAST,BLAT選べる
- 「BLATでは UCSC,BLASTはNCBIを使う」というスタイルの人は ENSEMBLではやらなくてよい
- BLASTはBLATよりはるかに緻密でfine tuningしやすいがめちゃくちゃ時間がかかる
-
- Human and mouse gene annotations by Wellcome Trust Sanger Institute
- UCSC経由で使うのであれば直接 GENCODE にいかなくてもよい
Isoform1 | 代表的な転写産物とされるが,実際には2がdominantだったりすることもあるので注意. 1は実は肝臓では発現しないなども. |
CCDS〜〜 | 割といま終わってる「共通アノテーションコード作ろうよproject」無視して良い |
DBTSS
-
- Database of Kashiwa Encyclopedia for human genome mutations in Regulatory regions and their Omics contexts
- 東京大学の鈴木先生が作成している.この中に DBTSS (Transcriptional start site database) が含まれる
- もとは Cap sequence(遺伝子コードの開始点につくcapを用いた網羅的sequencing)のために作られた
遺伝子発現プロファイル
GTEx
-
- Extensive and organized gene expressions in 54 tissues in ~1000 healthy human subjects
- 人の遺伝子だけ.1000人の健康成人の54の組織でどのくらい遺伝子発現しているか確認する
- たとえば whole bloodで発現が十分あれば採血で評価できるということになる
- 他にも毛根,尿(中に出てきた膀胱の細胞)などサンプリングしやすいもので遺伝子拾えるかチェックする等
- ただしGTExで発現しなくても nested PCR で出ることあるので全く無意味というわけではない
- また,Exonごとにどこに発現しているかもチェックしている
- Figure綺麗なのでそのままスクショで論文に使える
Fantom 5 Zenbu Browser
-
- Extensive and accurate gene expression profiles
- RIKENのサービス.Genome browser が大変便利
- 余談だがRNA polymerase は方向を知らず間違えた方向にいくこともあるがキャンセルされる
- 逆方向に転写されることもある
遺伝子の疾患関連情報を調べる方法
- How to search for disease-related information of a gene of your interest
OMIM (NCBI)
- OMIM (Online Mendelian Inheritance in Men)
- Extensive catalog of genes associated with human diseases especially Mendelian disorders
- 有用な点は,”Gene Function” という部分.説明がシンプルでわかりやすい.
- 欠損したときの表現型も書いてある
- アスタリスクは遺伝子 #は病名
- 学会などでよくわからない遺伝子が出てきて「え?なにそれ?」というときは OMIM で gene functionを調べるとすごく良くわかりやすい
ClinVar (NCBI)
- ClinVar = Variations with clinical significance
- Extensive database of variations with clinical significance
- Pathogenic な variant はどこにあるか一覧表示してくれる
- 病原性のある single nucleotide variant のデータベースで,網羅性が高い
Human Gene Mutation Database
-
- The most extensive database of human mutations
- Clinvar に似たサービス.研究者が集めていたが,途中から有料サービスになった
- 無料でも使えるが過去3年の新しいデータは見れない
- 有料のプロ版では150万くらいととっても「お高い」
- Clinvarと HGMD を見れば,publicに発表されている pathogenic な variant はほぼ網羅できる
MedGen (NCBI)
- MedGen (Medical Genetics)
- Portal to information about conditions and phenotypes related to Medical Genetics
遺伝子レビュー
Gene Reviews (NCBI)
-
- NCBIのサービスの中の “books” の中に入っている1).
- キュレーションされたreviewになっている
- OMIM に似ているが,それぞれの領域の専門家に認証されているのがポイント
- とは言えまずは OMIM を読んで自分で review article を個別に読むのでも十分
Gene (NCBI)
-
- A service to obtain gene sequence and genomic sequence
- FASTA出力するとゲノム配列がそのまま文字配列として出てくる
- mRNAはエクソンの最後で終わる.CDSはTranslation start site から始まる.
- また単に配列を検索するのみでなく,NCBI gene で割り当てられている ID のページに行けばその遺伝子についての全情報がだいたい網羅されている.しかし情報量が多すぎて目が滑る…
RefSeq
NC:XXXXX | Complete chromosomal sequence |
NG:XXXXX | Incomplete chromosomal sequence |
NW:XXXXX | Celera’s complete genomic sequence |
NT:XXXXX | Genomic contig |
NM:XXXXX | mRNA |
XM:XXXXX | mRNA, (computed) predicted2) |
NR:XXXXX | ncRNA |
NP:XXXXX | Protein |
XP:XXXXX | Protein, (computed) predicted |
Gene format
- NCBIでは gene をそのままデータ出力可能.formatは以下から指定可能
- とりあえず.gbと.fastaでの出力さえおさえておけばよい
GenBank | .gb: classical and the most established detailed annotation of a gene |
Fasta | .fasta: a short format for sequence data |
Fastq | Fasta format with quality scores (used in next generation sequencers) |
ASN1 | 歴史的なフォーマットだがほとんど使ってる人を見たことがない |
- .gbで出力した(NCBI上で右上の send to: で出力)ものを mac vector で開くと,結構らくに画像出力できたりして便利(そうしなくても ENSEMBL でなんとかなるが)
- IGV:integrative genomics viewer はできのいい次世代シークエンサのブラウザ
EST
- Expressed Sequence Tags
- Availability of EST clones
- Mammalian Gene Collection (MGC clones) 全長が含まれるクローンをたくさん取ろうと
- Funakoshi (Horizon Discovery) http://www.openbiosystems.com/
- OriGene (long cDNAs) http://www.origene.com/
- MGCは5kbp以上のものは集めていないので予算に余裕があればcommercial だがOriGeneから買う
その他の NCBI サービス
BLAST (NCBI)
- BLAST (Basic Local Alignment Search Tool)
- A tool to search for sequence homology
- 適当に FASTA のコードを upload ないし手打ちすればOK
- なお Mammal の genome は BLAST で対応できるが,bacterial genome は homology 全くないような配列が同じ機能を持つというようなことがあるため対応できない.Virusはもっと難しい.
- BLAST検索の word size を選択することができる(highly similar sequences/More dissimilar sequences/Somewhat similar sequencesから3択もできる)
- さらに,より細かく algorithm parameters を指定した検索も可能.
- デフォルトでは max target 100,0.05 以上のもの word size 28になっている.
Blastn | Nucleotide Blast |
Blastp | Protein Blast |
Blastx | Nucleotide query - Protein database |
Tblastn | Protein query - Translated nucleotide database |
Tblastx | Nucleotide query - Translated nucleotide database |
dbSNP (NCBI)
-
- SNPのデータベース.ENSEMBL でも見ることができるが,NCBI の dbSNP が一番網羅性高い
- 以下の 2 つのタブをひたすら使う
- Frequencyのタブでどのくらいの頻度かわかる
- Clinical significance のタブで病的意義もわかる
- 1%以上の minor allele frequencing(MAF) は一般に遺伝的に病的意義ないvariant? 1万人に一人
- 0.1%以上のMAFなら 100万人に一人
dbVar (NCBI)
- dbVar : copy number variations (CNV) のデータベース
SNV | single nucleotide variant |
CNV | copy number variation |
Indel |
Genome (NCBI)
-
- Species-ベースの genome database
その他の遺伝子 DB
Genome Aggregation Database (gnomAD) | 125748 exome sequences and 15708 whole-genome sequences.dbSNPのなかに取り込まれているサービス.新しいデータはこちらに直接アクセスした方がいい |
Human Genetic Variation Database (HGVD) | The most extensive SNPs in Japanese people;日本人のSNVのデータベース |
Sequence Variant Nomenclature at Human Genome Variation Society (HGV) | Community-approved variation nomenclature (Comprehensive). 遺伝子の表現方法をまとめているサイト.権威のあるサイトではないが遺伝子表記については(▼)のほうが分かりやすい |
Atlas of Genetics and Cytogenetics in Oncology and Haematology | Community-approved variation nomenclature (Representative) |
Primer設計
-
- MacVectorやOligoNucleotideといったツールでも primer設計できるが,9割がたこういうサイトを使えば困らない.Fine tuningも十分できる.
- ただし問題が起きた時には色々かんがえる必要がある.primerの中にcommon SNPsが入ってしまっていたり
Portal sites
-
- 遺伝子のポータルサイト
- かなり網羅性が高いので,ここをデフォルトのポータルサイトにしている人もいる
- 統合ID by Database Center for Life Science (DBCLS)
- To search for associated genetic information by typing in NCBI gene ID.
その他
- 統合TV (Togo TV) byライフサイエンス統合データベースセンター [Database Center for Life Science (DBCLS)]
- EN:English http://togotv.dbcls.jp/en/