Primary databases represent experimental results but are not curated reviews, they are populated with experimentally derived data such as nucleotide sequence, protein sequence, or macromolecular structure
Examples of primary databases include:
SWISS-PROT and PIR for protein sequences
GenBank, EMBL, and DDBJ for Genome sequences
Centralized databases store DNA sequences and include:
National Center for Biotechnology Information
European Bioinformatics Institute
DNA Database of Japan
Secondary databases contain derived information or curated data from primary databases, for example, a secondary structure database contains entries of the PDB
Specialized databases usually cater to a particular scientific community or focus on a single organism, examples include:
Flybase
WormBase
AceDB
TAIR
Nucleotide Sequence Databases contain various types of data such as:
Genomic DNA Databases
Sequence-Tagged Sites (STSs)
Genome Survey Sequences (GSSs)
High-Throughput Genomic Sequence (HTGS)
RNA data including protein-coding genes, pseudogenes, and noncoding genes
Protein Sequence Databases include:
SWISS-PROT: a protein sequence knowledgebase with links to specialized databases
Protein Information Resource (PIR): an expertly annotated protein sequence database
Protein Data Bank (PDB): repository for 3-D structure data of large molecules
The structure of NCBI entries includes:
Locus
Definition
Accession
Version
Keywords
Source
Organism
Reference
Comment
Features
Origin
biological database adalah koleksi data yang diorganisasi sehingga datanya bisamudah diakses dan diupdate oleh orang lain
preparasi database bisa dibagi:
koleksi data dalam bentuk yang bisa mudah diakses
dibuat dapat tersedia untuk sistem multi-user
bioinformatika merupakan aplikasi atau penerapan penyimpanan informasi teknologi (terkait biologi), merapihkan, dan menganalisis banyak data biologis yang tersedia dalam bentuk sekuens dan dalam bentuk struktur protein dan asam nukleik
kenapa butuh database?
karna untuk memenuhi kebutuhan yang beragam, baik itu untuk menjawab pertanyaan biologis sampai ke pertanyaan individual scientist. untuk mengkoordinasi data dari projek sequencing, atau untuk memfasilitasi penemuan obat bagi industri farmasi
primary database: hasil eksperimental (dengan interpretasi) tapi belum dikurasi (belum di review dari kumpulan sumber data lainnya)
reference genom:
genom yang udah dikloning setelahnya baru disekuens, nanti keseluruhan genome itu diupload ke NCBI dan bakal jadi reference bagi genom lainnya. Jadi semisal kita udah dapat nukleotida dari suatu genom, kita bisa bandingin ke reference genom (genom yang menjadi referensi/acuan)
secondary database mengandung informasi seperti sekuens yang dikonservasi, sekuens yang khas/unik yang spesifik di hewan/tumbuhan tertentu (signature sequence), dan residu situs aktif dari keluarga protein yang tiba melalui penyelarasan beberapa urutan dari serangkaian protein terkait.
secondary database menghasilkan data baru yang mungkin spesifik untuk organisme atau minat tertentu, misalnya BOLD
specialized database: biasanya melayani komunitas ilmiah tertentu atau berfokus pada satu organisme misalnya Flybase, WormBase, AceDB, dan TAIR
specialized data base berisi data analisis fungsional asli. Basis data ekspresi gen seperti basis data GenBank EST dan Basis Microarray Gene Expression Database di European Bioinformatics Institute (EBI).
Protein Data Bank (PDB): merupakan salah satu database utama yang digunakan oleh biologi struktural untuk menemukan informasi tentang bentuk fisik dari molekula-molekula yang penting, termasuk enzim, virus, DNA, RNA, proteins, dan ribozyme.
pseudogene : gen-gen yang tidak fungsional, bisa akibat evolusi dan mutasi. contoh reseptor penciuman manusia yang sudah tidak sensitif seperti dulu