생물정보학에서의 비교란?
안녕하세요. 어쩌다 보니 이어서 생물정보학에 대한 포스팅을 하게 되는데요. 저에게 그런 건 중요하지 않습니다. 글 감이 많이 떠오르지가 않거든요. 이번 포스팅은 정보 전달보다는 제 생각을 위주로 작성해 보겠습니다.
생물정보학에서의 비교?
생명체의 다양성은 DNA의 유전정보의 다양성에 근거하여있으며 이는 유전정보의 유사성은 개별 생명체의 유사성이라고 볼 수 있습니다. 이러한 유전정보의 차이는 돌연변이, 삽입, 결실 등에 의한 서열정보의 변화라고 볼 수 있는데, 이러한 서열변이가 흔적이라 생각하여 단백질의 특성에 대한 이해를 높임으로써 더 많은 생명현상에 대한 정보를 얻을 수 있습니다. 따라서 서열 비교를 통해서 DNA에 저장된 유전정보를 앎으로써 단백질의 단백질의 구조 결정 등을 알아내어 생명체에서 어떠한 부품 역할을 하는지 알아낼 수 있습니다.
서열 비교를 통한 서열의 유사성은 진화과정을 반영하여 유사성으로 종간의 유연관계를 알 수 있게 해 줍니다. 따라서 유전자의 기능 연구에 서열 비교는 필수적이며 유전자 내에서 중요한 부분일수록 염기서열 변이가 많이 없어 보존이 잘 되어있습니다. 분석을 통하여 임의의 염기서열을 얻었다면 해당 시퀀스가 어떤 생물에서, 어떤 유전자와 비슷하고, 어떤 기능을 수행하는지에 대하여 알아보기 위해서는 관심 있는 서열과 DNA/아미노산의 서열 데이터베이스와의 비교가 필요하며 이러한 기능의 유사성은 다른 종 간에도 일어날 수 있습니다.(Homologs)
Sequence alignment는 서열을 정렬하는 방법으로, DNA, RNA, Protein 서열의 유사도를 알아보고 더 나아가 계통 (유연관계) 분석을 위해 alignment를 진행합니다. 일대 다 비교는 정보가 완전하지 않은 상황에서 시행착오를 거쳐서 지식을 알게 되는 과정인 Heuristic 알고리즘을 사용하는데, 이는 막대한 데이터 베이스를 가진 염기/아미노산 서열을 일일이 비교해야 하기 때문입니다. 대표적인 Tool로써 BLAST(Basic Local Alignment Search Tool)가 있습니다. 이는 NCBI의 유사성 검색 프로그램으로써, 지역적 유사성을 찾아서 서열 비교를 수행하며 기대 도수(E value)를 관찰합니다.
E value는 Heuristic 알고리즘에서 비슷하지도 않은 서열이 우연히 찾아질 개수이며 0에 가까워질수록 예측된 서열이 우연이 아닙니다.
Alignment의 알고리즘은 크게 Local alignment와 Global alignment 방법이 있습니다.
1) Global alignment : 전체 서열에서 가장 최적화된 부분을 정렬한다. 비교하고자 하는 서열의 길이가 비슷하고 유사성이 높은 경우에 Global alignment를 사용합니다.
2) Local alignment : Local alignment는 전체 서열에서 유사성이 높은 부분보다는 짧지만 더 정확한 단편들을 찾아 정렬한다. 비교하고자 하는 서열의 길이가 서로 다르고, 서열의 일부분에서 유사성이 나타나는 서열 간의 비교에 적합합니다.
이러한 서열 비교를 위해서는 최대로 유사하게 맞추는 작업이 필요하다. 여기서 유사하게의 객관적인 기준을 Tool 또는 알고리즘이라고 하며 이러한 기준을 위하여 유사성의 정보를 정량화하여 비교해야 하고 이를 위해서는 점수가 필요합니다.
예를 들어 치환 또는 삽입 등에 대하여 각기 다른 페널티를 주어 비교하게 되는데, 이러한 기준의 변수를 logic이라고 합니다. 그러나 치환 시에는 모든 서열 변화가 같지 않다는 것을 고려해야 하는데, 예를 들면 DNA 염기서열 내의 퓨린 간, 피리미딘 간의 변화인 transitions보다 퓨린의 피리미딘으로의 변화인 transversions는 더 큰 변화라고 볼 수 있으므로 logic에서 transversion의 페널티를 더 크게 할 수 있습니다. 또한 서열 공백의 유무에 따라 optimal alignment를 찾기 위하여 shifting 하기도 합니다.
이때 insertion과 deletion이 동시에 발생하는 경우를 Indel이라 하며 이는 아미노산 서열 내에서도 마찬가지로 작용합니다. sequence alignment는 pairwise sequence alignment와 Multiple sequence alignment로 나누어집니다. 그중 Multiple sequence alignment는 다양한 생명체에서 같은 기능을 하는 단백질 서열이나 핵산 서열이 여러 개 있을 때 그들을 한꺼번에 묶어서 서로 정렬하는 방법입니다. 이는 단백질의 구조를 예측하거나 계통을 분류함으로써 기능을 예측하고, sequence의 자주 반복되며 특정한 서열의 중요한 기능을 구현하는 구역인 motif를 파악하는 데에 사용합니다.
'생명과학' 카테고리의 다른 글
재조합 DNA와 유전공학: 유전자의 분자적 재단에 관하여 (0) | 2020.09.05 |
---|---|
동물 생태계의 세력권과 행동권이 어떻게 작용하고, 동물들에게 영향을 미칠까? (0) | 2020.08.29 |
생물정보학, omics(+시스템생물학), epigenetics에 과한여 (0) | 2020.08.26 |
IncRNA(Long Non-Coding RNA)란 무엇일까? (0) | 2020.08.26 |
생물정보분석 SNP chip을 사용하는 이유? (0) | 2020.08.26 |
댓글