[의생명정보알고리즘] PA3 과제

2025. 6. 4. 14:33·생명정보학/대학 강의


✅ PA3.py 파일 생성 및 수정 과정 요약

  1. 교수님 코드 복사 (두 가지 방법 중 하나 선택)

방법 1: PA2.py 파일 기반으로 복사→ 교수님이 제공한 PA2.py 파일을 현재 작업 디렉토리에 PA3.py라는 이름으로 복사

cp /mss/home_student/ABD2025/PA2.py PA3.py

 

방법 2: PA3.tmp.py 파일 기반으로 복사→ 교수님이 제공한 PA3.tmp.py 파일을 PA3.py라는 이름으로 복사

cp /mss/home_student/ABD2025/PA3.tmp.py PA3.py
  1. PA3.py 파일 수정 시작
    • 복사된 PA3.py 파일을 열고 필요한 내용을 수정하면서 쌍서열 정렬(또는 Affine Gap Penalty 등)에 맞게 구현을 시작하면 됨.

교수님의 PA3.tmp.py 코드

#!/usr/bin/env python3

import sys
import random

match = int(sys.argv[1])
mismatch = int(sys.argv[2])
# gap = int(sys.argv[3])
# Variables for gap open and extension scores

# Change the index of the following two lines
seq1 = sys.argv[4]
seq2 = sys.argv[5]

#print(match, mismatch, gap, seq1, seq2)

# Creating DP matrix
# Change F to M
# Need to add two more matrices, IX and IY
M = {}
IX = ...
IY = ...
for i in range(len(seq1) + 1):
    M[i] = {}
    IX...
    IY...

# Initialization for M, IX, IY
M[0][0] = [0, '']
IX...
IY...

# Column initialization for M, IX, IY
for i in range(1, len(seq1) + 1):
    M[i][0] = [float('-inf'), '']
    IX...
    IY...
    IY...

# Row initialization for M, IX, IY
for j in range(1, len(seq2) + 1):
    M[0][j] = [float('-inf'), '']
    IX...
    IX...
    IY...

#print(F)
for i in range(1, len(seq1) + 1):
    nt1 = seq1[i-1]
    for j in range(1, len(seq2) + 1):
        nt2 = seq2[j-1]

        ## For M
        # Code for finding the max score for M
        # Direction for the max score

        M[i,j] = [..., ...]

        ## For IX
        # Code for finding the max score for IX
        # Direction for the max score

        IX[i,j] = [..., ...]

        ## For IY
        # Code for finding the max score for IY

        # Direction for the max score

        IY[i,j] = [..., ...]

# Finding the max score from M, IX, IY
maxscore = max(....)
print("Optimal alignment score =", maxscore)

# Track back
aseq1 = ''
aseq2 = ''

i = len(seq1)   # m
j = len(seq2)   # n

# Code for finding the starting matrix among M, IX, IY
# Need to perform random selection
cdirs = ''
if maxscore == M[...][...][0]:
    cdirs += 'm'
if maxscore == IX[...][...][0]:
    cdirs += 'x'
if maxscore == IY[...][...][0]:
    cdirs += 'y'

cmat = random.choice(cdirs)

while i != 0 or j != 0:
    # Need to find the current location (M, IX, or IY)
    # Need to get the directions from the current matrix

    dirs = ...
    next_dir = random.choice(dirs) # next_dir = 'u' or 'l' or 'd'

    # Code for handling directions: M(d, IX, IY), IX(M, u), IY(M, l)

print(aseq1)
print(aseq2)

 

🧬 전체 구조 요약

Step 1️⃣ 사용자 입력 받기
Step 2️⃣ DP 테이블 초기화 (M, IX, IY)
Step 3️⃣ DP 테이블 채우기 (각 위치의 최적 점수 계산)
Step 4️⃣ 최종 점수와 traceback 시작점 선택 (랜덤)
Step 5️⃣ traceback 실행 (정렬 결과 중 무작위 하나만 출력)

🔍 Step-by-Step 설명


✅ Step 1️⃣: 입력 받기

match = int(sys.argv[1])      # 일치 시 점수
mismatch = int(sys.argv[2])   # 불일치 시 점수
gap_open = int(sys.argv[3])   # 갭 시작 벌점
gap_extend = int(sys.argv[4]) # 갭 연장 벌점
seq1 = sys.argv[5]            # 첫 번째 서열
seq2 = sys.argv[6]            # 두 번째 서열

📝 사용자로부터 match/mismatch/gap 점수와 두 개의 서열을 입력 받는다.


✅ Step 2️⃣: DP 테이블 초기화

M = {}   # 매치 or 미스매치 상태 점수
IX = {}  # seq1에서 갭 생긴 상태
IY = {}  # seq2에서 갭 생긴 상태

🔸 M, IX, IY 각각은 DP 테이블.
🔸 각 칸은 [점수, 이전 방향 리스트] 형태로 저장돼 ([score, ['m', 'x', 'y']]).

그리고 초기값은 아래처럼 설정:

M[0][0] = [0, []]
IX[0][0] = [gap_open, ['m']]
IY[0][0] = [gap_open, ['m']]

🧠 Affine gap이기 때문에 갭이 시작되면 gap_open, 이어질수록 gap_extend를 적용해!


✅ Step 3️⃣: DP 테이블 채우기

for i in range(1, len(seq1)+1):
    for j in range(1, len(seq2)+1):

각 위치 (i, j)에 대해:

  • M[i][j]: 현재 문자가 매치/미스매치 될 경우
  • IX[i][j]: seq1[i]에서 갭이 생길 경우 (위에서 내려옴)
  • IY[i][j]: seq2[j]에서 갭이 생길 경우 (왼쪽에서 옴)
M[i][j] = max([
    (M[i-1][j-1][0] + s, 'm'),
    (IX[i-1][j-1][0] + s, 'x'),
    (IY[i-1][j-1][0] + s, 'y')
])

💡 이전 상태들로부터 가능한 점수를 모두 고려하고, 가장 큰 값을 저장해.

👉 IX, IY도 같은 방식으로 이전 상태를 참고하며 점수를 채워줘.


✅ Step 4️⃣: 최종 점수 & 시작 위치 선택 (랜덤)

i, j = len(seq1), len(seq2)
maxscore = max(M[i][j][0], IX[i][j][0], IY[i][j][0])

📌 마지막 위치에서 3개의 상태 중 최적 점수를 찾고,
그 중 랜덤으로 하나의 시작점(matrix) 을 고른다.

starts = [('m', i, j), ...]
cmat, i, j = random.choice(starts)

✅ Step 5️⃣: Traceback (정렬 경로 무작위로 1개만)

while i > 0 or j > 0:

각 상태(M, IX, IY)에서 이전 상태들 중 하나를 랜덤으로 선택하면서
서열을 거꾸로 따라가며 하나의 정렬을 만든다.

  • M: 대각선으로 이동하며 문자 두 개 정렬
  • IX: 위로 이동하며 seq1 문자와 - 정렬
  • IY: 왼쪽으로 이동하며 -와 seq2 문자 정렬

마지막에 거꾸로 만든 문자열을 출력!

print(aseq1)
print(aseq2)

✅ 출력 예시

$ ./PA3.py 2 1 -2 -1 ATCTG TGCA
Optimal alignment score = 3
ATCTG
-TGCA

(또 실행하면 정렬 결과가 다를 수 있음)


🧬 최종 코드

#!/usr/bin/env python3

import sys
import random

# 1️⃣ 사용자 입력값 받기 (명령줄 인자)
match = int(sys.argv[1])         # 일치할 때 점수
mismatch = int(sys.argv[2])      # 불일치할 때 감점
gap_open = int(sys.argv[3])      # 갭 시작 시 감점
gap_extend = int(sys.argv[4])    # 갭 이어질 때 감점
seq1 = sys.argv[5]               # 첫 번째 염기서열
seq2 = sys.argv[6]               # 두 번째 염기서열

# 2️⃣ DP 테이블(M, IX, IY) 초기화
# M: 매치/미스매치 상태
# IX: seq1에서 gap 생긴 상태
# IY: seq2에서 gap 생긴 상태
M, IX, IY = {}, {}, {}

for i in range(len(seq1)+1):
    M[i], IX[i], IY[i] = {}, {}, {}
    for j in range(len(seq2)+1):
        # 각 칸은 [점수, 이전 방향 리스트] 형태로 저장됨
        M[i][j] = [-float('inf'), []]
        IX[i][j] = [-float('inf'), []]
        IY[i][j] = [-float('inf'), []]

# 시작 위치 (0,0) 초기화
M[0][0] = [0, []]
IX[0][0] = [gap_open, ['m']]   # M에서 시작해 IX로 간 경우
IY[0][0] = [gap_open, ['m']]   # M에서 시작해 IY로 간 경우

# 3️⃣ 첫 번째 열 초기화 (seq2가 비었을 때)
for i in range(1, len(seq1)+1):
    IX[i][0] = [gap_open + (i-1)*gap_extend, ['x']]
    IY[i][0] = [-float('inf'), []]  # 왼쪽으로 못 옴

# 첫 번째 행 초기화 (seq1이 비었을 때)
for j in range(1, len(seq2)+1):
    IY[0][j] = [gap_open + (j-1)*gap_extend, ['y']]
    IX[0][j] = [-float('inf'), []]  # 위로 못 옴

# 4️⃣ DP 테이블 채우기 (각 칸마다 최적 점수 계산)
for i in range(1, len(seq1)+1):
    nt1 = seq1[i-1]  # 현재 seq1 문자
    for j in range(1, len(seq2)+1):
        nt2 = seq2[j-1]  # 현재 seq2 문자
        s = match if nt1 == nt2 else mismatch

        # M[i][j]: 대각선에서 매치/미스매치 점수 계산
        opts = [
            (M[i-1][j-1][0] + s, 'm'),
            (IX[i-1][j-1][0] + s, 'x'),
            (IY[i-1][j-1][0] + s, 'y')
        ]
        best = max(x[0] for x in opts)
        M[i][j] = [best, [d for sc, d in opts if sc == best]]

        # IX[i][j]: 위쪽에서 gap 열기/연장
        opts = [
            (M[i-1][j][0] + gap_open, 'm'),
            (IX[i-1][j][0] + gap_extend, 'x')
        ]
        best = max(x[0] for x in opts)
        IX[i][j] = [best, [d for sc, d in opts if sc == best]]

        # IY[i][j]: 왼쪽에서 gap 열기/연장
        opts = [
            (M[i][j-1][0] + gap_open, 'm'),
            (IY[i][j-1][0] + gap_extend, 'y')
        ]
        best = max(x[0] for x in opts)
        IY[i][j] = [best, [d for sc, d in opts if sc == best]]

# 5️⃣ 마지막 칸에서 최적 점수 및 시작 matrix 선택
i, j = len(seq1), len(seq2)
maxscore = max(M[i][j][0], IX[i][j][0], IY[i][j][0])

# 최종 점수 출력
print("Optimal alignment score =", maxscore)

# 최적 점수인 matrix 후보들 중 하나를 무작위로 선택
starts = []
if M[i][j][0] == maxscore:
    starts.append(('m', i, j))
if IX[i][j][0] == maxscore:
    starts.append(('x', i, j))
if IY[i][j][0] == maxscore:
    starts.append(('y', i, j))

cmat, i, j = random.choice(starts)  # (matrix, i, j)

# 6️⃣ Traceback: 하나의 경로만 무작위로 따라가며 정렬 복원
aseq1 = ''
aseq2 = ''

while i > 0 or j > 0:
    if cmat == 'm':
        prev_dirs = M[i][j][1]
        cmat = random.choice(prev_dirs)
        i -= 1
        j -= 1
        aseq1 = seq1[i] + aseq1
        aseq2 = seq2[j] + aseq2
    elif cmat == 'x':
        prev_dirs = IX[i][j][1]
        cmat = random.choice(prev_dirs)
        i -= 1
        aseq1 = seq1[i] + aseq1
        aseq2 = '-' + aseq2
    elif cmat == 'y':
        prev_dirs = IY[i][j][1]
        cmat = random.choice(prev_dirs)
        j -= 1
        aseq1 = '-' + aseq1
        aseq2 = seq2[j] + aseq2

# 7️⃣ 결과 출력
print(aseq1)
print(aseq2)

🎯 예시 실행

$ ./PA3.py 2 1 -2 -1 ATCTG TGCA
Optimal alignment score = 3
ATCTG
-TGCA

🧠 핵심 요약

  • Affine Gap: 갭을 "시작할 때"와 "계속될 때" 점수를 다르게 줌
  • M / IX / IY: 세 가지 상태별 점수를 따로 관리
  • Traceback: 여러 최적 경로 중 하나를 무작위로 따라가 정렬 생성
  • 정렬 1개만 출력: 성능, 간결성 모두 확보

=> 이렇게 3가지 나오면 과제 끝!

저작자표시 (새창열림)

'생명정보학 > 대학 강의' 카테고리의 다른 글

[의생명정보알고리즘] 과제 PA2 실습  (0) 2025.05.08
의생명정보알고리즘 예상 문제 정리  (0) 2025.04.24
의생명정보알고리즘 중간고사 정리  (0) 2025.04.14
[의생명정보알고리즘] Pairwise Alignment 점수 계산 프로그램 실습  (0) 2025.04.03
의생명정보알고리즘 대학 강의 정리  (0) 2025.03.20
'생명정보학/대학 강의' 카테고리의 다른 글
  • [의생명정보알고리즘] 과제 PA2 실습
  • 의생명정보알고리즘 예상 문제 정리
  • 의생명정보알고리즘 중간고사 정리
  • [의생명정보알고리즘] Pairwise Alignment 점수 계산 프로그램 실습
smile blog
smile blog
건국대 첨단바이오공학부 & 컴퓨터공학부 BT & IT 기술로 희망을 꿈 꿉니당
  • smile blog
    스마일 블로그
    smile blog
  • 전체
    오늘
    어제
    • 분류 전체보기 (840) N
      • 일상 생각들 (4)
        • 일상 (4)
      • 학과에 대해 (4)
        • 첨단바이오공학부 (4)
        • 컴퓨터공학부 (0)
      • -------- 프로젝트 -------- (0)
      • [DS] 토이 프로젝트 (1)
      • [Web, Game, XR] 토이 프로젝트 (11)
      • 경진대회 (1)
      • -------- 진로 -------- (0)
      • 생물정보학자 (19)
        • 데이터 과학이란? (0)
        • 되는 방법 (9)
        • 책 추천 (2)
        • 인강 (1)
        • 대학 (2)
        • 회사 (1)
        • 학원 (2)
        • 학회 (2)
      • 디지털 헬스케어 (72)
        • 방법 (8)
        • 생각들 (10)
        • 공부법 (4)
        • 책 추천 (2)
        • 학원 (2)
        • 참고 (2)
        • 대학 (3)
        • 회사 (3)
        • 인강 (2)
        • 게임 엔진들 (1)
        • 게임 프로그래머 개론 (2)
        • 게임 프로그래머 취업 전략 가이드 (7)
        • 취업 서류 (1)
        • 애정하는 게임들 (4)
        • XR 테크니컬 아티스트 (9)
        • 영화, 애니메이션 테크니컬 디렉터 (12)
      • 유전상담사 (0)
      • -------- 기초 학문 -------- (0)
      • 생명과학 이야기 (2)
        • 대학 강의 (2)
      • 화학 이야기 (0)
      • 컴퓨터과학 이야기 (0)
      • 통계학 이야기 (0)
      • 수학 이야기 (1)
        • 공학 수학 (1)
      • 영어 이야기 (1)
      • 심리학 이야기 (7)
        • 현대인과 정신건강 (7)
      • -------- 컴퓨터 언어 -------- (0)
      • Python (3)
        • 나도코딩의 파이썬 입문 (1)
        • 파이썬 관련 정보 (1)
      • SQL (0)
      • C 언어 (32)
        • 혼자 공부하는 C언어 요약 (1)
        • [책 정리] 혼자 공부하는 C언어 (31)
      • C++ (33)
        • 명품 C++ 프로그래밍 요약 (1)
        • [책 정리] 명품 C++ 프로그래밍 (27)
        • C++ STL (0)
        • 뇌를 자극하는 C++ STL (5)
      • -------- 생명과학 -------- (0)
      • 생화학 (8)
        • 대학 강의 (8)
      • 분자세포생물학 (6)
        • 대학 강의 (6)
      • 유전자치료공학 (4)
        • 대학 강의 (4)
      • 생명정보학 (7)
        • 대학 강의 (7)
      • 약리학 (2)
        • 대학 강의 (2)
      • -------- 컴퓨터과학 -------- (0)
      • 자료구조와 알고리즘 (8)
        • 자료구조와 알고리즘의 정의 (3)
        • [책 정리] C언어로 쉽게 풀어쓴 자료구조 요약 (1)
        • [인강] 자료구조와 알고리즘 (2)
        • 코딩 테스트 대비하기! (1)
      • 컴퓨터 회로 (0)
      • 컴퓨터 구조 (43)
        • 컴퓨터 구조와 운영체제 요약 (1)
        • ---------------------------------------- (0)
        • [전공 책 정리] 컴퓨터 구조 및 설계 (1)
        • Ch1. 컴퓨터 추상화 및 관련 기술 (8)
        • Ch2. 명령어 : 컴퓨터 언어 (11)
        • Ch3. 컴퓨터 연산 (8)
        • Ch4. 프로세서 (11)
        • Ch5. 메모리 계층구조 (3)
        • Ch6. 병렬 프로세서 : 클라이언트에서 클라우드까지 (0)
      • 시스템 프로그래밍 (15)
        • [책 정리] 시스템 프로그래밍 유닉스 & 리눅스 (0)
        • [인강] 리눅스 시스템 프로그래밍 (2)
        • 리눅스에서 코딩이란? (8)
        • 대학교 강의 정리 (5)
      • 운영체제 (0)
      • 컴퓨터 네트워크 (37)
        • 모두의 네트워크 요약 (1)
        • [책 정리] 모두의 네트워크 (10)
        • ---------------------------------------- (0)
        • [전공 책 정리] 컴퓨터 네트워킹 하향식 접근 8판 (1)
        • Ch1. 컴퓨터 네트워크와 인터넷 (7)
        • Ch2. 애플리케이션 계층 (7)
        • Ch3. 트랜스포트 계층 (8)
        • Ch4. 네트워크 계층 : 데이터 평면 (3)
        • Ch5. 네트워크 계층 : 제어 평면 (0)
        • Ch6. 링크 계층과 근거리 네트워크 (0)
        • Ch7. 무선 및 이동 네트워크 (0)
        • Ch8. 컴퓨터 네트워크 보안 (0)
      • 데이터베이스 (1)
      • -------- 데이터과학 -------- (0)
      • 데이터 사이언스 (8)
        • 인강 (8)
      • 데이터 분석 (2)
        • 인강 (2)
      • 머신러닝 (2)
        • 대학 수업 (2)
      • 인공지능 (11)
        • 대학교 강의 정리 (10)
        • 인공지능 관련 정보 (1)
      • -------- +a -------- (0)
      • Visual Studio Community (7)
        • 설치법 (1)
        • 단축키 (1)
        • 오류 (5)
      • Visual Studio Code (0)
      • 노션 (1)
      • 깃허브 (7)
        • 깃허브 사용법 (5)
        • 유니티, 언리얼 & 깃허브 (1)
        • 깃허브 주의사항 (1)
      • 챗GPT 활용법 (0)
      • 기타 feat. 프로그래밍 (7)
        • 프로그래머로 살아남기 (5)
        • 코딩 vs 프로그래밍 (1)
        • 애플 비전 프로 (1)
      • 메타버스 (5)
      • -------- 예술 -------- (0)
      • 음악 (1)
      • 미술 (0)
      • -------- XR -------- (0)
      • 유니티 이야기 (23)
        • 레트로의 유니티 게임 프로그래밍 에센스 요약 (4)
        • 유니티 관련 정보 (1)
        • 유니티 디버깅 (13)
        • 유니티 인강 (3)
        • 대학교 게임 프로그래밍 강의 (2)
      • 언리얼 이야기 (0)
        • 인생 언리얼 교과서 요약 (0)
      • 컴퓨터 그래픽스 (6)
        • OpenGL (6)
      • 가상현실 & 증강현실 (4)
        • 유니티 vr (4)
      • HCI 와 UI UX (7)
        • [책 정리] HCI 개론 (6)
      • -------- Design -------- (0)
      • 캐릭터 (1)
        • 모델링 (0)
        • 리깅 (1)
      • 포토샵 (3)
      • 3ds Max (7)
      • Maya (9)
        • 블로그 (1)
        • 인강 (6)
        • 대학교 (2)
      • Blender (14)
        • 책 (1)
        • 인강 (7)
        • 기타 (3)
        • 대학교 (3)
      • 아트 작업물들 (2)
      • 에셋 사이트 (1)
      • -------- 건강관리 -------- (0)
      • 건강관리 ft. 정현 (12)
        • 목 디스크 (2)
        • 눈 관리 (2)
        • 일상생활 습관 (6)
        • 일상생활 꿀팁 (2)
        • 사무직 꿀팁 (0)
      • 헬스의 정석 ft. 정현 (28)
        • 헬스와 건강 (8)
        • 헬스 구체화 정보 (6)
        • 헬스 유튜버 (1)
        • 헬스 서적 (1)
        • 도전 바디프로필! (11)
        • 헬스장 패션 (1)
      • -------- etc -------- (0)
      • 진로 관련 잡다한 글들 (34)
        • 진도율 (9)
        • 진로 관련 글들 (15)
        • 학교 강의 관련 글들 (10)
      • 인생 꿀 Tip (23)
        • 컴퓨터 초기 설정 (9)
        • 원격 데스크톱 (1)
        • 노트북 발열 (1)
        • 전자기기 (2)
        • 중고기기 팔기 (1)
        • 아이패드 필기 어플 (1)
        • 에어팟 (1)
        • 커피 (1)
        • 맥북 (1)
        • lg 그램 (1)
        • 검색엔진에서 내 티스토리 검색 (1)
        • hELLO 다크 모드 없애기 (1)
        • 인터넷 연결 문제 (1)
        • 키보드 문제 해결 (1)
      • 유튜브 (3)
      • 청춘 그리고 추억 (1)
      • 인생 계획표 (2)
        • 2024년 2학기 (1)
        • 2024년 여름방학 (0)
        • 2024년 1학기 (0)
        • 2023년 겨울방학 (1)
      • 다양한 글들 (98)
        • C++ STL (6)
        • Win32 API (24)
        • PushPush 게임 (13)
        • 컴퓨터구조 (1)
        • 자료구조와 알고리즘 (50)
        • 게임의 정의 (3)
        • 영상 회사 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

    • Dream
    • 코딩을 시작한 이유
    • 나를 소개합니다!
    • 블로그 공부법
    • IT & 가치 있는 일들
  • 인기 글

  • 태그

    자료구조
    컴퓨터구조
    알고리즘
    생명공학
    첨단바이오공학부
    생물정보학
    심리학
    C++
    스택
    데이터과학
    건국대
    컴퓨터 네트워크
    AI
    함수
    C언어
    unity
    리눅스
    블렌더
    의생명공학
    포인터
    의생명공학과
    코딩
    데이터사이언스
    의생명정보알고리즘
    유니티
    명령어
    인공지능
    생명과학
    연산자
    배열
  • 최근 댓글

  • hELLO· Designed By정상우.v4.10.3
smile blog
[의생명정보알고리즘] PA3 과제
상단으로

티스토리툴바