Non classé
그랜드 종합 주석 다운로드
3개의 P. nodorum 균주에 존재하는 11,849개의 단백질 클러스터의 핵심 세트는 ProteinOrtho를 사용하여 정형고성 단백질을 결합함으로써 확인되었다. 입력은 새로운 기준 유전자 모델(각각 13,899개의 단백질 및 13,746개의 단백질)에 기초하여 SN15 주석(13,949단백질)과 SN4 및 SN79의 프로테옴의 개선된 세트였다. 전사체 어셈블리의 통합, ab initio 유전자 발견으로부터 오는 이전 주석 및 HMM 모델의 리프트오버로부터 유래된 증거는 43,564개의 단백질 코딩 유전자의 주석을 허용했다. 이 유전자 중, 13,584는 반복 원소와 겹치기 때문에 마스크되었고, 29,980개의 단백질 코딩 유전자를 최종 포괄적인 v4.0 멜론 어노션으로 남겼습니다. 마스크된 유전자의 전체 목록은 보충 표 S4에 보고된다. 예상대로, 마스크된 유전자의 대부분은 트랜스포사제, 레트로트랜스포종 단백질, 개그프로유사 단백질뿐만 아니라 알려지지 않은 유전자에 대해 잠재적으로 코딩하는 서열과의 서열 유사성을 보였다. 토마토 ITAG3.2(그린 라인) 및 옥수수 6a(회색 선) 주석과 비교하여 멜론 v4.0 유전자 모델(주황색 선)의 AED 분석. y축에 표시된 것은 각 데이터 집합에 대한 AED의 누적 분포입니다. 그래프의 상부에서 AED 범위의 각 사분위수에 대해 알려지지 않은 기능을 가진 단백질 대 공지된 기능을 가진 단백질의 비율을 나타내었다. 이러한 맥락에서 AceView는 CDS 문제를 완전히 열어 놓은 것으로 간주하며 실제 단백질이 만들어지는 것을 보장하지 않습니다[7]. 실제로, 우리는 모든 가능한 CDSs를 확인, 일반적으로 성적 증명서 당 하나 이상, 그리고 그 보다 큰 그 에 추가 50 BlastP를 사용 하 여 아미노산, PFAM, 그리고 Psort2. 모든 가상 CDS는 대량 스펙트럼을 식별하는 데 도움이 되는 다운로드 페이지에서 사용할 수 있습니다.
그러나 디스플레이를 단순화하기 위해 Kozak [14]에 의해 표시된 규칙을 밀접하게 따르지 않기 때문에 생체 내 상황을 반영하지 않을 수 있음을 알고 성적 증명서 당 단일 `최고의 제품`을 선택합니다. 예를 들어, 우리는 반드시 매우 짧은 업스트림 오픈 판독 프레임 (uORF) [15, 16]인 첫 번째 CDS를 선택하지 않으며, 우리는 다시 시작하고 성적 증명서 당 여러 제품을 표시하지 않습니다. `최고` 단백질은 등급이 매겨진 방식으로 Pfam 단백질 도메인의 존재, BlastP 상동, TaxBlast 보존, 특정 Psort 주석, CDS 내 인트론의 최대화, 성적 증명서 및 크기의 위치를 고려하여 정의됩니다. Cd. mRNA가 완료되지 않은 경우(5` 끝이 제한된 클론에 의해 정의되지 않은 경우) 프레임이 5` 쪽에서 열리는 경우 AceView CDS는 프레임 코돈의 첫 번째 에서 시작됩니다.
Comments are closed