유전자는 DNA로 구성된 유전의 기본적인 물리적, 기능적 단위입니다. 인체의 유전자 수는 2만~2만5000개로 추정된다. 이렇게 많은 수의 유전자 때문에 모니터링과 연구를 용이하게 하기 위해 과학자들은 유전자에 이름을 붙였습니다.
1. 유전 조건 명명
유전자 상태는 표준 방식으로 명명되지 않습니다(공식 위원회에서 공식적으로 명명하고 표시하는 유전자와 달리). 이전에 알려지지 않은 새로운 장애가 있는 가족을 치료하는 의사는 종종 그 질환의 이름을 가장 먼저 제안합니다.
그런 다음 의료 전문가, 연구원, 질병의 영향을 받는 사람 및 기타 관심 있는 개인이 공동으로 이름을 수정하여 유용성을 높일 수 있습니다. 명명은 특정 상태에 대한 정확하고 효과적인 의사 소통을 가능하게 하기 때문에 중요하며 궁극적으로 치료를 개선하고 연구자가 새로운 치료법을 찾는 데 도움이 됩니다.
조건부 이름은 일반적으로 다음 소스 중 하나 또는 조합에서 파생됩니다.
- 이 상태를 유발하는 유전적 또는 생화학적 결함(예: 알파-1 항트립신 결핍증).
- 변이(또는 돌연변이)가 상태를 유발하는 유전자(예: TUBE4A 관련 백혈병 이영양증).
- 장애의 하나 이상의 주요 징후 또는 증상(예: 근긴장이상을 동반한 석면과다증, 진성 적혈구증가증 및 경화증 크립토제닉을 수행).
- 신체의 일부가 이 상태의 영향을 받습니다(예: 뇌-폐-갑상선 증후군).
- 일반적으로 장애를 설명하는 첫 번째 사람인 의사 또는 연구원의 이름(예: 마르판 증후군 Antoine Bernard-Jean Marfan 박사의 이름을 따서 명명됨).
- 지리적 영역(예: 지중해 소스 가족성, 주로 지중해에 접한 인구에서 발생).
- 질병이 있는 환자 또는 가족의 이름(예: 근위축성 측삭 경화증 ~라고 불리는 bệnh 루 게릭 유명한 야구 선수가 이 질병으로 진단받은 후).
특정한 사람의 이름을 따서 명명된 조건을 복합어라고 합니다. 같은 이름의 소유형 또는 비소유형 단어가 선호되는지 여부에 대한 논쟁이 있습니다. 일반적으로 의학 유전학자는 비확인 양식을 사용하며 이 양식은 모든 의학 분야의 의사에게 표준이 될 수 있습니다.
2. 유전자의 이름은 어떻게 지정됩니까?
젠 DNA로 구성된 유전의 기본 물리적 및 기능적 단위입니다. 일부 유전자는 단백질이라는 분자를 만들기 위한 지침 역할을 합니다. 그러나 많은 유전자는 단백질을 암호화하지 않지만 다른 기능을 가지고 있습니다.
인간에서 유전자의 크기는 수백 DNA 염기에서 2백만 염기 이상까지 다양합니다. 프로젝트라는 국제 연구 노력 인간 게놈, 인간 게놈의 염기서열을 분석하고 그 안에 포함된 유전자를 확인하기 위해 수행한 결과, 인체의 유전자 수는 20,000~25,000개 정도로 추정됩니다.
각 사람은 각각의 유전자에 대해 2개의 사본을 가지고 있는데, 하나는 아버지로부터 유전되고 다른 하나는 어머니로부터 유전됩니다. 대부분의 유전자는 모든 사람에게 동일하지만 소수의 유전자(전체 유전자의 1% 미만)는 사람마다 약간 다릅니다.
대립유전자는 DNA 염기서열에 약간의 차이가 있는 동일한 유전자의 다른 형태입니다. 이러한 작은 차이는 각 개인의 뚜렷한 신체적 특성에 기여합니다.
과학자들은 유전자에 고유한 이름을 부여하여 유전자를 추적합니다. 유전자 이름이 길 수 있기 때문에 유전자에는 유전자 이름의 약어에 대한 문자(때로는 숫자)의 짧은 조합인 기호도 할당됩니다. 예를 들어, 염색체 7에 위치한 유전자는 낭포 성 섬유증 낭포성 섬유증 막횡단 전도도 조절 유전자로 알려진 이 유전자는 CFTR로 지정됩니다.
HUGO 유전자 명명 위원회(HGNC)는 알려진 각 인간 유전자에 대해 공식적이고 상징적인 이름(이름의 약어)을 지정합니다. HGNC는 미국 국립인간게놈연구소(National Human Genome Research Institute)와 영국의 웰컴 트러스트(Wellcome Trust)가 후원하는 비영리 단체입니다. 위원회는 인간 게놈에 있는 약 20,000~25,000개의 단백질 코딩 유전자 중 19,000개 이상의 이름을 지정했습니다.
연구 중에 유전자는 종종 동일한 유전자를 조사하는 연구자로부터 여러 대체 이름과 기호를 받습니다. 이러한 혼란을 해결하기 위해 HGNC는 각 인간 유전자에 고유한 이름과 기호를 할당하여 대규모 데이터베이스에서 유전자를 효율적으로 구성할 수 있어 연구의 발전을 돕습니다. HGNC 인간 유전자 명명에 대한 현재 지침은 다음과 같습니다.
널리 동의된 대안이 없는 경우, HGNC는 유전자의 정의를 표현형/기능에 기여하는 DNA의 한 부분으로 유지합니다. 입증된 기능이 없는 경우, 유전자는 서열, 전사 또는 상동성을 특징으로 할 수 있습니다.
각 유전자에는 하나의 기호만 할당됩니다. HGNC는 동형체(즉, 대체 사본 또는 흰개미 변종)의 이름을 자주 지정하지 않습니다. 이는 단백질 코딩 부위의 단백질 코딩 또는 비코딩 RNA 이소폼 또는 비코딩 RNA 부위의 대체 전사체에 대한 뚜렷한 표기가 없음을 의미합니다.
특별한 경우와 지역사회의 필요에 따라 복잡한 유전자좌(예: UGT1 유전자좌)의 유전자 단편에 대해 별도의 기호가 승인되었습니다. 추정되는 자웅동체 유전자좌는 별개의 유전자 산물을 나타내기 위해 별개의 기호를 할당받을 수 있습니다.
우리가 명명하는 각 유전자에는 고유한 기호, HGNC ID(HGNC: # 형식) 및 설명적인 이름이 할당됩니다. 기호에는 대문자 라틴 문자와 아라비아 숫자만 포함되며 특정 그룹의 대시를 제외하고 구두점은 사용하지 않습니다. 기호는 데이터 검색을 용이하게 하기 위해 일반적으로 사용되는 약어와 유사하지 않아야 합니다. 명명법에는 종에 대한 언급이나 유전자에 대한 “G”가 포함되어서는 안 되며 공격적이거나 공격적이어서도 안 됩니다.
2.1. 단백질 코딩 유전자
HUGO 유전자 명명 위원회는 유전자 산물의 1차 정상 기능을 기반으로 단백질 코딩 유전자의 이름을 지정합니다.
기능적 데이터가 없는 경우, 유전자 인코딩 단백질 다음과 같은 방식으로 이름을 지정할 수 있습니다.
- 인식된 구조 도메인 및 유전자 인코딩된 모티프를 기반으로 합니다(예: BEND7, “BEN 도메인에는 7이 포함됨”).
- 인간 게놈의 상동 유전자를 기반으로 합니다(예: GPRIN3, “GPRIN family member 3”).
- 다른 종의 상동 유전자를 기반으로 합니다(예: FEM1A, “fem-1 A 상동체”).
- 오픈 리딩 프레임(예: C17orf50, “오픈 리딩 프레임 50 염색체 17”)의 존재만을 기반으로 합니다.
가능한 경우 관련된 유전자는 서열 유사성, 공유 기능 또는 단백질 복합체의 구성원 자격을 기반으로 그룹화할 수 있도록 공통 루트 표기법을 사용하여 명명됩니다.
특정 면역 과정에 관여하거나 효소, 수용체 또는 이온 채널을 암호화하는 유전자의 경우 HUGO 유전자 명명 위원회는 전문 명명 그룹과 상의합니다. 다른 주요 유전자 그룹의 경우 HUGO 유전자 명명 위원회는 새로운 유전자의 명명 시 자문 그룹과 협의하고 제안된 명명 업데이트에 대해 논의합니다.
2. 2. 유사유전자
HUGO 유전자 명명 위원회(Committee on Gene Nomenclature)는 유사 유전자를 기능성 단백질 산물을 생산할 수 없지만 기능성 유전자와 유사성이 높은 서열로 정의합니다. 일반적으로 기능적 조상 유전자의 상당 부분과 유사한 유사 유전자만 이름을 붙입니다.
처리된 가유전자는 특정 모 유전자를 기반으로 명명되며, 모 유전자 기호에 P 번호와 번호가 추가됩니다(예: NACAP10, “NACA 가유전자 10”). 번호 매기기는 종종 종에 따라 다릅니다.
다른 가족 구성원에 비해 코딩 서열의 대부분을 유지하는(종종 치료되지 않은 채로 남아 있는) 유사유전자는 “P” 접미사가 있는 새로운 가족 구성원으로 명명됩니다(예: DDX12P, “DEAD/H-box helicase 12, pseudogene”). 이 명명 형식은 다른 종의 공식적인 기능 시스템과 관련된 가유전자에도 사용됩니다.
MMP23A와 같이 기호가 잘 설정된 경우 이러한 가유전자에 문자 “P”가 포함되지 않는 경우는 드뭅니다. “매트릭스 메탈로펩티다제 23A(의사유전자)”.
2. 3. 비암호화 RNA 유전자
HUGO 유전자 명명 위원회는 RNA 유형에 따라 비암호화 RNA(ncRNA) 유전자의 이름을 지정합니다.
소형 RNA의 경우 HUGO 유전자 명명 위원회는 다음과 같은 명명 규칙을 따릅니다.
- MicroRNA: miRBase는 각 microRNA 스템-루프 시퀀스에 “mir-#” 형식의 기호를 할당하고 각 성숙한 miRNA에 “miR-#” 형식의 기호를 할당한 다음 데이터베이스로 전송된 순서를 반영하는 고유한 시퀀스 번호를 지정합니다. 그런 다음 HGNC는 MIR# 형식의 인간 miRNA 유전자에 대한 유전자 서명을 승인했습니다. 예를 들어, MIR17은 miRNA 유전자를 나타내고, mir-17은 부모 루프를 나타내고, miR-17은 성숙한 miRNA를 나타냅니다.
- Transport RNA(tRNA): genomic tRNA database(GtRNAdb)는 tRNA에 있는 각 tRNA 유전자에 고유한 ID를 할당합니다. [mã axit amin ba chữ cái] – [anticodon] – [Mã nhận dạng gen GtRNAdb ]. 예를 들어 tRNA-Ala-AGC-1-1.
HGNC는 다소 간결하지만 동등한 tRNA 유전자 기호를 CHILD 형식으로 지정합니다. [mã axit amin một chữ cái] – [anticodon] [mã nhận dạng gen gtrnadb], 예: TRA-AGC1-1.
다른 마이너 ncRNA 클래스는 전문 고문과 협력하여 명명되었습니다. 소형 ncRNA의 주요 클래스는 다음과 같습니다.
- 작은 핵 RNA: “RNA, 작은 핵 U#”에 대한 원래 기호 “RNU”로 명명되었습니다.
- Small nucleolar RNA: “small nucleolar RNA, C/D box” 유전자에 대해 원래 기호 SNORD #로 명명되었습니다. “작은 핵소체 RNA, H/ACA 상자” 유전자에 대한 SNORA #; 및 “작은 Cajal 신체 특이적 RNA” 유전자에 대한 SCARRNA #.
- 리보솜 RNA: 원래 기호 RNA45S, RNA28S, RNA18S, RNA5S, RNA5-8S로 명명되었습니다.
긴 비코딩 RNA(lncRNA)는 단백질 코딩 유전자와 유사한 공개된 기능을 기반으로 고유한 기호를 제공하는 데 선호됩니다. LncRNA 유전자는 RefSeq 및 GENCODE 프로젝트에 의해 다음과 같은 방식으로 체계적인 이름 영구 기호의 기초가 되는 적절한 게시 정보 없이 주석이 달렸습니다.
- 단백질 코딩 유전자와 관련된 LncRNA에는 루트 기호(LINC # 뒤에 5자리 숫자가 붙습니다(예: LINC01018))가 할당됩니다.
- 단백질 코딩 유전자의 게놈 범위와 반대되는 LncRNA에는 기호 형식이 할당됩니다. [ký hiệu gen mã hóa protein] ‐AS#(예: FAS-AS1).
- 서로 다른 LncRNA(양방향 프로모터 서열 공유) 단백질 코딩 유전자에는 기호 형식이 할당됩니다. [ký hiệu gen mã hóa protein] ‐DT, 예: ABCF1-DT.
- 동일한 가닥의 단백질 코딩 유전자의 인트론에 포함된 LncRNA에는 기호가 할당됩니다. [ký hiệu gen mã hóa protein] ‐IT #, 예: AOAH-IT1.
- 동일한 가닥의 단백질 코딩 유전자와 겹치는 LncRNA에는 기호 형식이 지정됩니다. [biểu tượng mã hóa gen protein] ‐OT #, 예: C5-OT1.
- 인트론 또는 엑손 내부에 microRNA 또는 snoRNA 유전자를 포함하는 LncRNA는 호스트 유전자(예: MIR17HG, SNHG7)로 명명됩니다.
2. 4. 대본 읽기
리드스루 전사체는 일반적으로 인접 유전자좌에서 생성되며 2개(또는 그 이상) 유전자의 코딩 및/또는 비코딩 부분으로 구성됩니다. HGNC는 NCBI의 RefSeq 주석과 Ensembl의 GENCODE 주석 모두에 의해 일관되게 주석이 달린 read-through 레코드만 명명했습니다.
이 클론은 “read-through” 유전자좌 유형을 가지며 모 유전자에서 두 개(또는 그 이상)의 기호를 대시로 구분하여 표시합니다(예: ZNF511-PRAP1 및 이름 “”[ký hiệu] read through”, 예: “ZNF511-PRAP1 Readthrough”. 이름에는 “(NMD 후보)”와 같이 복사본의 잠재적인 암호화 상태에 대한 추가 정보가 포함될 수도 있습니다.
역사적으로 HGNC는 인간 참조 게놈에 있는 유전자에 대해서만 승인된 기호를 가지고 있습니다. HLA 커뮤니티와 같이 전용 명명 위원회가 있는 특정 커뮤니티의 요청에 따라 드물게 예외가 발생했습니다.
구조적 변이체의 향후 명명은 GRC(Genome Reference Consortium)에 의해 인간 참조 게놈에 포함된 대체 유전자좌에 있는 것으로 제한됩니다. 밑줄은 대체 참조 유전자좌에 주석이 달린 유전자에 대해 예약되어 있습니다. 예를 들어 C4B_2는 대체 참조 유전자좌 6p21.3에 있는 C4B의 두 번째 사본입니다.
참조: medlineplus.gov, sciencedirect.com, genenames.org