본문으로 이동

PubChem

위키백과, 우리 모두의 백과사전.
PubChem
Image
컨텐츠
설명화합물 및 그 생물학적 활성
생명체인간 및 기타 동물
제작
연구소NCBI
주 인용PMID 15879180
액세스
웹사이트pubchem.ncbi.nlm.nih.gov
다운로드 링크FTP
웹 서비스 링크PUG-View[1]
기타
라이센스퍼블릭 도메인

PubChem(펍켐)은 화학 분자 및 그에 대한 생물학적 분석 활성에 관한 데이터베이스이다. 이 시스템은 미국 국립보건원(NIH) 소속 미국 국립 의학 도서관의 산하 기관인 미국 국립생물공학정보센터(NCBI)가 관리한다. PubChem은 웹 사용자 인터페이스를 통해 무료로 접속할 수 있다. 수백만 개의 화합물 구조와 설명 데이터셋을 FTP를 통해 자유롭게 다운로드할 수 있다. PubChem에는 여러 물질에 대한 설명과 원자 100개 미만, 결합 1,000개 미만의 작은 분자들이 포함되어 있다. 80개 이상의 데이터베이스 공급업체가 지속적으로 성장하는 PubChem 데이터베이스에 기여하고 있다.[2]

역사

[편집]

PubChem은 2004년 NIH의 분자 라이브러리 프로그램(Molecular Libraries Program, MLP)의 일환으로 공개되었다. 2015년 11월 기준, PubChem에는 기탁자가 제공한 1억 5천만 개 이상의 물질 설명, 6천만 개의 고유한 화학 구조, 2억 2,500만 개의 생물학적 활성 테스트 결과가 포함되어 있다. (이 결과는 5,000개 이상의 유전자에 대응하는 거의 10,000개의 고유한 단백질 표적 서열을 다루는 200만 개 이상의 소분자에 대해 수행된 100만 건 이상의 분석 실험에서 도출되었다). 또한 15,000개 이상의 유전자를 표적으로 하는 RNA 간섭(RNAi) 스크리닝 분석 데이터도 포함하고 있다.[3]

2018년 8월 기준, PubChem은 40개국 629개 데이터 소스로부터 기여받은 2억 4,730만 개의 물질 설명과 9,650만 개의 고유 화학 구조를 보유하고 있다. 또한 125만 개의 생물학적 분석에서 도출된 2억 3,700만 개의 생체 활성 테스트 결과를 포함하며, 이는 10,000개 이상의 표적 단백질 서열을 포괄한다.[4]

2020년 기준, 100개 이상의 새로운 소스로부터 데이터를 통합하여, PubChem은 기탁자가 제공한 2억 9,300만 개 이상의 물질 설명, 1억 1,100만 개의 고유 화학 구조, 그리고 120만 건의 생물학적 분석 실험에서 얻은 2억 7,100만 개의 생체 활성 데이터 포인트를 보유하고 있다.[5]

데이터베이스

[편집]

PubChem은 역동적으로 성장하는 세 개의 주요 데이터베이스로 구성된다. 2020년 11월 5일 기준(BioAssay 수는 변동 없음) 데이터는 다음과 같다:

  • 화합물(Compounds): 1억 1,100만 건[5](2017년 9,400만 건에서 증가[4]), 순수하고 특성이 규명된 화학 화합물을 포함한다.[6]
  • 물질(Substances): 2억 9,300만 건[5](2017년 2억 3,600만 건[7], 2014년 9월 1억 6,300만 건에서 증가[8]), 혼합물, 추출물, 화학 착물 및 특성이 규명되지 않은 물질도 포함한다.
  • BioAssay: 125만 건의 고속대량 스크리닝 프로그램으로부터 얻은 수백만 개의 생물학적 활성 결과[9] (2014년 9월 6,000 건에서 증가[10]).

검색

[편집]

데이터베이스 검색은 화학 구조, 이름 조각, 화학식, 분자량, XLogP, 수소 결합 공여자 및 수용체 수 등 광범위한 속성을 통해 가능하다.

PubChem은 SMILES/SMARTS 및 InChI를 지원하는 자체 온라인 분자 편집기를 포함하고 있어, 구조 및 조각 검색을 위해 모든 일반적인 화학 파일 형식을 가져오거나 내보낼 수 있다.

각 검색 결과는 동의어, 화학적 특성, SMILES 및 InChI 문자열을 포함한 화학 구조, 생체 활성, 그리고 구조적으로 관련된 화합물 및 PubMed와 같은 다른 NCBI 데이터베이스로의 링크 정보를 제공한다.

텍스트 검색 양식에서는 검색어 뒤에 대괄호로 필드 이름을 추가하여 데이터베이스 필드를 검색할 수 있다. 숫자 범위는 콜론으로 구분된 두 숫자로 표시된다. 검색어와 필드 이름은 대소문자를 구분하지 않는다. 괄호와 논리 연산자인 AND, OR, NOT을 사용할 수 있으며, 연산자를 사용하지 않으면 AND로 간주된다.

예시 (리핀스키의 5법칙):

0:500[mw] 0:5[hbdc] 0:10[hbac] -5:5[logp]

데이터베이스 필드

[편집]

식별 번호
현재 데이터베이스의 식별 번호[UID]
물질 식별 번호[SID]
화합물 식별 번호[CID]
BioAssay 식별 번호[BAID], [AID]

일반
모든 데이터베이스 필드[ALL]
주석[CMT]
기탁일[DDAT], [DEPDAT]
기탁자의 외부 ID[SRID], [SRCID]
소스 이름[SRC], [SRCNAM], [SRCNAME]
소스 공개일[SRD], [SRDAT], [RLSDAT]
의학 주제 표목(MeSH) 용어[MSHT], [MESHT]
MeSH 트리 노드[MSHN], [MESHTN]
MeSH 약리학적 작용[PHMA], [PHARMA]

물질 속성
물질 동의어[SYNO]
IUPAC 이름[UPAC], [IUPAC]
국제 화학 식별자 (InChI)[INCHI]
분자량[MW], [MWT], [MOLWT]
화학 원소[ELMT], [EL]
비수소 원자 수[HAC], [HACNT]
동위 원소[IAC], [IACNT]
형식 전하[TFC], [CHG], [CHRG]
카이랄 원자 수[ACC], [ACCNT]
정의된 카이랄 원자 수[ACDC], [ACDCNT]
정의되지 않은 카이랄 원자 수[ACUC], [ACUCNT]
수소 결합 수용체 수[HBAC], [HBACNT]
수소 결합 공여자 수[HBDC], [HBDCNT]
호변 이성질체[TC], [TCNT], [TTMC]
회전 가능한 결합 수[RBC], [RBCNT]
XLogP[11][XLGP], [LOGP]

화합물 속성
화합물 동의어[CSYN], [CSYNO]
성분 수[CC], [CCNT]
공유 결합 단위(분자) 수[CUC], [CUCNT]
총 생물학적 활성 수[TAC]

각주

[편집]
  1. Kim, Sunghwan; Thiessen, Paul A.; Cheng, Tiejun; Zhang, Jian; Gindulyte, Asta; Bolton, Evan E. (2019년 8월 9일). PUG-View: programmatic access to chemical annotations integrated in PubChem. Journal of Cheminformatics 11. 56쪽. doi:10.1186/s13321-019-0375-2. PMC 6688265. PMID 31399858.
  2. PubChem Source Information. The PubChem Project. USA: National Center for Biotechnology Information.
  3. Kim, Sunghwan; Thiessen, Paul A.; Cheng, Tiejun; Yu, Bo; Shoemaker, Benjamin A.; Wang, Jiyao; Bolton, Evan E.; Wang, Yanli; Bryant, Stephen H. (2016). Literature information in PubChem: associations between PubChem records and scientific articles. Journal of Cheminformatics 8. doi:10.1186/s13321-016-0142-6. PMC 4901473. PMID 27293485.
  4. 1 2 Search Results for all compounds. 2016년 1월 28일에 확인함.
  5. 1 2 3 Kim, Sunghwan; Chen, Jie; Cheng, Tiejun; Gindulyte, Asta; He, Jia; He, Siqian; Li, Qingliang; Shoemaker, Benjamin A; Thiessen, Paul A; Yu, Bo; Zaslavsky, Leonid; Zhang, Jian; Bolton, Evan E (2021년 1월 8일). PubChem in 2021: new data content and improved web interfaces. Nucleic Acids Research 49. D1388–D1395쪽. doi:10.1093/nar/gkaa971. PMC 7778930. PMID 33151290.
  6. all[filt] - PubChem Compound Results. The PubChem Project. USA: National Center for Biotechnology Information. 2011년 1월 7일에 확인함.
  7. all[filt] - PubChem Substance Results. The PubChem Project. USA: National Center for Biotechnology Information. 2010년 3월 9일에 원본 문서에서 보존된 문서. 2016년 1월 28일에 확인함.
  8. all[filt] - PubChem Substance Results. The PubChem Project. USA: National Center for Biotechnology Information. 2010년 3월 9일에 원본 문서에서 보존된 문서. 2011년 1월 7일에 확인함.
  9. all[filt] - PubChem BioAssay Results. The PubChem Project. USA: National Center for Biotechnology Information. 2010년 3월 9일에 원본 문서에서 보존된 문서. 2016년 1월 28일에 확인함.
  10. all[filt] - PubChem BioAssay Results. The PubChem Project. USA: National Center for Biotechnology Information. 2010년 3월 9일에 원본 문서에서 보존된 문서. 2011년 1월 7일에 확인함.
  11. Cheng T (Nov 2007). Computation of octanol-water partition coefficients by guiding an additive model with knowledge. Journal of Chemical Information and Modeling 47. 2140–2148쪽. doi:10.1021/ci700257y. PMID 17985865.

같이 보기

[편집]

외부 링크

[편집]