게시 및 게시 날짜 : 2013/07/23

빅 데이터에서 새로운 과학적 바카라 커뮤니티을 가져 오는 통계적 방법 개발

포인트

  • 빅 데이터의 과학적 바카라 커뮤니티의 경우 정확한 테스트 값 (P 값)을 계산해야합니다
  • 초고속 알고리즘을 사용한 새로운 통계 테스트 방법이 개발되어 바카라 커뮤니티 기능이 크게 향상되었습니다
  • 물리, 의학, 화학을 포함한 모든 실험 과학에서 전 세계적으로 널리 사용될 것으로 예상됩니다

JST는 업무를 달성하기위한 기본 연구의 일환으로, 국립 선진 산업 과학 기술 연구소생명 및 정보 공학 연구 센터8240_8391p value)를 계산하기위한 알고리즘 (단계)을 개발했습니다

자연 과학을 통해 얻은 데이터의 양은 계속 증가하고 있으며 이러한 데이터를 효과적으로 분석 할 수있는 방법을 제공하려는 욕구가 있습니다 그러나 관찰 가능성이 높을수록 전통적인 통계 테스트 방법이 많을수록 바카라 커뮤니티 기준이 더 엄격해야합니다 결과적으로, 관찰 수가 증가하더라도 과학적 바카라 커뮤니티이 감소하는 "빅 데이터 역설"의 이상한 현상 특히, 매우 보수적 인 시험 값 (P 값)은 종종 복잡한 조합 인자에 대해 주어졌으며, 의미있는 실험 결과는 때때로 부당하게 낮았다

이 연구 그룹에서초고속 알고리즘를 사용하여 기존 방법보다 훨씬 높은 정확도로 P 값을 계산하는 새로운 방법을 개발했습니다 이 기술은 유방암 세포주의 증식 및 분화에 관여하는 전사 인자를 연구하는 데 사용되었으며, 기존 유전자 발현 데이터로부터 새로운 조합 인자를 바카라 커뮤니티 할 수 있었다

개발 된 방법을 사용하여 지금까지 간과 된 조합 요소를 바카라 커뮤니티 할 수 있습니다 이러한 결과는 물리, 의학 및 화학을 포함한 모든 실험 과학에 기여하며 앞으로 전 세계에서 널리 사용될 것으로 예상됩니다

이 연구 결과는 2013 년 7 월 22 일 (Eastern Time)에 National Science of National Academy of Sciences (PNA)의 온라인 브레이킹 판에 발표 될 것입니다
이러한 결과는 다음 프로젝트, 연구 분야 및 연구 주제를 통해 얻었습니다
  전략적 창의적 연구 촉진 프로젝트 Erato 유형 연구
연구 프로젝트to : "Minato 이산 구조 처리 시스템 프로젝트"
일반 연구클래스 : Minato Shinichi (Hokkaido University의 정보 과학 대학원)
그룹 리더 : Tsuda Koji (국립 선진 산업 과학 기술 연구소, 생물 정보 공학 센터)
연구 기간시간 : 2009-2014
위의 연구 주제에서 우리는 초고속 알고리즘을 사용하여 짧은 시간 내에 실제 문제를 효율적으로 처리하는 기술 기반을 구축하는 것을 목표로합니다

연구 배경 및 역사

자연 과학에서 새로운 현상이 바카라 커뮤니티되면 시스템의 변동과 관찰의 모호성을 고려하고 결과의 신뢰성을 보장해야합니다 과학 데이터 분석에서 이러한 신뢰성을 보장하기 위해서는 통계 테스트가 필수적입니다 (그림 1) 통계 테스트는 잘못된 바카라 커뮤니티의 확률을 나타내는 테스트 값 (P 값)을 계산하며 특정 임계 값 미만 (일반적으로 005)보다 신뢰할 수있는 과학적 바카라 커뮤니티으로 만 인식 될 수 있으며 논문에 설명 할 수 있습니다

관찰 가능한 물체의 수 (예를 들어, DNA의 돌연변이)가 증가함에 따라, 잘못된 바카라 커뮤니티의 가능성이 증가한다 잘못된 바카라 커뮤니티을 피하기 위해 목표 수가 증가할수록 가장 엄격한 바카라 커뮤니티 표준이 있어야합니다 일반적인다중 테스트 방법에서, 우리는 p 값에 큰 보정 계수 (수정 된 p 값)를 곱한 경우에만이를 바카라 커뮤니티하고 005 미만인 경우에만 바카라 커뮤니티되는 것으로 간주합니다 (그림 2) 가장 단순하고 가장 일반적으로 사용Bonferroni MethodN 대상이있는 경우 P 값에 N을 곱하여 수정하고 여전히 005 내에있는 경우 바카라 커뮤니티으로 인식됩니다 결과적으로, 관찰 수가 증가하더라도 과학적 바카라 커뮤니티이 감소하는 "빅 데이터 역설"의 이상한 현상

특히, 복잡한 조합 인자를 고려할 때 (도 3), 물체 N의 수는 폭발적으로 커져서 바카라 커뮤니티하기가 거의 불가능하다 따라서, 데이터로부터 세포 ipsization을 유발하는 4 가지 전사 인자에서 바카라 커뮤니티 된 조합 인자를 찾기가 어려웠다

연구 컨텐츠

이 연구에서는 수정 된 P 값을 이전보다 훨씬 정확하게 계산할 수있는 램프 알고리즘 (무한한 다중 테스트 절차, Infinite Order Multiple Test)가 개발되었습니다 램프에서, 우리는 낮은 빈도의 발생 빈도와 결합하는 수학적 특성에 중점을 둔 거짓 바카라 커뮤니티 속도를 변경하지 않으며, 초고속 알고리즘을 사용하여 의도하지 않은 발생 조합을 식별하고 제거하여 낮은 빈도의 발생 계수를 크게 줄입니다 또한, 일반적인 Bonferroni 방법과 비교하여 LAMP는 통계 테스트의 정확도를 유지하면서 충분히 낮은 보정 계수를 허용합니다 이 기술을 사용하여, 본 발명자들은 인간 유방암 세포주에 대한 유전자 발현 데이터를 재분석하고, 이전에 최대 8 개의 전사 인자의 간과 된 조합이 유방암 세포 증식에 관여 함을 바카라 커뮤니티했다

저주파 조합이 1990 년 미국의 타론에 의해 잘못된 바카라 커뮤니티 률을 바꾸지 않았다는 사실은 세계에서 처음으로 알고리즘을 사용하여 생명 과학 데이터에 적용한 것은 이번이 처음입니다 생명 과학에 널리 사용FDR를 기반으로하는 방법 잘못된 바카라 커뮤니티 률에 따라 손상을 입어 바카라 커뮤니티 전력을 향상 시키지만,이 방법은 그러한 타협을 일으키지 않으며 알고리즘만으로는 바카라 커뮤니티 전력을 크게 증가시키는 데 성공했습니다

미래 개발

이 바카라 커뮤니티은 전사 인자의 결합 된 효과를 연구하고, 다수의 유전자로 인한 질병을 식별하고, 많은 부위를 포함하는 고차 뇌 기능을 밝히는 것과 같은 복잡한 요인으로 인한 현상의 설명을 가속화 할 것으로 예상된다 또한, 다수의 약물을 결합한 약물 바카라 커뮤니티과 여러 항목으로 구성된 조사를 분석하는 것을 포함하여 사회 과학 분야의 자연 과학의 실험 결과 평가에 영향을 미치는 것으로 생각된다

참조 다이어그램

과학에서 통계 테스트의 역할 그림
그림 1 : 과학에서 통계 테스트의 역할
데이터에서 특정 결과를 주장 할 때는 신뢰성을 평가하기 위해 통계 테스트를 수행해야합니다 대부분의 과학 저널은 p 값없이 결과를 게시 할 수 없습니다

빅 데이터 역설 다이어그램
그림 2 : 빅 데이터 역설
다중 테스트 수정이 관찰 수를 증가하더라도 과학적 바카라 커뮤니티으로 이어지지 않을 수 있습니다 왼쪽 그림에서 객체의 수가 작기 때문에 대상 C의 수정 P 값은 005 미만이며 바카라 커뮤니티으로 인식되지만 8로 증가하면 보정 계수가 증가하고 보정 P 값이 005를 초과하며 바카라 커뮤니티으로 인식되지 않습니다

램프에 의한 조합 계수 바카라 커뮤니티의 그림
그림 3 : 램프에 의한 조합 계수 바카라 커뮤니티
종래의 Bonferroni 방법에서, 모든 조합 요소는 보정 계수로 사용되는 반면, 램프에서는 고주파 조합 만 계산하여 보정 계수를 유효한 수준으로 줄일 수 있습니다 따라서, 빨간색으로 표시된 조합 인자는 바카라 커뮤니티으로 인식됩니다 주파수 임계 값은 알고리즘에 의해 자동으로 결정됩니다

터미널 설명

◆ P value
이것은 데이터에서 바카라 커뮤니티 된 것이 올바르지 않을 확률을 나타냅니다 A가 B를 유발하는 원인에 대한 P 값은 A와 B가 완전히 독립적이라는 가정하에 얻어진 관찰 데이터로부터 극단적 인 것이 획득 될 확률로 계산된다 (귀무 가설)[참조로 돌아 가기]
◆ 초고속 알고리즘
이것은 컴퓨터를 사용하여 매우 빠른 속도로 엄청난 양의 조합을 계산하는 것과 같은 복잡한 계산을 수행하는 산술 절차입니다 미나토 이산 구조 처리 시스템 프로젝트는 초고속 알고리즘 기술을 연구하고 개발하고 있으며, 전력 그리드의 시스템 검증 및 최적화, 데이터 마이닝 및 지식 바카라 커뮤니티을 포함한 대규모 학기 간 문제의 고속 처리를위한 기술 기반을 구축하고 있습니다[참조로 돌아 가기]
◆ 다중 테스트 방법
여러 피험자가 동시에 테스트되면 각 허위 바카라 커뮤니티의 확률을 억제하는 것으로 충분하지 않습니다 예를 들어, 각 잘못된 바카라 커뮤니티 속도가 5%인 경우에도 10 개의 목표가 있으면 잘못된 바카라 커뮤니티이 한 번도 발생할 가능성이 있습니다 (가족 별 오류율)는 최대 10 배까지 최대 50%입니다 다중 테스트 방법에서가족 별 오류율5%이내입니다[참조로 돌아 가기]
◆ Bonferroni Method
Bonferroni 메소드는 가장 간단하고 가장 일반적으로 사용되는 다중 테스트 방법입니다 이 방법에서, n 대상이있는 경우, p 값에 n을 곱하여 수정하고 5%이내에 있다면 바카라 커뮤니티으로 인식된다 결과,가족 별 오류율항상 5%이하로 유지할 수 있습니다[참조로 돌아 가기]
◆ FDR
거짓 바카라 커뮤니티 률가족 별 오류율FDR은 바카라 커뮤니티 된 거짓 바카라 커뮤니티의 백분율을 말하는 반면, 잘못된 바카라 커뮤니티이 한 번도 발생할 확률을 나타냅니다가족 별 오류율5%이상이며 FDR을 기반으로 한 다중 테스트 방법이며 생명 과학에서 널리 사용됩니다[참조로 돌아 가기]

관련 기사


저희에게 연락

연락처 양식