본문 바로가기

빅데이타

빅 데이타의 저주(골칫거리)

무분별한 애플리케이션의 위험성과 과학기술자료의 스케일링을 강조하는 중대산 문서는 문서규모가 작든 크든 잘 작동했다. 우리는 빅데이타의 거래에서의 결함에 대한 문제를 설명하고, 해결책을 제안한다. 또한 우리는 고용 회사가 주장하는 즉  ‘자세한 내용 아래의 “관련기사” 섹션을 참조하라’는 것보다 더 전문 데이터 과학자가 더 풍부하다고 생각한다. 이 문서는 간단한 영어로 작성되어, 매우 짧으며 높은 수준의 의사 결정자에 대한 자료뿐만 아니라 깊은 기술적인 설명이 모두 포함되어 있다.

즉, 빅데이타의 저주가 당신이 수십억에서 수조 개의 자료지점 및 수천개의 메트릭으로 되어있는 매무 매우 넓은 데이타 세트의 방식으로 찾기 때문이다. 당신이 더 예측능력이 없는 심지어 더 나쁜, 강한 패턴인

전적으로 우연에 의해 발생, 반복 불가능, 예측능력을 가지고 있지 않음, 그러나 잘 알려져 있지 않는 약간 패턴이 강한 예측 능력에 의해 무시될 수 있으므로  우연의 일치를 식별할 필요가 있다.

질문: 당신은 어떻게 수많은 자료에서 실제 신호와 돌발적인 신호를 구별합니까?


하나의 예에 초점을 맞추자: 시간 시리즈 사이의 강한 상관관계를 확인한다. 당신이 1000개의 시계열을 가지고 있으면, 당신은 499,500개(1000*999/2)의 상관관계를 계산할 수 있다. 만약 당신이 시차의 상호 상관관계를 포함한다면, 그때 우리는 수백만개의 수많은 상관관계를 다루고 있다. 이러한 모든 상관관계 중 몇몇은 우연히 매우 높습니다: 만약 당신이 예측 모델링 등의 상관 관계를 사용한다면, 당신은 탈출한 것입니다. 모든 척도에서의 교차 상관관계를 분석하는 것은 모든 프로젝터의 시작 부분에 할 첫번째 단계 즉 탐색 분석 단계의 통계 중 하나이다. 그러나 정규화된 시계열의 스펙트럼 분석은 사실관계를 확인하는 더욱 강력한 메커니즘을 제공한다.


이러한 이슈를 설명하기 위해 관측 n 과 함께 시계열 k를 가지고 있다고 가정할 경우 가격 변화는 n일로 구성된 같은 기간에서 다양한 시차와 함께한 k의 서로 다른 종목의 주가를 계산한다.  예를 들어, 당신은 “구글의 주가가 상승할 때, 페이스북은 1일 후에 하락한다.” 와 같은 패턴을 탐지할 수 있습니다. 이러한 유리한 패턴을 발견하기 위해 당신은 매일 거래를 하거나 빠르고 많은 무역에 의존하는 1일, 2일, 혹은 아마도 1초, 2초 등 다양한 시차와 함께 수천개의 주식을 통해 상호 상관관계를 계산해야 합니다. 일반적으로, 당신은 최소한의 관측 수를 유지해야 합니다. 이러한 패턴들은 매우 빠르게 증발합니다. 즉, 당신은 n=10 아니면 n=20일 경우를 가정할 수 있다. 다른 경우 월간 자료(환경통계, 새로운 질병의 출연)에 기초하여, 아마도 n=48(2년간의 걸쳐 수집된 월간자료)이 될 것이다. 어떤 경우에는  n값이 훨씬 클 경우, 큰 자료의 저주는 더 이상 문제가 되지 않는다. n이 200보다 작을 경우 큰 자료의 저주는 매우 심하고 k의 보통 크기는 500이다. 그러나, n이 1000보다 크고, k가 5000보다 큰 경우는 드물다.


이제 매우 높은 상관관계를 발결할 때 잘못된 가능성이 있는 경우를 평가하기 위해 수학을 조금 살펴보자. 우리는 문제의 경우를 계산하기 위해 몬테카를로 시뮬레이션을 할 수 있었고, 그러나 여기서 우리는 분명한 구식 통계 모델링을 사용한다.


이제 우리는 페어의 개수를 나타내는 m으로 표시하는 새로운 변수를 소개하자. 독립된 시계열이 우리가 처리한 k 시계열 세트의 밖으로 선택되어졌다. 이러한 시계열 m쌍에 대한 상관관계를 계산하고 싶다. 이론적 질문: 각각 난수발생기를 통해 생성된 n개의 숫자로 구성된 m개의 독립적인 쌍의 타임 시리즈를 가진다고 가정하면(예를 들어 2개의 다른 종목에 대한 주어진 시간의 시뮬레이션된 정규화된 주가의 관찰), m의 상관계수 중 적어도 0.8보다 큰 것을 무엇을 의미하는가?


이러한 디자인에 따라 이론적 상관계수(추정된 상관관계는 대조적으로)는 0이다. 질문에 대답하기 위해, 시간 시리즈는 가우시안 백색 잡음의 것을 의미한다고 가정하자. 이어서 추정 상관 계수는, r로 표시하며, 이것은 평균이 0이고, 분산은 1/(n-1)이다. r은 주어진 다수의 값보다 크고(a가 0.8이면 강한 상관관계를 의미), p=P(r은 a보다 크다) 이다. 여기서 P는 평균이 0이고 분산이 1/(n-1)인 것과 함께 정규분포를 나타낸다. m의 두개의 변수 시계열 사이의 확률 중 1개 이상은 a=0.8 이상이며 따라서 1-[(1-P)^m] 의 식을 갖는다.


예를 들어,

만약 n=20이고, m=10,000일 때 당신의 판단은 잘못된 것이다(a=0.80, 잘못될 확률 90.93%)

만약 n=20이고, m=100,000일 때 당신의 판단은 매우 잘못된 것이다(a=0.90, 잘못될 확률 98.17%).

이제 다음과 같이 실제로 작동하는 방식은 다음과 같습니다: 당신은 각각 n의 다음 시간 간격을 계산하여 시간 시리즈를 제공하는 k의 메트릭 또는 변수를 갖습니다. 당신은 모든 상관계수를 계산하여 즉 m = k*(k-1)/2 입니다. 그러나 2개의 시계열 사이의 독립적인 인수는 위반이므로, 상관관계는 그러나 당신의 자료는 랜덤 숫자도 아니고, 백색 잡음도 아니다. 그래서 이론적인 상관관계는 0보다 큰 가운데 대략 0.15 에서 0.2 사이 입니다. 또한 당신이 k=1000의 타임시리즈를 가지고 있을 때 m은 1만 이나 10만 보다 더 많을 것입니다. 실제로 대표적인 큰 자료에 문제가 발생했을 때 이러한 3개의 요소들(비독립적, 이론적인 r이 0이 아님, 매우 큰 m)의 균형이 깨지게 된다. 나는 온라인 계산기 stattrek를 사용하여 확률을 계산합니다.


결론: 큰 자료 문제를 공략하기 전에 올바른 자료 과학자를 고용한다. 그/그녀는 그도의 기술이 필요가 없으나, 심지어 통계 또는 컴퓨터 과학 알고리즘을 작성하기 전에 모든 실패의 원인을 확인하기 위해 내 위의 논증과 유사한 방법으로 생각할 수 있다. 통계학자가 되는 것은 도움이 되지만, 당신은 통계의 고급 지식을 가질 필요가 없다. 컴퓨터 과학자가 되는 것 또한 당신의 알고리즘 범위를 도와주고 그들을 간단하고 유능하게 만든다. 경영 분석자가 되는 것 또한 문제를 이해하고 해결하는데 도움을 준다. 심지어 사람의 3가지 유형은 훨씬 더 좋다. 그리고 솔직히 이러한 사람들이 존재하지 않고 드물다.


연습:

당신이 3개 임의의 변수 X, Y, Z를 가지고 있을 때 X,Y 의 상관관계는 0.7 이고, X,Z의 상관관계는 0.8 입니다. X, Z의 상관계수는 얼마입니까? 이 상관계수는 음수가 될 수 있습니까?


이글의 원문을 보시려면 여기를 클릭해 주십시오.


(주)에스비아이에스 부설 솔루션 연구소