본문 바로가기

빅데이타

월평균기온 및 일평균 사망자수와의 관계 월평균기온 및 일평균 사망자수와의 관계 2000년 1월부터 2014년 12월까지의 기상청 자료의 월평균기온을 조사한 뒤 같은 기간 통계청 자료의 월별 사망자수를 조사하였다. 그리고 월별 사망자수를 각 월별 일수로 나누어서 월별 일평균 사망자수를 계산하였다. 그 결과 사망자수는 해로 갈수록 증가하는 경향을 보인 가운데 기온이 높은 여름철보다 기온이 낮은 겨울철에서 일평균 사망자수가 많은 경향을 보였다. 월평균기온 및 일평균사망자수와의 상관관계를 계산한 결과 -0.67로 음의 상관관계를 보였다. 기온이 낮을수록 사망자수가 증가하는 원인은 겨울철에는 여름철보다 심장질환 및 저체온증 등으로 인해 사망하는 경우가 많은 것으로 풀이된다. 또한 해로 갈수록 사망자수가 증가하는 경향을 보였는데 이는 고령화로 인해 노인.. 더보기
어떻게 무료로 데이터 과학자가 될 수 있는지 어떻게 무료로 데이터 과학자가 될 수 있는지 저자: Nir Goldstein | 2015년 8월 19일 역자: 홍현표, 김종하, 이상헌 통계 분석 및 데이터 수집은 2014년 기준 3억 3천만 LindeIn 멤버 프로필의 LinkedIn 분석에 기초를 둔 최고의 기술이다. 우리는 세계를 주도해 점점 데이터에 살고, 기업은 적극적으로 데이터 저장 및 분석 전문가를 고용하고 있다. 전 세계적으로, 통계 및 데이터 분석 기술이 높게 평가되었다. 특히 이러한 기술은 미국, 인도, 프랑스 등에서 수요가 많다. 데이터 과학은? 데이터 과학자는 데이터의 연구 및 분석을 수행하고 수많은 데이터를 기반으로 성장, 동향 및 비즈니스 통찰력을 예측하는 것을 개선하기 위해 도와준다. 데이터 및 분석 결과로, 상위 데이터 과학.. 더보기
모든 자료 과학자들이 어떻게 사용하는지 알아야 하는7개의 Python 도구들 모든 자료 과학자들이 어떻게 사용하는지 알아야 하는7개의 Python 도구들 저자: Mirko Krivanek | 2015년 7월 19일 19:30 이 기준은 처음에 Dynelle Abeyta에 의한 활력에서 게시되었고, 여러 저자들이 기여했다. 여기서 우리가 제공하는 단어: IPython - IPython은 원래 Python 프로그래밍 언어를 위해 개발된 다수의 프로그래밍 언어에서의 대화형 컴퓨팅 명령 쉘이며, 이것은 향상된 자기 성찰, 리치 미디어, 추가 쉘 구문, 탭 완성 및 풍부한 역사를 제공합니다. GraphLab Create - GraphLab Create는 대규모 고성능 데이터를 빨리 구축하기 위한 C++ 엔진을 뒷받침한 Python 라이브러리 이다. Pandas - 성능, 생산성 및 협력할.. 더보기
소셜 네트워크 분석은 글로벌 파워 엘리트의 대안 목록을 보여준다. 소셜 네트워크 분석은 글로벌 파워 엘리트의 대안 목록을 보여준다. 저자: Dr. Jai Ganesh, 2015년 9월 9일 14:10 역자: 홍현표, 김종하, 이상헌 포브스 매거진은 2009년부터 세계에서 가장 막강한 사람들의 목록을 게시하고 있다. 리스트에 있는 사람의 비율은 전 지구인구의 100만명중 1명 꼴이다. 2009년 리스트에는 69명이었던 것이 2014년에는 72명이 있었다. 포브스에 따르면, 목록은 다른 많은 사람들을 통한 사람(예: Pope Francis, Wal-Mart CEO, Doug McMillon)들의 영향, 사람들에 의해 관리된 금융 자원(예: GDP, 시가총액, 이익, 자산, 수익과 순자산), 여러 분야(Bill Gates)에서의 전력, 사람(Vladimir Putin)에 의.. 더보기
어린이를 위한 분석 몇가지 흥미로운 물건은 당신은 레고의 6-12세 어린이의 분석 생각, 계산의 복잡성 및 실험 설계를 소개하고 분석에서 그들이 관심을 갖게 합니다. 레고의 2 세트(차를 만듬, 또다른 차를 만듬)를 구입하자. 두 집합 사이의 중복성이 상당하다고 가정하자. 당신이 2개의 차를 만들 수 있는 3가지의 다른 방법이 있습니다. 첫번째 단계는 조각의 색깔 및 크기의 분류로 구성되어 있다. 진행하는 3가지 방법은 다음과 같습니다: 순차적: 한번에 하나의 자동차를 구축할 수 있습니다. 이것은 기존의 접근 방식입니다. 세미 병렬 시스템: 동시에 2 세트 종류의 모든 조각. 그리고 첨부된 전단지의 지침에 따라 순차적으로 2대의 차를 구축할 수 있습니다.병행: 동시에 2 세트에서 모든 조각들을 정렬할 수 있고, 동시에 2대.. 더보기
50가지 하둡에 관한 글 자원의 큰 목록 | NoSQL, 큰 자료, 기계 학습 및 그 외 | GitHub Spark를 통해 광범위하고 깊은 학습 네트워크 구현 빅데이타에 대한 상관관계 및 결정계수 [책] 빅데이타 - 확장 가능한 실시간 자료의 원리와 모범 사례 9장 : 오른쪽 NoSQL 툴에서 고르기 2장 : NoSQL 데이터베이스틑 1개를 제외한 모든것에 좋다. Hadoop을 이해하고 배우기 위한 16가지 자원 읽어야 할 8가지의 Hadoop 기사 대규모 자료 세트에 대한 빠른 클러스터링 알고리즘 Hadoop - 누구를 선택 데이타베이스, SQL 혹은 noSQL 이 있어야 하는 11가지 기능 빅데이타: 모든 사람이 알아야 할 4가지 계층 도서: 빅데이타, NoSQL, 클라우드 패러다임의 변화 8장: 그래프 데이터베이스 어떻게 .. 더보기
‘Big Data’ 질문: Hadoop 이냐 Spark냐? 나는 최근 내 고객에 의해 많이 요청받은 하나를 질문합니다: 우리는 우리의 Big Data 체계에 대해 Hadoop 아니면 Spark 해야 하는가? Spark가 가장 활발한 오픈 소스 Big Data 프로젝트로 Hadoop을 잡았다. 그들이 직접 비교할 만한 제품은 아니지만, 그들은 모두 같은 용도로 쓰였다. “Hadoop 대 Spark”의 이슈에 도움이 되기 위해 나는 각각의 본질적인 차이점과 유사점을 설명하는 문서가 유용할 수 있다고 생각했다. 언제나 나는 컴퓨터 과학에 대한 배경지식이 없는 사람들을 포함하여, 나는 모든 사람들에게 접근을 유지하기 위해 노력했다. Hadoop과 Spark 모두 Big Data 골조이다 - 그들은 공통적으로 작업과 관련된 Big Data를 수행하기 위해 가장 많이 사용.. 더보기
어떻게 Hadoop을 시작합니까? Vincent Granville | 2014년 5월 26일 17:37 Perl, R and Python 질문, Hadoop을 시작하는 가장 쉬운 방법은 무엇입니까? 당신은 Windows에 하둡을 설치하셨습니까? 여기에 설명된 절차는 조금 복잡합니다. 당신의 아이폰에서도 Hadoop을 실행할 수 있습니다. 그것은 적어도 초기, 오직 하나의 시스템에서 Hadoop을 사용합니까? 집에서 만든 파일 관리 시스템을 통해 단일 시스템에서 하둡 사용의 이점은 무엇입니까? 유형/크기 및 처리 데이터의 속도에 따라 최적의 Hadoop 구성은 무엇입니까? 다른 방법으로 Hadoop을 비교하는 기준 연구는? Java를 시작하는 방법을 알 필요가 있습니까? 어떻게 하나의 시스템에 여러 클러스터 및 통신망을 시뮬레이션합니까? .. 더보기
빅 데이타의 저주(골칫거리) 무분별한 애플리케이션의 위험성과 과학기술자료의 스케일링을 강조하는 중대산 문서는 문서규모가 작든 크든 잘 작동했다. 우리는 빅데이타의 거래에서의 결함에 대한 문제를 설명하고, 해결책을 제안한다. 또한 우리는 고용 회사가 주장하는 즉 ‘자세한 내용 아래의 “관련기사” 섹션을 참조하라’는 것보다 더 전문 데이터 과학자가 더 풍부하다고 생각한다. 이 문서는 간단한 영어로 작성되어, 매우 짧으며 높은 수준의 의사 결정자에 대한 자료뿐만 아니라 깊은 기술적인 설명이 모두 포함되어 있다.즉, 빅데이타의 저주가 당신이 수십억에서 수조 개의 자료지점 및 수천개의 메트릭으로 되어있는 매무 매우 넓은 데이타 세트의 방식으로 찾기 때문이다. 당신이 더 예측능력이 없는 심지어 더 나쁜, 강한 패턴인전적으로 우연에 의해 발생,.. 더보기
데이타 과학자가 읽어야할 20가지 좋은 글들(Data Science Central 내부 서류) Data Science Central 내부 서류 이글의 원본은 Data Science Central에 올라온 모든 데이타 과학자가 읽어야할 38가지 세미나 기사들의 일부입니다.원본은 http://www.datasciencecentral.com/profiles/blog/list?user=18dbktubfz01d 에서 보실 수 있습니다. 1. 어떻게 가짜 상관 관계를 감지하고, 어떻게 진실의 하나를 찾는지...자동화된 자료2. 과학: 신뢰 구간 3. 과학 자료와 비교한 16개의 분석 분야4. 3차원으로부터: 360도 과학 자료5. 10가지의 회귀 중 어느 하나를 선택할 것인가?6. 실제 자료에서의 지도 축소(Hadoop 스타일)의 실제 그림 7. 클러스터링 및 예측에 대한 잭나이프 로지스틱 및 선형 회귀8... 더보기