본문 바로가기

빅데이타

어린이를 위한 분석 몇가지 흥미로운 물건은 당신은 레고의 6-12세 어린이의 분석 생각, 계산의 복잡성 및 실험 설계를 소개하고 분석에서 그들이 관심을 갖게 합니다. 레고의 2 세트(차를 만듬, 또다른 차를 만듬)를 구입하자. 두 집합 사이의 중복성이 상당하다고 가정하자. 당신이 2개의 차를 만들 수 있는 3가지의 다른 방법이 있습니다. 첫번째 단계는 조각의 색깔 및 크기의 분류로 구성되어 있다. 진행하는 3가지 방법은 다음과 같습니다: 순차적: 한번에 하나의 자동차를 구축할 수 있습니다. 이것은 기존의 접근 방식입니다. 세미 병렬 시스템: 동시에 2 세트 종류의 모든 조각. 그리고 첨부된 전단지의 지침에 따라 순차적으로 2대의 차를 구축할 수 있습니다.병행: 동시에 2 세트에서 모든 조각들을 정렬할 수 있고, 동시에 2대.. 더보기
50가지 하둡에 관한 글 자원의 큰 목록 | NoSQL, 큰 자료, 기계 학습 및 그 외 | GitHub Spark를 통해 광범위하고 깊은 학습 네트워크 구현 빅데이타에 대한 상관관계 및 결정계수 [책] 빅데이타 - 확장 가능한 실시간 자료의 원리와 모범 사례 9장 : 오른쪽 NoSQL 툴에서 고르기 2장 : NoSQL 데이터베이스틑 1개를 제외한 모든것에 좋다. Hadoop을 이해하고 배우기 위한 16가지 자원 읽어야 할 8가지의 Hadoop 기사 대규모 자료 세트에 대한 빠른 클러스터링 알고리즘 Hadoop - 누구를 선택 데이타베이스, SQL 혹은 noSQL 이 있어야 하는 11가지 기능 빅데이타: 모든 사람이 알아야 할 4가지 계층 도서: 빅데이타, NoSQL, 클라우드 패러다임의 변화 8장: 그래프 데이터베이스 어떻게 .. 더보기
‘Big Data’ 질문: Hadoop 이냐 Spark냐? 나는 최근 내 고객에 의해 많이 요청받은 하나를 질문합니다: 우리는 우리의 Big Data 체계에 대해 Hadoop 아니면 Spark 해야 하는가? Spark가 가장 활발한 오픈 소스 Big Data 프로젝트로 Hadoop을 잡았다. 그들이 직접 비교할 만한 제품은 아니지만, 그들은 모두 같은 용도로 쓰였다. “Hadoop 대 Spark”의 이슈에 도움이 되기 위해 나는 각각의 본질적인 차이점과 유사점을 설명하는 문서가 유용할 수 있다고 생각했다. 언제나 나는 컴퓨터 과학에 대한 배경지식이 없는 사람들을 포함하여, 나는 모든 사람들에게 접근을 유지하기 위해 노력했다. Hadoop과 Spark 모두 Big Data 골조이다 - 그들은 공통적으로 작업과 관련된 Big Data를 수행하기 위해 가장 많이 사용.. 더보기
어떻게 Hadoop을 시작합니까? Vincent Granville | 2014년 5월 26일 17:37 Perl, R and Python 질문, Hadoop을 시작하는 가장 쉬운 방법은 무엇입니까? 당신은 Windows에 하둡을 설치하셨습니까? 여기에 설명된 절차는 조금 복잡합니다. 당신의 아이폰에서도 Hadoop을 실행할 수 있습니다. 그것은 적어도 초기, 오직 하나의 시스템에서 Hadoop을 사용합니까? 집에서 만든 파일 관리 시스템을 통해 단일 시스템에서 하둡 사용의 이점은 무엇입니까? 유형/크기 및 처리 데이터의 속도에 따라 최적의 Hadoop 구성은 무엇입니까? 다른 방법으로 Hadoop을 비교하는 기준 연구는? Java를 시작하는 방법을 알 필요가 있습니까? 어떻게 하나의 시스템에 여러 클러스터 및 통신망을 시뮬레이션합니까? .. 더보기
빅 데이타의 저주(골칫거리) 무분별한 애플리케이션의 위험성과 과학기술자료의 스케일링을 강조하는 중대산 문서는 문서규모가 작든 크든 잘 작동했다. 우리는 빅데이타의 거래에서의 결함에 대한 문제를 설명하고, 해결책을 제안한다. 또한 우리는 고용 회사가 주장하는 즉 ‘자세한 내용 아래의 “관련기사” 섹션을 참조하라’는 것보다 더 전문 데이터 과학자가 더 풍부하다고 생각한다. 이 문서는 간단한 영어로 작성되어, 매우 짧으며 높은 수준의 의사 결정자에 대한 자료뿐만 아니라 깊은 기술적인 설명이 모두 포함되어 있다.즉, 빅데이타의 저주가 당신이 수십억에서 수조 개의 자료지점 및 수천개의 메트릭으로 되어있는 매무 매우 넓은 데이타 세트의 방식으로 찾기 때문이다. 당신이 더 예측능력이 없는 심지어 더 나쁜, 강한 패턴인전적으로 우연에 의해 발생,.. 더보기
데이타 과학자가 읽어야할 20가지 좋은 글들(Data Science Central 내부 서류) Data Science Central 내부 서류 이글의 원본은 Data Science Central에 올라온 모든 데이타 과학자가 읽어야할 38가지 세미나 기사들의 일부입니다.원본은 http://www.datasciencecentral.com/profiles/blog/list?user=18dbktubfz01d 에서 보실 수 있습니다. 1. 어떻게 가짜 상관 관계를 감지하고, 어떻게 진실의 하나를 찾는지...자동화된 자료2. 과학: 신뢰 구간 3. 과학 자료와 비교한 16개의 분석 분야4. 3차원으로부터: 360도 과학 자료5. 10가지의 회귀 중 어느 하나를 선택할 것인가?6. 실제 자료에서의 지도 축소(Hadoop 스타일)의 실제 그림 7. 클러스터링 및 예측에 대한 잭나이프 로지스틱 및 선형 회귀8... 더보기
모든 데이타 과학자들이 읽어야할 18가지 주옥 같은 글들 이글의 원본은 Data Science Central에 올라온 모든 데이타 과학자가 읽어야할 38가지 세미나 기사들의 일부입니다. 원본은 http://www.datasciencecentral.com/profiles/blog/list?user=18dbktubfz01d 에서 보실 수 있습니다. 여기는 과학자료 및 큰 자료의 다양한 기술적인 측면에 초점을 맞춘 내부 및 외부 모두를 포함하여 선택합니다. 즐겨찾기를 자유롭게 추가하시기 바랍니다. 1. BigTable: 구조화된 자료를 위한 분산 저장소(스토리지) 시스템 2. 기계학습(머신러닝)에 관한 알기 위한 약간의 유용한 것들 3. 임의적 산림(Forests) 4. 큰 공유 데이타 은행을 위한 데이타의 관계형 모델 5. 다중 코어상의 기계학습을 위한 Map-R.. 더보기
Big Data : 모두가 알았으면 하는 20가지 무료 Big Data 소스 Big Data 나는 항상 모든 지점의 자료를 만든다. 회사는 큰 자료 분석을 시작하기 전에 자신의 거대한 데이터 저장소를 구축할 필요가 없다. 기업과 정부의 움직임은 공공 도메인으로 많은 양의 정보를 넣어 모든 사람에게 접근하여 많은 양의 자료를 만들었습니다. 큰 우량 기업이든 소규모 기업이든 지금 그 어느 때보다 더 많은 자료를 활용할 수 있다. 많은 나의 고객들이 상부 자료 소스에 대해 나에게 물었고 그들은 그들의 큰 자료결과를 사용할 수 있으며, Data.gov http://data.gov 미국 정부는 자유롭게 온라인으로 모든 정부 데이터를 사용할 수 있도록하기 위해 작년에 약속했다. 이 사이트는 초기 단계이고, 기후에서 범죄에 이르기까지 모든 종류의 정보에 대한 포털 역할을 합니다. US Cen.. 더보기