본문 바로가기

빅데이타

모든 자료 과학자들이 어떻게 사용하는지 알아야 하는7개의 Python 도구들

모든 자료 과학자들이 어떻게 사용하는지 알아야 하는7개의 Python 도구들

저자: Mirko Krivanek | 2015년 7월 19일 19:30

이 기준은 처음에 Dynelle Abeyta에 의한 활력에서 게시되었고, 여러 저자들이 기여했다.

여기서 우리가 제공하는 단어:

IPython - IPython은 원래 Python 프로그래밍 언어를 위해 개발된 다수의 프로그래밍 언어에서의 대화형 컴퓨팅 명령 쉘이며, 이것은 향상된 자기 성찰, 리치 미디어, 추가 쉘 구문, 탭 완성 및 풍부한 역사를 제공합니다.

GraphLab Create - GraphLab Create는 대규모 고성능 데이터를 빨리 구축하기 위한 C++ 엔진을 뒷받침한 Python 라이브러리 이다.

Pandas - 성능, 생산성 및 협력할 수 있는 능력이 우수한 Python으로 데이터 분석을 수행하기 위한 환경으로 우수한 IPython 툴킷 및 그 외 라이브러리와 결합하였다. Pandas는 선형 및 패널 회귀 이외의 중요한 모델링 기능을 구현하지 않는다.(예: 통계 모델을 보고 배우기) 더 많은 작업은 여전히 Python에게 최고 수준의 통계적 모델링 환경을 만드는데 필요하며, 그러나 우리는 그 목표를 향한 것이 우리의 방법에 있다.

PuLP - 선형 프로그래밍

Matplotlib

Scikit-Learn - Scikit-Learn은 데이터 수집 및 데이터 분석을 위한 간단하고 효율적이다. 이것은 NumPy, SciPy 및 mathplotlib 에서 세워졌다. Scikit-Learn은 다음과 같은 기능을 가지고 있다:  분류, 회귀, 클러스터링, 차원 축소, 모델 선택, 전처리

스파크 - 분산프로그래밍을 위함