python에서는 데이터에 대한 분석을 위해 아래와 같은 과학/분석툴을 제공중입니다.
1. NumPy
사용자 데이터를 다차원 배열에 저장하는 기능을 제공하며, 해당 배열에 여러가지 수학적인 연산이 가능함
데이터에 과학적 탐구 및 문제를 풀기 위해 벡터와 행렬 기능을 제공함으로 빠른 행렬 연산이 가능함
1) website : http://www.numpy.org
2) 설치
pip install numpy
2. SciPy
NumPy에 선형 대수학, 희소 행렬, 신호 및 이미지 처리, 최적화, 고속 푸리에 변환 등 다양한 수학적 알고리즘 제공
1) website : http://www.scipy.org
2) 설치
pip install scipy
3. pandas
NumPy와 SciPy에서 할수 없는 다른 기능들을 제공하며, 데이터를 DataFrame과 Series라는 구조로 저장하여
slice, dice, missing elements 처리, add, rename, aggregate, reshape 기능들을 제공하며, 데이터에 대한 visualize도
제공함.
1) website : http://pandas.pydata.org/
2) 설치
pip install pandas
4. Scikit-learn
SciKits(SciPy)에 toolkits으로 시작하여, data preprocessing, supervised and unsupervised learning, model selection,
validation, error metrics과 같은 머신러닝 기능을 제공함
1) website : http://scikit-learn.org/stable/
2) 설치
pip install scikit-learn
5. IPython
데이터에 대해 과학적 문제 접근 방식은 재현 가능한 방법으로 여러가지 다른 방법으로 빠르게 실험 및 테스트를 진행
해야 합니다. 이런 것을 제공하기 위해 web brower 기반으로 UI 제공
1) website : http://ipython.org/
2) 설치
pip install "ipython[notebook]"
6. Matplotlib
데이터 배열로부터 여러가지 고품질에 visualize할수 있는 차트등에 기능을 제공함
1) website: http://matplotlib.org/
2) 설치
pip install matplotlib
7. Beautiful Soup
Web site(HTML, XML) 사이트를 내용을 파싱하여 데이터 수집할수 있는 기능을 제공함
웹 사이트로부터 다양한 정보를 수집하여 배열 또는 행렬로 데이터를 만들어 분석할수 있는 기회를 제공
1) website : https://www.crummy.com/software/BeautifulSoup/
2) 설치
pip install beautifulsoup4
8. NLTK
text를 tokenizer등 자연어 처리에 대한 기능을 제공
1) webstie : http://www.nltk.org/
2) 설치
pip install nltk
9. Gensim
대용량에 text를 vector로 전환하기 위한 병렬 배포 알고리즘 기능을 제공하는 것으로 LSA/LDA, 구글 word2vec등
강력한 알고리즘 제공
(해당 vector데이터를 머신러닝에 지도학습 또는 비지도 학습에 사용)
1) website : http://radimrehurek.com/gensim/
2) 설치
pip install gensim
10. keras
TensorFlow, CNTK, Threano 기반으로 동작하는 머신 러닝 라이브러리 (high-level neural networks API 제공)
1) website: https://keras.io
2) 설치
pip install keras
(기존에 TensorFlow, CNTK, Threano 라이브러리가 미리 설치 되어 있어야 함)
'Language > python' 카테고리의 다른 글
pip local storage (0) | 2019.09.10 |
---|---|
python code test (0) | 2019.09.04 |
grpc with python (0) | 2019.05.09 |
python performance and optimization (0) | 2019.03.29 |
timestamp and timezone (0) | 2019.03.29 |