728x90
반응형
Pandas
데이터 조작 및 분석을 위한 Python 라이브러리이다.
특히 data frame(데이터 프레임)을 사용하여 테이블 형식의 데이터를 쉽게 다룰 수 있도록 도와준다.
데이터 불러오기, 정리, 변환, 분석 등의 작업을 효율적으로 수행 가능하다.
- 주요 기능
- 데이터 읽기 및 쓰기 (CSV, Excel, SQL 등)
- 데이터 정리 및 변환
- 데이터 필터링 및 선택
- 그룹화 및 집계
- 시계열 데이터 분석
# 설치
pip install pandas
# import
import pandas as pd
# CSV 파일 읽기
df = pd.read_csv('filename.csv')
# 데이터 프레임의 첫 몇 행 보기
print(df.head())
Requests
HTTP 요청을 보내기 위한 Python 라이브러리이다.
웹 페이지에서 데이터를 가져오거나 API와 통신할 때 주로 사용된다.
간단한 인터페이스로 GET, POST 등의 HTTP 요청을 쉽게 보낼 수 있다.
- 주요 기능
- GET, POST, PUT, DELETE 등의 HTTP 요청 보내기
- 요청 헤더 및 파라미터 설정
- 응답 데이터 처리 (TXT, JSON 등)
# 설치
pip install requests
# import
import requests
# GET 요청 보내기
response = requests.get('https://api.example.com/data')
# 응답 데이터 출력
print(response.text)
BeautifulSoup
HTML 및 XML 파일을 파싱하고 데이터를 추출하기 위한 Python 라이브러리이다.
웹 스크레이핑을 할 때 주로 사용된다.
HTML 문서에서 원하는 요소를 쉽게 찾고 조작 가능하다.
✅웹 스크레이핑(Web Scraping)
웹 페이지의 특정 데이터를 추출하는 작업이다.
주로 HTML 문서에서 필요한 정보를 가져와서 구조화된 데이터로 변환하는 과정이다.
예를 들어, 특정 웹 페이지에서 제품의 이름, 가격, 리뷰 등을 추출하는 작업이 스크레이핑에 해당한다.
- 주요 기능
- HTML/XML 파싱
- 태그 및 속성으로 요소 찾기
- 텍스트 추출 및 정리
- 네비게이션 및 탐색
# 설치 1
pip install beautifulsoup4
pip install lxml
# 또는 설치 2
pip install html5lib
## BeautifulSoup4를 설치할 때는 beautifulsoup4와 HTML 파서를 위한 lxml
## 또는 html5lib을 함께 설치하는 것이 일반적이다.
# import
from bs4 import BeautifulSoup
# HTML 문서 파싱
soup = BeautifulSoup('<html><body><h1>Title</h1></body></html>', 'html.parser')
# 태그로 요소 찾기
title = soup.find('h1').text
print(title)
Openpyxl
엑셀 파일을 읽고 쓰기 위한 Python 라이브러리이다.
주로 .xlsx 형식의 엑셀 파일을 다룰 때 사용된다.
데이터를 읽고 쓰는 것 외에도 셀의 스타일, 수식, 차트 등을 조작할 수 있다.
- 주요 기능
- 엑셀 파일 읽기 및 쓰기
- 셀 값 읽기 및 쓰기
- 셀 스타일 및 포맷 설정
- 차트 생성 및 수정
# 설치
pip install openpyxl
# import
import openpyxl
# 엑셀 파일 열기
wb = openpyxl.load_workbook('filename.xlsx')
# 활성화된 시트 선택
sheet = wb.active
# 셀 값 읽기
cell_value = sheet['A1'].value
print(cell_value)
# 셀 값 쓰기
sheet['A2'] = 'Hello, Excel!'
# 엑셀 파일 저장
wb.save('filename.xlsx')
728x90
반응형
'[Language] > Python' 카테고리의 다른 글
[Window] Python 3.12.4 & VSC & Pandas 설치 (0) | 2024.06.20 |
---|---|
[Mac/Python] Version 확인 (0) | 2024.01.06 |
[Jupyter Notebook] data 날짜순 정렬 (0) | 2022.07.28 |
[Jupyter Notebook] Index 제거 후 CSV 파일 저장 (0) | 2022.07.28 |
Pip LightGBM : OSError (0) | 2022.07.26 |