전체 글
-
CUDA란?<Research>/[용어정리] 2023. 3. 15. 13:44
CUDA (Compute Unified Device Architecture)는 NVIDIA에서 개발한 병렬 컴퓨팅 플랫폼과 프로그래밍 모델입니다. CUDA를 사용하면 NVIDIA GPU를 사용하여 병렬 컴퓨팅 작업을 수행할 수 있습니다. 일반적으로 CPU는 순차적인 작업을 수행하는데 비해, GPU는 대량의 데이터를 동시에 처리할 수 있으므로 병렬 처리에 더 적합합니다. CUDA는 이러한 GPU의 병렬 컴퓨팅 능력을 활용하여 대규모 데이터 처리, 과학 및 엔지니어링 시뮬레이션, 그래픽스, 인공지능 및 딥 러닝 등 다양한 분야에서 높은 성능을 제공합니다. CUDA는 C, C++, Python 등의 프로그래밍 언어로 작성된 애플리케이션에서 사용될 수 있으며, CUDA C 또는 CUDA C++라는 NVIDIA에..
-
[캐글] Nested and Repeated Data 정답<Kaggle-Course> 2023. 3. 13. 18:49
Introduction Now that you know how to query nested and repeated data, you're ready to draw interesting insights from the GitHub Repos dataset. Before you get started, run the following cell to set everything up. # Set up feedback system from learntools.core import binder binder.bind(globals()) from learntools.sql_advanced.ex3 import * print("Setup Complete") Exercises 1) Who had the most commits..
-
파이썬 Pandas DataFrame .fillna, .interpolate<Python>/[DataFrame] 2023. 3. 8. 17:44
1. Upsampling으로 주기 변환 시 생기는 결측값을 채우는 방법 (Filling forward/backward) Upsampling은 시계열 데이터의 빈도를 증가시키는 기법으로, 일반적으로 데이터 포인트가 적은 낮은 주기에서 높은 주기로 변환할 때 사용됩니다. 하지만 이렇게 주기를 변환할 때 결측값이 발생할 수 있습니다. 이러한 결측값을 채우는 방법 중 하나는 Forward Filling과 Backward Filling입니다. Forward Filling은 이전 데이터 포인트의 값을 그대로 사용하여 결측값을 채우는 방법입니다. 즉, 결측값 이전의 가장 최근의 데이터 포인트의 값을 사용합니다. 이 방법은 주기 변환이 발생하는 시계열 데이터에 적용하기 좋습니다. 이유는 이전의 값이 현재 값과 비슷하게..
-
파이썬 Pandas DataFrame .digitze vs .cut<Python>/[DataFrame] 2023. 3. 8. 17:14
연속형 변수를 범주화하는 방법 중에는 여러 개의 구간으로 나누어 각 구간을 하나의 범주로 만드는 방법이 있습니다. 이번에는 np.digitize()와 pd.cut() 두 가지 함수를 이용하여 연속형 변수를 여러 개의 구간별로 범주화하는 방법에 대해 알아보겠습니다. np.digitize()를 이용한 연속형 변수의 여러개 구간별 범주화 np.digitize() 함수는 연속형 변수를 구간별로 범주화하는 데에 유용한 함수입니다. 이 함수는 입력값인 X와 구간을 정의한 bins를 받아 X의 각 값이 몇 번째 구간에 속하는지 반환합니다. 예를 들어, 아래와 같은 데이터프레임이 있다고 가정해봅시다. import numpy as np import pandas as pd df = pd.DataFrame({'A': [1,..
-
파이썬 Pandas DataFrame 칼럼별 결측값 대체<Python>/[DataFrame] 2023. 3. 8. 17:10
데이터프레임에는 여러 개의 칼럼이 존재할 수 있습니다. 각각의 칼럼은 다양한 방식으로 결측값이 처리될 수 있습니다. 이번에는 데이터프레임의 여러 개의 칼럼에 대해 결측값을 다르게 대체하는 방법에 대해 알아보겠습니다. 데이터프레임의 여러 개의 칼럼에 대해 결측값을 다르게 대체하는 방법은 크게 두 가지로 나눌 수 있습니다. 첫 번째 방법은 각각의 칼럼에 대해 개별적으로 대체하는 것이고, 두 번째 방법은 특정 규칙을 적용하여 모든 칼럼에 대해 일괄적으로 대체하는 것입니다. 1. 각각의 칼럼에 대해 개별적으로 대체하기 데이터프레임의 각각의 칼럼에 대해 개별적으로 결측값을 대체하는 방법은 fillna() 메소드를 이용하는 것입니다. fillna() 메소드를 이용하여 각 칼럼에 대해 개별적으로 결측값을 대체할 수 ..
-
파이썬 Pandas DataFrame .iter<Python>/[DataFrame] 2023. 3. 8. 16:48
DataFrame에서 데이터를 반복(iterate)하며 처리할 때, Pandas는 다음과 같은 방법들을 제공합니다. pd.DataFrame.iterrows() : 행에 대해 순환 반복 DataFrame의 인덱스와 각 행의 데이터를 순환적으로 반환 데이터를 수정할 경우, 매우 느릴 수 있음 예시 : for index, row in df.iterrows(): pd.DataFrame.iteritems() : 열에 대해 순환 반복 DataFrame의 칼럼 이름과 각 열의 데이터를 순환적으로 반환 대용량 데이터에 유용함 예시 : for col_name, series in df.iteritems(): pd.DataFrame.itertuples() : 이름이 있는 튜플 (인덱스, 행, 열) 에 대해 순환 반복 Dat..
-
파이썬 Pandas DataFrame .sample<Python>/[DataFrame] 2023. 3. 8. 16:39
데이터 분석에서는 주어진 데이터에서 표본을 추출하는 경우가 많이 있습니다. 이를 위해 pandas 라이브러리를 사용하여 DataFrame으로부터 무작위로 표본을 추출할 수 있습니다. 이를 위한 여러가지 방법들을 살펴보겠습니다. 1. DataFrame으로부터 특정 개수의 표본을 무작위로 추출하기 (number) pandas 라이브러리의 sample() 메서드를 사용하면 DataFrame으로부터 무작위로 특정 개수의 표본을 추출할 수 있습니다. n 인자에 추출하고자 하는 표본의 개수를 지정합니다. import pandas as pd df = pd.read_csv('data.csv') sampled_df = df.sample(n=100) 2. DataFrame으로부터 특정 비율의 표본을 무작위로 추출하기 (f..
-
파이썬 Pandas DataFrame 칼럼 다루기<Python>/[DataFrame] 2023. 3. 8. 16:29
pandas DataFrame에서 칼럼을 다루는 방법에 대해 알아보겠습니다. 이 글에서는 다음과 같은 내용을 다룹니다. pandas DataFrame의 칼럼 이름 확인하기 pandas DataFrame에서 특정 칼럼 포함 여부 확인하기 pandas DataFrame에서 특정 칼럼 선택하기 pandas DataFrame에서 특정 칼럼 제외하기 pandas DataFrame 칼럼 이름 바꾸기 pandas DataFrame의 칼럼 이름 확인하기 1. DataFrame의 칼럼 이름을 확인하려면 df.columns를 사용합니다. 아래 코드를 실행하면 DataFrame df의 칼럼 이름을 확인할 수 있습니다. print(df.columns) pandas DataFrame에서 특정 칼럼 포함 여부 확인하기 DataF..