1 minute read

AI 모델을 개발하는 순서에 관하여


각 단계는 유기적으로 연결되어 있으며, 이전 단계의 결과가 다음 단계에 영향을 미칩니다.
예를 들어, 데이터 수집 단계에서 충분하고 다양한 데이터를 확보하지 못하면 모델의 성능이 저하될 수 있습니다.
따라서 각 단계를 신중하게 수행하는 것이 중요합니다.

  1. 데이터 수집
  2. 데이터 저장
  3. 데이터 전처리
  4. 데이터 분석
  5. 모델 생성



각 과정 설명


데이터 수집(Data Collection)


AI 모델 학습에 필요한 데이터를 다양한 출처에서 모으는 단계입니다.
데이터의 양과 질이 모델 성능에 직접적인 영향을 미치므로, 충분하고 다양한 데이터를 확보하는 것이 중요합니다.

  • 데이터 소스 파악: 웹 크롤링, API, 데이터베이스, 센서 등 다양한 소스를 활용하여 데이터를 수집합니다.
  • 데이터 형식 확인: 텍스트, 이미지, 숫자, 음성 등 다양한 형식의 데이터를 수집하고, 모델에 맞는 형식으로 변환합니다.
  • 데이터 라벨링: 지도 학습의 경우, 데이터에 정확한 레이블을 부여해야 합니다.
    (ex.이미지 분류 모델을 개발할 때, 각 이미지에 해당하는 클래스(고양이, 강아지 등)를 지정)

데이터 저장(Data Storage)


수집된 데이터를 효율적으로 관리하고, 모델 학습 시 빠르게 접근할 수 있도록 저장하는 단계입니다.

  • 저장 공간 선정: 데이터의 크기와 종류에 따라 적절한 저장 공간을 선택합니다. (예: 로컬 저장소, 클라우드 스토리지 등)
  • 데이터 형식: 데이터를 효율적으로 저장하기 위한 적절한 형식을 선택합니다. (예: CSV, JSON, Parquet 등)
  • 데이터베이스: 필요에 따라 관계형 데이터베이스 또는 NoSQL 데이터베이스를 활용하여 데이터를 관리합니다.

데이터 전처리(Data Preprocessing)


모델 학습에 적합하도록 데이터를 가공하는 단계입니다.
이상치, 결측치가 있는지 확인 및 처리하기도 하고 중복되거나 편향된 데이터를 고르게 만드는 작업도 합니다.

  • 데이터 표준화: 데이터의 스케일을 조정하여 모든 특징이 비슷한 범위에 있도록 합니다.
  • 특징 추출: 원본 데이터에서 모델 학습에 유용한 특징을 추출합니다.
  • 차원 축소: 고차원 데이터를 저차원 공간으로 변환하여 계산량을 줄이고, 모델의 복잡도를 낮춥니다.

데이터 분석(Data Analysis)


전처리된 데이터를 여러 관점에서 분석하여 데이터의 특징을 파악하고, 모델 개발에 필요한 정보를 얻는 단계입니다.
시각화 해서 새로운 인사이트를 얻기도 하고 상관관계 분석을 해 feature, target 사이의 관계를 보기도 하는 등 최대한 여러 관점에서 봅니다.

  • 데이터 시각화: 그래프, 히스토그램 등을 활용하여 데이터의 분포를 시각화하고, 이상값이나 패턴을 파악합니다.
  • 통계 분석: 평균, 표준편차, 상관관계 등을 분석하여 데이터의 특징을 수치적으로 파악합니다.

모델 생성(Model Creation)


분석된 데이터를 기반으로 AI 모델을 설계하고 학습시키는 단계로 흔히 알고 있는 AI가 이 단계 입니다.
분석이 끝난 깔끔한 모양의 데이터들을 가지고 어떤 학습 방법을 할지, 어떤 알고리즘을 사용할지등 데이터들을 가지고 실질적인 최고의 결과를 내기위해 노력하는 과정입니다.
알고리즘을 위한 통계, 미분 등 수학적 지식이 많이 필요시 되는 단계입니다.

  • 모델 선택: 문제 유형에 맞는 적절한 모델을 선택합니다. (예: 선형 회귀, 로지스틱 회귀, 신경망 등)
  • 하이퍼파라미터 설정: 모델의 학습률, 에포크 수 등 하이퍼파라미터를 설정합니다.
  • 모델 학습: 학습 데이터를 이용하여 모델을 학습시킵니다.
  • 모델 평가: 검증 데이터를 이용하여 모델의 성능을 평가합니다.


Top