본문 바로가기

Misc

24.02.07 Upstage AI Lab 3기 설명회

24.02.07 업스테이지 AI Lab 설명회

1. AI 학습법

인공지능의 시대에서 살아남는 법 / AI 학습에 최적화된 시기 / 프로젝트 및 경진대회

AI 트랜드

  • 하드웨어의 발달으로 이론이 실체화되는 중

    • 딥러닝 학습 비용이 매년 1/10으로 감소
    • 연산 처리 능력이 무어의 법칙을 넘어 빠르게 성장중
  • 생성형 AI가 다양한 분야에서 성장중

    • 오디오, 비디오, 이미지, 코드 생성
    • 10년 후 1700조 규모 예상

AI 학습법

  1. Python 학습

  2. 모델 생성 학습

  3. 문제 풀이 학습

  • 기존 연구된 이론과 라이브러리 응용

Upstage AI Lab

AI 입문 강의 (3개월??)

  • 이론
    • Python
      • 파이썬 기초 문법
      • 파이썬 심화 프로젝트 (API 활용)
      • 기초 통계 및 수학 (집합, 확률, 분포, 회귀분석)
    • Python EDA (머신러닝)
      • 데이터 전처리 및 모델링
  • 실무
    • 머신러닝 프로젝트 진행

AI 심화 강의 (4개월)

  • 이론
    • 각 분야의 전문가 강사진
    • Basic / Advanced로 나눈 강의 구성
    • CV
    • NLP
    • OCR / RecSys / Anomaly Detection / ...
  • 실무
    • 내부 경진대회

2. AI 트렌드 변화

ML -> LLM으로의 트랜드 변화 / 학습 커리큘럼

LLM으로 온 Reset Moment

  • 기존의 AI
    • 규칙 기반의 학습
    • 통계 기반의 학습 (확률)
    • 머신러닝 (기계가 스스로 패턴을 파악)
      • 목적에 맞는 학습 데이터셋
      • 기기별로 다른 모델 필요
  • 딥러닝, LLM
    • 트랜스포머 기반 신경망
    • 멀티모달
      • 모델 하나로 여러 기능을 해결할 수 있음
      • 생성형 AI
      • 초거대 언어 모델에 적절한 프롬포트를 주면 다양한 기능을 수행
    • 범용성, 설명, 상호작용 등의 측면에서 사용자 경험 변화

AI 공부

  • CS 전공? 대학원?
  • 기존 교육과 실무가 동떨어진 부분
    • 기존 교육은 모델링에 초점
    • CS지식, 모델링도 분명히 중요한 부분
    • 실무에서는 MLOps가 중요한 요소
      • Governance의 문제
      • 모델의 편향성, 투명성
      • 데이터 출처
  • 인공지능 관련 직군에는 데이터 과학자만 있는것은 아님
    • 단, 모델링에 관한 지식이 기반

Upstage AI Lab에서 얻어갈 수 있는 것들

  1. PBL, 경진대회로 문제를 정의하고 해결하는 능력을 기를 수 있음
  2. 전통적인 방법론부터 차근차근 파악
    • ex. 자연어 처리는 오래된 분야. 규칙 기반 방법론부터 딥러닝까지 차근차근 학습하면 더 넓고 깊은 이해
  3. 으악 놓쳤다...

LLM이 가져온 혼란

  • 기존 사업 분야의 소멸 - LLM으로 전환?

    • 문서요약 분야, 번역 분야의 축소
    • 새로운 포탈의 등장
  • 학계 - 연구 주제, 인프라 구축?

  • 데이터 관련 직무 - 모델링의 시대는 끝났는가? 합성 데이터가 사람을 대체할 것인가?

  • 생태계의 변화

    • 모바일 앱에서 슈퍼앱으로
    • 슈퍼앱에서 AI 앱으로
    • Next? Super AI?

But, 본질인 PS는 변하지 않았다.

  • 문제 정의
  • 해결 전략 도출

경쟁력을 얻으려면 문제해결의 본질을 잊지 않으면서 노오력, 더욱 더 노력해야한다!!

Q&A

  • 파인튜닝과 프롬포트 엔지니어링
    • 파인튜닝은 가중치(Weight)을 변경 - 모델을 변경
    • 프롬포트 엔지니어링은 모델에는 영향 X, 자연어로 쿼리하는 내용을 구체화
  • 데이터, 모델 관련 노하우
    • 기업이 잘 공개하지 않음 - 논문에서도 모델의 세부적인 정보는 잘 안 알려줌
    • ex. OpenAI - Closed AI
    • 다양한 전처리 기법
  • Private LLM vs Open LLM
    • Closed LLM - Weight 정보들이 공개되지 않음
    • Private LLM - Open LLM 기반으로 파인튜닝하여 기업에 납품
    • 앞으로 어떻게 될지는... 모름!
  • AI 리서쳐(모델러) / AI 엔지니어, 어느 직종이 유망한가
    • 어느 기업이 LLM을 독점하게 될 것
    • 두 직군 모두 중요
    • LLM이 독점되더라도 모델을 수정하는 과정은 필요할 것
  • '추가적인 노력'이란?
    • 기본적인 코딩 역량
    • CS 기반지식 학습
    • 강의에서 그치지 않고, 관련 논문 읽어보며 계속 학습
  • AI 경량화?
    • 다양한 기법이 존재(Quantanization, Pruning, ...)
    • 기업에 전담하는 인력들이 있음
  • 'RAG' 모델의 학습방법
    • 자연어 처리와 밀접한 모델
    • 자연어 처리에서의 정보탐색 기법을 학습
  • Problem Solver가 되기 위한 방법
    • 하나를 깊게 하는 것도 필요,
    • 다양한 분야를 하는 것도 필요
    • 결론은 둘 다 필요하다! ㅎㅎ
  • LLM 추론을 위한 인프라 구축
    • 구체적인 사항은 공개 불가능
    • 많은 수의 GPU 사용
    • 인프라에 많은 투자중
  • LLM을 위한 언어학?
    • 언어학도 중요하지만...
    • 모델링, 수학적 능력도 중요
    • Data-Centric, Model-Centric? 둘 다 알아야 함
  • 석사학력은 필수인가?
    • 학력은 필수가 아니라고 생각
    • 학계로 간다면 필수이긴 하지만, 업계에서는 그것 말고도 코딩 등을 봄
  • 비전공자가 알아야 할 수학
    • 확률통계, 선형대수학

3. AI 취업 방법

취업 준비 / 현업에서의 일

AI 관련 직무/직군

수집 관련

  • Data Engineer
    • 데이터 수집, 처리를 위한 시스템 구축
    • 데이터 수집 -> 데이터 정재 -> DB 저장

분석 관련

  • Data Analyst
    • 데이터 분석, 인사이트 제공
    • 대시보드 생성 -> KPI 설계 및 모니터링
    • 시각화, 의사소통 등 비즈니스 역량 중요
  • Data Scientist
    • 데이터 처리, 분석 모델 구축
    • 데이터 분석 -> 통계 모델링
    • Data Analyst보다는 수학적, 통계적 역량 중요

모델 관련

  • ML/DL Engineer
    • 딥러닝 모델을 개발 및 배포
    • 모델 개발 -> 배포 + 모델 개선
    • ML 모델, 코딩과 관련된 역량 중요

ML/DL 엔지니어의 업무

  • 데이터 (EDA)
    • LLM의 등장으로 엔지니어가 데이터를 잘 다루는 것이 중요해지고 있음
    • 데이터 정제
      • 노이즈 제거
      • Feature Selection
      • 학습셋/평가셋 분리
    • 데이터 분석
    • 합성데이터 생성
  • 모델
    • 문제 정의
    • 문헌 조사
      • 논문 뿐 아니라 Keggle, 경진대회도 참고
    • 학습 및 평가(오프라인 테스트)
    • 오픈 모델 파인튜닝
    • 성능 지표 선정, 측정
    • 성능 개선
  • 결과 (납품, 피드백)
    • 데모 페이지 개발
    • 결과 분석(온라인 테스트) 및 개선

신입 엔지니어의 주요 역량

  • 수학
  • ML/DL 지식, 구현
  • 문제 정의, 문제 해결 역량
  • 연구 능력
  • 의사소통, 협엽
  • 글쓰기, 최신 지식 습득
    • 포트폴리오로 블로그 제출시, (1) 꾸준히 썼는지와 (2) 최신 기술들이 있는지를 위주로 봄

사실 JD를 보는게 제일 확실함. 공통적으로 보는 것은... 협업과 의사소통

JD에 따른 역량을 서류와 면접에서 강조하는 것이 필요.