[AI의 JOB카툰] 데이터라벨러, AI가 이해하기 쉽도록 데이터를 가공하는 전문가

박진영 기자 입력 : 2024.12.14 07:31 ㅣ 수정 : 2024.12.14 07:31

사진‧동영상‧음원 파일에 포함된 정보를 라벨링
전문 교육 기관에서 라벨러 교육 수료 후 업무 시작
디지털 뉴딜 정책 등에 힘입어 일자리 수요 늘어나

  • 카카오스토리
  • 네이버밴드
  • 페이스북
  • 트위터
  • 글자크게
  • 글자작게
image
데이터라벨러(data labeler)는 인공지능(AI)이 학습 데이터를 쉽게 인식할 수 있도록 사진‧동영상‧사운드 파일에 등장하는 사물‧동식물‧단어 등에 라벨을 입력하는 업무를 수행한다. [일러스트=미드저니, 편집=박진영 기자 / Made by A.I]

 

[뉴스투데이=박진영 기자] 데이터라벨러(data labeler)는 인공지능(AI)이 학습 데이터를 쉽게 인식할 수 있도록 전처리를 담당한다. 사진과 동영상, 사운드 파일에 등장하는 사물이나 동식물, 특정 단어 등에 라벨(label, 정보 표식)을 입력하는 작업이다.

 

데이터라벨러가 되기 위해서는 특별한 학력이나 경력, 자격은 필요 없으며 전문 기관에서 데이터 라벨링(Data Labeling) 교육을 받아야 한다.

 

데이터 라벨링은 자동화 작업이 어려우므로 사람이 직접 수행해야 한다. 정부의 디지털 뉴딜 정책 발표와 AI 학습용 데이터 구축 사업 등에 힘입어 데이터라벨러의 일자리는 점차 많아질 것으로 보인다.

 

■ ‘데이터라벨러’가 하는 일은?

 

데이터라벨러가 일하는 방식은 기존 데이터에 대해 라벨링을 하는 것이 일반적이다. 기존 데이터가 없는 경우에는 사진 촬영이나 음성녹음 방식 등을 통해 새로운 정성 데이터를 제작해 라벨링하고, 온라인 플랫폼에 업로드 작업을 수행한다. 

 

작업 유형은 데이터에 따라 이미지, 영상, 텍스트, 음성 등 네 가지로 분류한다. 이미지 데이터 라벨링의 경우, 정해진 대상을 휴대폰으로 촬영해 업로드하고, 이미지에서 정해진 대상을 드래그(drag)해 박스를 그리는 프로젝트, 대상의 특정 부위에 점을 찍어 표시하는 스켈레톤(skeleton, 뼈대) 추출, 이미지의 감정을 추론해 태깅(tagging, 콘텐츠 내용을 대표할 수 있는 태그를 다는 일)하는 등의 업무를 수행한다.

 

대부분의 데이터 라벨링은 작업의 난이도가 낮아 라벨링 업체나 기관의 간단한 교육만으로 업무 수행이 가능하다. 다만, 의사가 라벨링을 하는 의료영상 라벨링 등은 전문성의 수준과 작업조건 등이 다를 수 있다. 

 

데이터 라벨링 분야에는 직접 라벨(정보 표식)을 다는 라벨러 외에 작업한 결과물을 검수하는 ‘데이터라벨링검수원(품질관리원)’도 있다.

 

■ ‘데이터라벨러’가 되는 법은?

 

데이터라벨러가 되기 위해 요구되는 학력이나 경력, 자격은 없다. 다만, 입직에 앞서 라벨링 업무에 필요한 간단한 교육을 받아야 업무 수행이 가능하다. 

 

데이터라벨러 양성과정은 과학기술정보통신부와 한국지능정보사회진흥원에서 추진하는 AI Hub의 ‘인공지능 학습용 데이터 라벨링 전문교육’ 과정이 있다. 

 

교육과정은 통상적으로 데이터라벨러 과정, 데이터전문가 과정, 데이터고급관리자(PM) 과정으로 구성되어 있으며, 이미지, 영상, 음성, 텍스트 등을 다루는 기본과정부터 심화과정, 전문가과정 등으로 나뉜다.

 

■ ‘데이터라벨러’의 현재와 미래는?

 

한국데이터산업진흥원에 따르면, 국내 데이터 라벨링 시장은 연평균 21.9%씩 성장해 내년에 약 4조3100억원 규모를 형성할 것으로 전망된다. 국내 데이터라벨러 종사자 수는 약 50만명으로 추산된다.

 

데이터라벨러의 절반 이상은 부업으로 일하고 있다. 이들은 플랫폼 기업이 시행하는 프로젝트에 참여해 데이터 라벨링을 실시하고, 데이터별로 정해진 금액을 지급받는 방식으로 소득을 얻는다. 

 

데이터 라벨링은 자동화 작업이 어려워 일일이 사람에 의해 수행된다. 인공지능이 발전할수록 필요한 데이터 역시 더욱 정교하고 복잡해지면서 데이터 라벨링 또한 난이도가 높아질 전망이다. 

 

정부는 지난 2020년 7월 디지털 뉴딜 정책을 발표하면서 데이터 라벨링 사업을 활발히 진행하고 있다. 과학기술정보통신부의 디지털 뉴딜 ‘데이터 댐’의 핵심인 AI 학습용 데이터 구축사업 진행을 위해 일자리가 점차 창출될 것으로 예상된다.

 

댓글 (0)

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.

- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

0 /250