게시판 - 연구방법논총
글쓴이: 연구소관리자 주제: 김진웅_자연언어처리에서 윤리적 문제와 해결 방안: 연령 및 지역 편향성 극복의 출발점으로서 방언자료 수집
2021년 3월 31일 6:58 오후

이 연구는 자연언어처리 분야에서 윤리적 문제의 발생 원인과 유형을 살피고 기존의 언어자료와 차별화되는 언어 데이터 개발을 통해 데이터 편향성을 완화함으로써 윤리적 문제의 해결 방안을 모색하는 데에 그 목적이 있다. 첨단의 인공지능 시대에 그리스 시대로부터 비롯된 윤리학의 중요성은 더욱 강조되고 있다. 인공지능 채팅봇 테이(Tay)가 사용자들과 대화하면서 학습한 인종차별적 언행 때문에 서비스가 중단된 사건이나 MIT 연구팀에서 개발한 인공지능 노먼(Norman)이 드러낸 싸이코패스 성향은 인공지능의 개발에 윤리적 고려가 얼마나 중요한지를 보여주는 예이다. 인공지능이 윤리적 문제를 일으키는 원인은 편향된 데이터를 바탕으로 학습하기 때문이다. 성, 인종, 지역을 포함한 데이터의 편향성으로부터 인공지능의 결함이 시작된다.
한국어 방언 AI 데이터 구축 사업은 한국정보화진흥원의 감독 하에 진행되고 있는 국가 주도의 데이터 구축 사업이다. 이 사업에서 구축하는 음성 데이터는 기존의 음성 데이터에서 그 절대적인 양이 부족하다는 지적을 받아 온 자유발화를 수집한다는 점에서 그 가치가 매우 크며 지역별 연령별 화자에 대한 분포를 고려하여 수집한다는 측면에서 기존의 데이터에서 나타난 배제에 기인한 편향성을 완화할 가능성을 제공한다.

키워드 : 방언, 자연언어처리, 윤리학, 편향성, 배제