(경기=NSP통신) 조현철 기자 = 국회 문화체육관광위원회 김승원 더불어민주당 국회의원이 지난 19일 진행된 국정감사에서 ‘모두의 말뭉치’의 접근성과 연동성을 향상시키고 어절 확보를 보다 신속히 진행할 것을 주문했다.
국립국어원 소관 ‘모두의 말뭉치’ 사업은 4차 산업혁명과 AI사업 기반 마련을 위해 국어(언어) 빅데이터를 구축하는 사업이다. 지난 2018년부터 올해까지 해당 사업에 총 303억원의 예산이 투입되어 10월 기준으로 20억6000만 어절을 구축했다.
우리나라는 지난 1998년부터 10여년 동안 21세기 세종계획 전문용어 정비사업을 진행해 2억 어절의 말뭉치를 구축한 바 있다. 당시 기준으로는 전 세계 상위권에 해당했으나 이후 10년간 사업이 중단되면서 공백이 발생했다.
김 의원에 따르면 2018년 기준 미국은 2000억 어절, 중국은 800억 어절, 일본은 40억 어절을 확보한 것으로 나타난 반면 현재 모두의 말뭉치에 구축돼 있는 어절은 20억6000만 어절로 미국의 100분의 1 수준, 일본의 절반 가량인 상황이다.
이에 김 의원은 “말뭉치 구축 사업이 인공지능을 포함한 4차 산업혁명 전반의 필수적 요소인 만큼 어절 확보에 속도를 높여 국제적 경쟁력을 확보해야 한다”고 지적했다.
아울러 올해초 일부 말뭉치 유형에서 비속어 등의 부적절한 표현이 발견돼 서비스를 일부 중단하는 등 논란이 되기도 했다.
김승원 국회의원은 “인센티브를 제공할 수 있는 AI가이드라인을 마련하거나 정부-민간-학계 차원에서의 거버넌스 체계를 구축하는 등 정부가 앞장서 AI윤리성 확보를 위해 노력해야 한다”고 말했다.
이어 “미국의 경우 질병통제예방센터(CDC)에만 접속해도 수 천만건의 데이터가 편리하게 사용가능하도록 구축돼 있으나 국내 공공데이터포털의 경우 상대적으로 뒤쳐지는 상황”이라면서 “공공데이터 구축이 4차 산업혁명의 미래를 결정하는 만큼 말뭉치 구축 속도를 높이고 공공데이터로써 접근성과 연동성을 향상시켜야 한다”고 강조했다.
NSP통신 조현철 기자 hc1004jo@nspna.com
저작권자ⓒ 한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.