LG CNS, AI 표준데이터 10만개 무료 공개

입력
수정2019.09.05. 오전 11:43
기사원문
강미선 기자
본문 요약봇
성별
말하기 속도

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

[머니투데이 강미선 기자] [AI 학습용 표준데이터 '코쿼드 2.0' 공개…국내 AI 발전·개방형 생태계 조성 기여 ]

사진제공=LG CNS
LG CNS가 AI(인공지능)의 자연어 이해를 위한 한국어 표준데이터 10만여개를 제작해 국내 AI 업계에 무료 개방한다.

LG CNS는 5일 서울 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 AI 커뮤니티 행사 'AI Tech Talk(테크톡)'을 열어 AI 학습용 표준데이터 '코쿼드 2.0(KorQuAD 2.0)'을 공개했다.

AI 스피커, AI 챗봇 등에 활용될 언어 AI 개발을 위해서는 학생 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다. 해외는 미국 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 있어 AI 개발에 활용되지만 국내는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.

LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 '코쿼드 1.0'을 제작해 AI 업계에 공개했고 이날 기능을 더욱 강화한 '코쿼드 2.0'을 선보였다.

'코쿼드 2.0'은 한국어 표준데이터를 '코쿼드 1.0' 7만개에서 10만개로 확대했다. 기존 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화했다.

예를 들어 “대한민국의 수도와 면적은?”이라는 질문에 “서울특별시, 605.25km2 입니다”라고 답하는 AI는 코쿼드 1.0 학습만으로 충분히 개발할 수 있지만, “서울특별시 특징은?”이라는 질문에 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…”이라는 장문의 답을 위해서는 코쿼드 2.0으로 AI를 학습시켜야 한다.

코쿼드 2.0은 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다. 이번에 출시한 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 누구나 내려받아 쓸 수 있다.

LG CNS는 표준데이터를 외부에 개방해 AI 연구자간 시너지를 창출하고 국내 AI 기술 발전에 기여할 것으로 기대하고 있다. LG CNS CTO(최고기술책임자) 현신균 부사장은 "응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여할 것"이라고 말했다.

한편 이날 열린 'AI 테크톡' 행사에는 한국전자통신연구원(ETRI), 서울대, 카이스트 등에서 연구진 및 교수진이 연사로 참석해 언어 AI 연구 성과 및 최신 기술 동향을 공유했다. LG CNS의 코쿼드를 활용해 개발한 AI 모델의 성능평가를 받고 리더보드에 등재된 50여개 팀 중 현재 1위를 기록 중인 네이버 클로바 AI팀이 참석해 AI 개발 제작기도 발표했다.

강미선 기자 river@mt.co.kr

▶부자도 후회하는 4가지 습관 [투자노트]
▶바람 피운 배우자 [변호사 가사상담] 네이버 메인 구독 추가

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

기자 프로필

이 기사는 언론사에서 IT 섹션으로 분류했습니다.
기사 섹션 분류 안내

기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다. 언론사는 개별 기사를 2개 이상 섹션으로 중복 분류할 수 있습니다.

닫기
3