"AI음성인식 기술로 녹음파일 '받쓰'하세요"

입력
수정2019.05.24. 오전 4:41
기사원문
김지영 기자
본문 요약봇
성별
말하기 속도

이동 통신망을 이용하여 음성을 재생하면 별도의 데이터 통화료가 부과될 수 있습니다.

[머니투데이 김지영 기자] [['대한민국 모바일 어워드 2019' 5월의 모바일]액션파워 '다글로']

23일 진행된 대한민국 모바일 어워드 5월 시상식에서 조홍식 액션파워 대표가 포즈를 취하고 있다. / 사진=이동훈 기자 photoguy@

"AI(인공지능)가 복잡하고 오래 걸리는 녹음 파일 받아쓰기 대신 해드립니다."

'대한민국 모바일 어워드 2019' 5월의 모바일로 선정된 액션파워의 '다글로'는 AI 받아쓰기 서비스다. 크롬 브라우저에 최적화된 웹 기반으로 음성 파일을 업로드하면 자동으로 텍스트로 전환해준다. 액션파워는 지난달 10일 다글로 서비스를 출시했다. 지난해 1월부터 운영해 온 AI 받아쓰기 서비스 리뷰와이저 기능을 대폭 강화한 것. 리뷰와이저부터 1년여간 누적 사용자는 1만3000여명에 이른다.

조홍식 액션파워 대표(사진)는 "스마트폰이나 기기 발달로 녹음은 편리해졌지만 녹음 파일을 데이터로 활용하기 위해 문서화하는 작업은 결코 만만치 않다"며 "음성인식 기술을 통해 이런 작업을 대신하면 사무·업무영역에서 더 큰 가치를 만들어 낼 수 있다"고 서비스 출시 배경을 밝혔다.

조 대표는 "음성인식을 텍스트로 변환하는 기술을 사무용에서 쓰지 않는 건 결국 정확도가 떨어지기 때문"이라며 "각 분야별로 사용하는 어휘, 용례 등을 빅데이터를 통해 학습시키면서 특정 분야에 정확도를 높일 수 있다고 보고 분야별 특화 엔진을 자체 개발하고 있다"고 말했다.

다글로는 딥러닝 기술을 통해 교회 설교, 법률 상담 및 뉴스에 특화된 음성인식 엔진을 추가했다. 그는 "녹음 환경이나 발음 등 녹음 상태가 좋은 경우에 새로 출시한 음성인식 엔진의 정확도는 85~95% 수준에 이른다"고 소개했다. A4 1쪽 분량의 문서로 봤을 때 오탈자가 10개 안팎이라는 얘기다. 다글로는 앞으로 국회, 의료 등에 특화된 음성인식 엔진을 추가해 나갈 계획이다.

녹음 파일을 텍스트로 변환하는 시간은 음성 파일 길이의 절반 정도. 만약 한시간 분량의 녹음파일이면 30분 정도면 작업이 완료된다. 녹음 상태에 따라 최대치는 녹음 길이 만큼이다. 조 대표는 "텍스트 '요청하기' 버튼을 눌러 완료되기까지 평균 0.5~1배수 시간이면 된다"며 "작업이 완료되면 한글,워드 등 파일 형태로 이메일로 발송되기 때문에 바로 활용할 수 있다"고 말했다.

이용자 편의성을 높이기 위한 기능도 갖추고 있다. 우선 사용자가 정확도를 미리 확인할 수 있도록 5분 미리보기 기능도 제공한다. 편집기에는 키워드 검색 기능은 물론, 재생 중인 단어 표시, 재생 속도 조절, 현재 커서 위치를 재생해주는 단축키, 강조, 글 꾸미기, 화자 표시 기능 등 다양한 기능이 추가됐다.

신기술 개발에도 주력하고 있다. 조 대표는 "여러명 화자가 동시에 대화할 때 화자를 구별하기 어렵다는 한계가 있다"며 "자연어 처리와 함께 화자 분리 등 고도의 기술을 개발 중이고 연내 개선된 서비스를 적용할 수 있을 것"이라고 말했다. 이 경우 회의록이나 재판과 같은 전문 업무용으로도 본격적으로 활용할 수 있을 것이라는 기대다.

조 대표는 "음성인식 기술은 지금보다 훨씬 깊숙하게 우리 생활과 업무에 활용될 수 있고 힘들고 어려운 일을 대신할 것"이라며 "기술 기반 서비스 개발에 더욱 박차를 가하겠다"고 말했다.
2019 대한민국 모바일 어워드 5월의 모바일 다글로 / 사진제공=박효주


김지영 기자 kjyou@mt.co.kr

▶'의문 투성이' 배우 한지성 교통사고
▶조 변호사의 가정상담소 ▶더 많은 기사 보러가기

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>

기자 프로필

이 기사는 언론사에서 IT 섹션으로 분류했습니다.
기사 섹션 분류 안내

기사의 섹션 정보는 해당 언론사의 분류를 따르고 있습니다. 언론사는 개별 기사를 2개 이상 섹션으로 중복 분류할 수 있습니다.

닫기
3