NHK Radio News 스크립트 블로그 사이트

일본 우익 정치인들은 짜증 나지만 워낙 재미있는 콘텐츠를 많이 가진 일본. 그래서, 몇 개월 전부터 본격적으로 일본어를 공부하기 시작했다.

모든 외국어 공부에서 가장 중요한 듣기 능력 향상을 위해 아침 출근 중에 NHK Radio News podcast를 내려받아 듣기 시작했는데 아직 내 실력이 모자라서 내용 파악이 전혀 되지 않는다.

어딘가 스크립트를 정리해 둔 사이트가 있지 않을까 열심히 검색해 보았지만 찾을 수가 없었다. 어떻게 할까 고민하다 떠오른 아이디어! 일본어 뉴스 정도면 음성인식으로 스크립트를 만들어 볼 수 있지 않을까?

그리하여, http://nhkradio.blogspot.kr 블로그에 일본어 음성인식을 이용해 매일 아침 NHK Radio News를 블로그에 올리는 프로그램을 만들어 보았다. 대략적인 프로그램의 동작 방법은 다음과 같다.
  1. NHK Podcast URL에서 XML 파일을 내려받는다.
  2. 새로 추가된 Podcast의 MP3 파일을 내려받는다.
  3. MP3 파일을 ffmpeg을 이용하여 WAV 파일로 변환한다. 앞 7.5초 정도의 오프닝 음악은 잘라낸다.
  4. 쿄토 대에서 개발한 Julius 음성 인식하여 text 파일로 만든다.
  5. 위 블로그에 음성 인식된 결과를 SMTP로 포스팅한다.
음성 인식을 사용하므로 당연히 100% 정확한 결과는 나오지 않지만, 학습에는 도움이 될 정도 수준의 결과는 보여준다. 전체 내용 파악은 가능하고 꽤 정확하게 문장이 만들어진다.

다음 버전에는 음성 인식된 문장 단어에 일본어 사전 링크를 연결 시켜 볼까 한다.  일본어 학습하시는 다른 분들에게도 도움이 되었으면 좋겠다.

UPDATE: 별로 인식률이 좋지않아 현재는 자동인식 블로그 업데이트를 중지하였다. 인식률 문제해결하면 다시 시작할 예정.

이 블로그의 인기 게시물

Wireless: HotSpot 2.0 이란?

Apple M1 Mac Mini에서 이더리움 (Ethereum) 채굴하기

Java: Java for Game? Java가 Game 개발에 어울릴까?