이 글의 목차

Gladia의 실시간 처리 기술이 오디오 전사 API의 새로운 지평을 열다

프랑스 스타트업 Gladia는 음성 인식 API를 제공하는 기업으로, 최근 시리즈 A 투자 라운드에서 1,600만 달러(약 215억 원)를 유치했습니다. Gladia의 API는 오디오 파일을 텍스트로 변환하는 데 있어 높은 정확도와 짧은 처리 시간을 자랑합니다. Amazon, Microsoft, Google과 같은 대형 클라우드 서비스 제공업체도 음성 인식 API를 제공하고 있지만, 이들보다 Gladia와 같은 신생 스타트업이 더 우수한 성능을 발휘하고 있습니다. 이는 특히 OpenAI의 Whisper 모델이 등장한 이후 급격한 발전을 보여주고 있습니다.

경쟁 속에서 두각을 나타내는 Gladia

Gladia는 AssemblyAI, Deepgram, Speechmatics와 같은 잘 알려진 기업들과 경쟁하고 있습니다. 이 회사는 OpenAI의 Whisper 모델을 기반으로 한 전사 기능을 개선한 버전을 제공합니다. 그 중 가장 눈에 띄는 기능은 바로 ‘화자 분리 기능(diarization)’입니다. 이는 여러 명의 화자가 있는 대화를 자동으로 인식하고, 각 화자의 음성을 분리해 전사된 텍스트에 반영하는 기술입니다. 100개 이상의 언어와 다양한 억양을 지원하는 Gladia의 API는 회의 기록, 인터뷰 등에서도 매우 유용하게 사용될 수 있습니다.

이 회사의 API는 다양한 응용 프로그램 및 서비스에서 사용 가능하며, 현재 600개 이상의 기업들이 Gladia의 API를 이용하고 있습니다. 특히 주목할 만한 사례로는 Attention, Circleback, Method Financial, Recall, Sana, Veed.io와 같은 회의 기록 및 메모 어시스턴트들이 있습니다. 이들은 음성을 텍스트로 변환한 후, 이를 GPT-4나 Claude 3.5 Sonnet과 같은 대형 언어 모델(LLM)에 입력해 대화를 요약하거나 중요한 정보를 추출하는 방식으로 Gladia의 API를 활용하고 있습니다.

실시간 처리와 저지연성의 도전

Gladia는 현재 실시간 처리 기술에 대한 한계를 극복하고 있습니다. 기존에는 실시간 음성 전사 기능이 품질 면에서 떨어졌기 때문에 많은 기업들이 실시간으로 전사를 한 후, 별도의 배치 처리를 통해 품질을 높이는 방식을 사용했습니다. 하지만 Gladia는 이 문제를 해결하기 위해 실시간 전사 기술을 개선, 현재 300밀리초 이하의 지연 시간으로 라이브 대화를 전사할 수 있다고 주장하고 있습니다. 즉, 비동기 배치 처리와 거의 동등한 품질을 실시간으로 제공하는 것이 목표입니다.

차세대 오디오 응용 프로그램의 미래

Gladia는 앞으로도 실시간 처리 기술을 더욱 발전시켜, 콜센터, AI 음성 비서 등에서 실시간으로 통화 내용을 분석하거나 필요한 정보를 제공하는 데 활용될 수 있을 것으로 기대됩니다. Gladia의 API는 모든 기존 기술 스택 및 프로토콜과 호환되며, SIP, VoIP, FreeSwitch, Asterisk 등을 지원합니다.

이 새로운 투자로 Gladia는 오디오 인텔리전스와 LLM 기반 작업을 단일 API 호출로 통합하여, 사용자가 여러 API를 호출하는 번거로움을 줄이고 더 효율적인 워크플로우를 제공할 계획입니다.

결론

실시간 처리 기술은 음성 인식 API의 중요한 차별화 요소가 되고 있으며, Gladia는 이 분야에서 두각을 나타내고 있습니다. 많은 기업들이 음성을 텍스트로 전환하고 이를 LLM 모델로 분석하여 중요한 정보를 도출하는 데 Gladia의 API를 활용하고 있으며, 앞으로 더 많은 기업들이 이 기술을 채택할 것으로 예상됩니다. 이 기술의 발전은 AI 콜센터, 자동 응답 시스템 등 다양한 분야에 큰 영향을 미칠 것입니다.

Gladia의 실시간 처리 기술이 오디오 전사 API의 새로운 지평을 열다

경쟁 속에서 두각을 나타내는 Gladia

실시간 처리와 저지연성의 도전

차세대 오디오 응용 프로그램의 미래

결론

댓글 달기 댓글 취소