본문 바로가기
데이터&AI/LLM

[STT] 녹음파일에서 텍스트 추출하기!! by OpenAI Whisper(feat python)

by 일등박사 2024. 6. 8.

 

최근 몇 년 동안, 음성 인식 기술의 발전은 놀라웠습니다.

다양한 응용 프로그램에서 음성을 텍스트로 변환하는 기능

즉!! STT (Speech-To-Text)는 많은 편리함을 제공하고 있습니다.

특히 OpenAI의 Whisper는 그 성능이 어마어마한데요!!

그래서를  Python으로 해당 모델을 활용, 녹음 파일로부터 텍스트를 추출하는 방법을 알아보아요~~


.

Whisper란 무엇인가요?

Whisper는 OpenAI에서 개발한 음성 인식 모델로,

다양한 언어와 억양을 인식할 수 있는 강력한 도구입니다.

이 모델은 높은 정확도를 자랑하며, 특히 다양한 환경에서 녹음된 음성을 처리하는 데 탁월한 성능을 발휘합니다.

또한 언어를 자동으로 감지하여 텍스트로 전환해줍니다!!!

 

Python Code!

오늘의 작업을 위해서는!!

파이썬의 openai 패키지만 설치되어있으면 됩니다!!
그리고!! OpenAI의 api key도 물론 필수!!

그럼 코드를 함꼐 보아요~~~

 

1. 패키지 및 키 임포트

from openai import OpenAI
client = OpenAI(api_key='{나의 API키}')

 

 

2. 본론코드!!

audio_file= open('{파일위치}.mp3', "rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1", 
  file=audio_file
)
print(transcription.text)

 

위와같이 코드를 실행하면!!?!

 

짠~~ 위와같이 음성파일로부터 텍스트를 잘 추출해줍니다~~!^^

 

얼마인요?

그럼!! Whisper모델의 사용비용은 얼마일까요!?

 

https://openai.com/api/pricing/

공식 사이트를 참고해보면 1분정도의 대화에 0.006달러, 우리돈으로 10원정도 합니다.

1시간 정도의 녹음파일이면 600원 정도의 비용이 들겠네요~~

 

제약사항은??

그 외에  Whisper모델 사용시 제약사항이 있을까요!?

1. 사용 가능한 언어 : Whisper 모델은 다국어 지원이 가능하며, 여러 언어에 대해 높은 정확도를 제공합니다.

하지만 특정 언어와 억양에 따라 성능이 다를 수 있습니다. Whisper는 주로 다음 언어들을 지원합니다:

  • 영어
  • 중국어
  • 프랑스어
  • 독일어
  • 일본어
  • 한국어
  • 스페인어
  • 러시아어
  • 포르투갈어
  • 이탈리아어
  • 네덜란드어
  • 폴란드어
  • 힌디어
  • 아랍어

2. 녹음 파일 용량 및 길이

공식 사이트에 따르면 25MB이하의 녹음파일, 확장자 제한등이 있다고합니다!!

https://platform.openai.com/docs/guides/speech-to-text

 

 

ㅈhisper를 활용해서 편하게 음성을 텍스트로 변환하세요~~^^

 

 

 

 

댓글