최근 몇 년 동안, 음성 인식 기술의 발전은 놀라웠습니다.
다양한 응용 프로그램에서 음성을 텍스트로 변환하는 기능
즉!! STT (Speech-To-Text)는 많은 편리함을 제공하고 있습니다.
특히 OpenAI의 Whisper는 그 성능이 어마어마한데요!!
그래서를 Python으로 해당 모델을 활용, 녹음 파일로부터 텍스트를 추출하는 방법을 알아보아요~~
.
Whisper란 무엇인가요?
Whisper는 OpenAI에서 개발한 음성 인식 모델로,
다양한 언어와 억양을 인식할 수 있는 강력한 도구입니다.
이 모델은 높은 정확도를 자랑하며, 특히 다양한 환경에서 녹음된 음성을 처리하는 데 탁월한 성능을 발휘합니다.
또한 언어를 자동으로 감지하여 텍스트로 전환해줍니다!!!
Python Code!
오늘의 작업을 위해서는!!
파이썬의 openai 패키지만 설치되어있으면 됩니다!!
그리고!! OpenAI의 api key도 물론 필수!!
그럼 코드를 함꼐 보아요~~~
1. 패키지 및 키 임포트
from openai import OpenAI
client = OpenAI(api_key='{나의 API키}')
2. 본론코드!!
audio_file= open('{파일위치}.mp3', "rb")
transcription = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)
print(transcription.text)
위와같이 코드를 실행하면!!?!
짠~~ 위와같이 음성파일로부터 텍스트를 잘 추출해줍니다~~!^^
얼마인요?
그럼!! Whisper모델의 사용비용은 얼마일까요!?
https://openai.com/api/pricing/
공식 사이트를 참고해보면 1분정도의 대화에 0.006달러, 우리돈으로 10원정도 합니다.
1시간 정도의 녹음파일이면 600원 정도의 비용이 들겠네요~~
제약사항은??
그 외에 Whisper모델 사용시 제약사항이 있을까요!?
1. 사용 가능한 언어 : Whisper 모델은 다국어 지원이 가능하며, 여러 언어에 대해 높은 정확도를 제공합니다.
하지만 특정 언어와 억양에 따라 성능이 다를 수 있습니다. Whisper는 주로 다음 언어들을 지원합니다:
- 영어
- 중국어
- 프랑스어
- 독일어
- 일본어
- 한국어
- 스페인어
- 러시아어
- 포르투갈어
- 이탈리아어
- 네덜란드어
- 폴란드어
- 힌디어
- 아랍어
2. 녹음 파일 용량 및 길이
공식 사이트에 따르면 25MB이하의 녹음파일, 확장자 제한등이 있다고합니다!!
https://platform.openai.com/docs/guides/speech-to-text
ㅈhisper를 활용해서 편하게 음성을 텍스트로 변환하세요~~^^
'데이터&AI > LLM' 카테고리의 다른 글
llama3 한국어 모델 On-premise로 활용하기 (feat. Bllossom) (0) | 2024.06.21 |
---|---|
Solar 오픈소스 모델 활용해서 ON-premise LLM 만들기 (0) | 2024.06.13 |
llama3 의 모델을 api로 호출하기!! (feat. ollama, python, embedding) (0) | 2024.06.01 |
내 서버에서 llama3 실행하기!! (feat. ollama) (0) | 2024.05.31 |
지금시간 맞추는 GPT 만들기 (feat. function calling) (0) | 2024.05.30 |
댓글