구글 stt 예제

클라우드 음성-텍스트는 여러 기계 학습 모델 중 하나를 사용하여 오디오 파일을 전사할 수 있습니다. Google은 특정 오디오 유형 및 소스에 대해 이러한 음성 인식 모델을 교육했습니다. Google 클라우드 저장소 파일을 읽을 수 있는 적절한 액세스 권한이 있어야 합니다(예: Google Speech를 사용하기 전에 오디오 파일을 텍스트 API로 변환하는 경우 다른 형식인 경우). 신뢰도 값은 0.0에서 1.0 사이의 추정치입니다. 숫자가 높을수록 인식된 단어가 올바르지 예상됩니다. 이 필드는 일반적으로 최상위 가설에 대해서만 제공되며_final=true인 결과에대해서만 제공됩니다. 예를 들어 신뢰도 값을 사용하여 사용자에게 대체 결과를 표시할지 또는 사용자에게 확인을 요청할지 결정할 수 있습니다. 최상위 값에 대한 신뢰도가 높으면 올바름일 수 있습니다. 최상위 값에 대한 신뢰도가 낮으면 다른 대안 중 하나가 더 정확할 가능성이 큽습니다. 코드는 결과에서 정확하거나 설정될 수 없다고 보장할 수 있으므로 신뢰 필드를 필요로 하지 않아야 합니다. Google Cloud 클라이언트 라이브러리를 사용하여 요청을 생성할 때 일반적으로 콘텐츠 필드 내에서 이 바이너리(또는 base-64 인코딩된) 데이터를 직접 작성합니다. 그러나 오디오 데이터가 이미 16000Hz 이외의 기존 샘플 속도로 녹음된 경우 오디오를 16000Hz로 리샘플링하지 마십시오.

예를 들어 대부분의 레거시 전화 통신 오디오는 8000Hz의 샘플 레이트레이트(sample rates)를 사용하므로 정확도가 떨어집니다. 이러한 오디오를 사용해야 하는 경우 기본 샘플 속도로 음성 API에 오디오를 제공합니다. Google 음성 에서 텍스트에는 오디오 콘텐츠에 따라 세 가지 유형의 API 요청이 있습니다. 여기서 `filepath` 변수에는 로컬 컴퓨터에 있는 오디오 파일의 위치가 포함되어 있습니다. 따라서 경로에 여러 오디오 파일을 저장할 수 있으며 여전히 작동합니다. `output_filepath`는 Google 클라우드에서 만든 모든 자막이 나중에 로컬 컴퓨터에 저장되는 곳입니다. 또한 `버킷 name` 변수에서 이전 단계에서 만든 버킷 이름을 제공합니다. 파일을 Google 저장 용량에 업로드할 필요가 없습니다. 이후 섹션에서 Google 저장소에 업로드하는 방법에 대해 설명합니다.

오디오가 앞에서 설명한 모델 중 하나에 맞지 않는 경우 이 모델을 사용합니다. 예를 들어 단일 스피커만 있는 장편 오디오 녹음에 이 기능을 사용할 수 있습니다. 이상적으로, 오디오는 16,000Hz 이상의 샘플링 속도로 기록된 고충실도입니다.

This entry was posted in Uncategorized. Bookmark the permalink.