利用AI強化語言學習：打造即時語音翻譯互動小工具

點擊播放語音摘要

哈囉大家好！我是小雅，歡迎來到 Mark 的技術雜談！大家有沒有遇過這種情況，明明單字背了一大堆，但遇到外國人要開口的時候，腦袋卻突然一片空白？今天我就要來跟大家分享一個剛學到的酷東西，保證能拯救大家的語言學習之路！這次的文章教我們怎麼自己動手做一個即時語音翻譯互動小工具。這就像是幫自己寫了一個二十四小時不打烊的專屬語言交換學伴，這個超好用的！你只要對著麥克風說話，它不只會聽懂你在說什麼，還會立刻給你三個超實用的例句當作回應，讓你馬上學會怎麼接話，不用再怕詞窮啦。那這個神奇的工具是怎麼運作的呢？其實原理一點都不難喔！我們用 Python 當作基礎，結合了兩大神兵利器。第一個是微軟的 Azure 語音識別，它就像是這個工具的耳朵，負責把你說的話精準又快速地變成文字；第二個就是大家都很熟悉的 Azure OpenAI ChatGPT，它充當聰明的大腦，收到文字後，會快速想出適合的例句來回應你。我覺得文章裡最實用的地方，就是把整個運作流程跟 Python 程式碼都寫得清清楚楚。你只要準備好 Python 環境跟申請好 API 密鑰，跟著步驟跑一下腳本，螢幕就會提示你開始說話。幾秒鐘後，專屬的 AI 家教就會給你超棒的語言回饋！這對我們這種平常不敢開口練習的大學生來說，真的是一大福音，在家穿著睡衣也能瘋狂練口說。既然我們已經有了能聽懂又會給例句的 AI 大腦，大家不妨想想看，如果下一步再幫它加上嘴巴，也就是用語音合成技術把例句唸出來，是不是就變成真正的口說對練機器人了呢？大家趕快跟著文章動手做做看吧，我們下次見，掰掰！

前言

在多語言溝通日益重要的今天，掌握一門外語已經成為許多人的目標。不過，語言學習不僅需要時間和耐心，還需要有效的實踐機會。本文將介紹如何使用最新的人工智能技術，結合微軟的Azure語音識別和OpenAI的ChatGPT，來創建一個可以即時翻譯和回應的工具，幫助使用者更好地學習和應用新語言。

預先準備

在開始之前，你需要準備以下幾樣東西：

Python 環境：用於執行我們的腳本。
Microsoft Azure 訂閱：用於訪問語音識別服務。
Azure OpenAI API 密鑰：用於生成基於ChatGPT的回答。

運作原理

這個系統的核心是結合了Azure的語音識別技術和OpenAI的語言理解能力。整個流程可以分為以下幾個步驟：

語音輸入：系統通過麥克風捕捉用戶的語音。
語音識別：Azure的語音服務將捕捉到的語音轉換成文字。
生成回答：將識別出的文字傳送給ChatGPT，生成三個簡單的例句回答。
顯示結果：將ChatGPT提供的回答即時顯示給用戶。

程式碼實現下面是一個簡單的Python腳本示例，展示了如何整合Azure語音服務和OpenAI的ChatGPT模型：

import os
import azure.cognitiveservices.speech as speechsdk
from langchain.prompts import ChatPromptTemplate
from langchain_openai import AzureChatOpenAI

# 設定OpenAI環境變數
os.environ["AZURE_OPENAI_ENDPOINT"] = "https://xxx.openai.azure.com/"
os.environ["AZURE_OPENAI_API_VERSION"] = "2024-02-15-preview"
os.environ["AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"] = "gpt3-turbo"

# 初始化OpenAI模型
model = AzureChatOpenAI(
    openai_api_version=os.environ["AZURE_OPENAI_API_VERSION"],
    azure_deployment=os.environ["AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"],
)

# 為OpenAI設定聊天模板
chat_template = ChatPromptTemplate.from_messages(
    [
        ("system", "你是一個國中英文老師.善於用簡單的單詞溝通."),
        ("human", "關於英文問題{question}, 給我怎麼回覆的三個句子，並給中文翻譯. 比較音節困難的單字額外給音標，音標放在單字後面"),
    ]
)

def get_responses(question):
    message = chat_template.format_messages(question=question)
    response = model.invoke(message)
    return response.content

def translate_speech_to_text_continuous():
    # 用於語音翻譯的Azure訂閱金鑰和服務區域
    speech_key = "<Your-Azure-Speech-Key>"
    service_region = "eastus"
    from_language = "en-US"
    to_language = "zh-Hant"

    # 創建語音翻譯配置和識別器
    translation_config = speechsdk.translation.SpeechTranslationConfig(
        subscription=speech_key, region=service_region,
        speech_recognition_language=from_language)
    translation_config.add_target_language(to_language)

    recognizer = speechsdk.translation.TranslationRecognizer(translation_config=translation_config)

    with open("translation_log.txt", "w", encoding="utf-8") as log_file:
        def recognized_handler(evt):
            result = evt.result
            if result.reason == speechsdk.ResultReason.TranslatedSpeech:
                recognized_text = f"Recognized: {result.text}\n"
                translated_text = f"Translated into Traditional Chinese: {result.translations['zh-Hant']}\n"
                print(recognized_text)
                print(translated_text)
                log_file.write(recognized_text)
                log_file.write(translated_text)

                # 如果識別的文字是問題，獲得簡單的例句回答
                responses = get_responses(result.text)
                print("例句:\n")
                print(responses)
                log_file.write(f"Responses: {responses}\n")

            elif result.reason == speechsdk.ResultReason.NoMatch:
                no_match_text = "No speech could be recognized\n"
                print(no_match_text)
                # log_file.write(no_match_text)
            elif result.reason == speechsdk.ResultReason.Canceled:
                cancellation_details = result.cancellation_details
                canceled_text = f"Speech Recognition canceled: {cancellation_details.reason}\n"
                # print(canceled_text)
                # log_file.write(canceled_text)
                if cancellation_details.reason == speechsdk.CancellationReason.Error:
                    error_text = f"Error details: {cancellation_details.error_details}\n"
                    print(error_text)
                    log_file.write(error_text)

        recognizer.recognized.connect(recognized_handler)

        # 開始連續識別
        recognizer.start_continuous_recognition()
        print("Listening...")

        try:
            # 保持程序運行直到按Enter鍵停止
            input("Press Enter to stop...\n")
        finally:
            recognizer.stop_continuous_recognition()

if __name__ == "__main__":
    translate_speech_to_text_continuous()

運行結果

當您運行這個Python腳本時，執行畫面的交互將會按照以下步驟展開：
啟動提示：當您啟動腳本後，系統會首先顯示"請說些什麼..."，提示用戶開始說話。
語音輸入：此時您可以向麥克風說話。您說的話將被系統捕捉。
顯示識別結果：一旦語音輸入結束，Azure的語音識別服務會處理這段語音並將其轉換為文字。這個轉換過程通常非常快速。系統將在屏幕上顯示識別的文字，例如："識別的文字: 你好，我想了解更多關於AI的資訊。"
回答生成：識別的文字會被發送到ChatGPT，ChatGPT會基於這些文字生成回答。這個過程大約需要幾秒鐘。

作者

Mark Ku

十年磨一劍的資深工程師，專長於打造大規模平台與複雜系統架構。從即時直播系統到電商 POS 生態，橫跨 Web 技術、SEO 與平台架構設計。致力於構建高效能、可擴展、可持續演進的系統，並結合 AI Builder 與自動化開發，讓技術成為產品創新的加速器。閱讀更多

點擊播放語音摘要

前言

預先準備

在開始之前，你需要準備以下幾樣東西：

Python 環境：用於執行我們的腳本。
Microsoft Azure 訂閱：用於訪問語音識別服務。
Azure OpenAI API 密鑰：用於生成基於ChatGPT的回答。

運作原理

這個系統的核心是結合了Azure的語音識別技術和OpenAI的語言理解能力。整個流程可以分為以下幾個步驟：

語音輸入：系統通過麥克風捕捉用戶的語音。
語音識別：Azure的語音服務將捕捉到的語音轉換成文字。
生成回答：將識別出的文字傳送給ChatGPT，生成三個簡單的例句回答。
顯示結果：將ChatGPT提供的回答即時顯示給用戶。

程式碼實現下面是一個簡單的Python腳本示例，展示了如何整合Azure語音服務和OpenAI的ChatGPT模型：

import os
import azure.cognitiveservices.speech as speechsdk
from langchain.prompts import ChatPromptTemplate
from langchain_openai import AzureChatOpenAI

# 設定OpenAI環境變數
os.environ["AZURE_OPENAI_ENDPOINT"] = "https://xxx.openai.azure.com/"
os.environ["AZURE_OPENAI_API_VERSION"] = "2024-02-15-preview"
os.environ["AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"] = "gpt3-turbo"

# 初始化OpenAI模型
model = AzureChatOpenAI(
    openai_api_version=os.environ["AZURE_OPENAI_API_VERSION"],
    azure_deployment=os.environ["AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"],
)

# 為OpenAI設定聊天模板
chat_template = ChatPromptTemplate.from_messages(
    [
        ("system", "你是一個國中英文老師.善於用簡單的單詞溝通."),
        ("human", "關於英文問題{question}, 給我怎麼回覆的三個句子，並給中文翻譯. 比較音節困難的單字額外給音標，音標放在單字後面"),
    ]
)

def get_responses(question):
    message = chat_template.format_messages(question=question)
    response = model.invoke(message)
    return response.content

def translate_speech_to_text_continuous():
    # 用於語音翻譯的Azure訂閱金鑰和服務區域
    speech_key = "<Your-Azure-Speech-Key>"
    service_region = "eastus"
    from_language = "en-US"
    to_language = "zh-Hant"

    # 創建語音翻譯配置和識別器
    translation_config = speechsdk.translation.SpeechTranslationConfig(
        subscription=speech_key, region=service_region,
        speech_recognition_language=from_language)
    translation_config.add_target_language(to_language)

    recognizer = speechsdk.translation.TranslationRecognizer(translation_config=translation_config)

    with open("translation_log.txt", "w", encoding="utf-8") as log_file:
        def recognized_handler(evt):
            result = evt.result
            if result.reason == speechsdk.ResultReason.TranslatedSpeech:
                recognized_text = f"Recognized: {result.text}\n"
                translated_text = f"Translated into Traditional Chinese: {result.translations['zh-Hant']}\n"
                print(recognized_text)
                print(translated_text)
                log_file.write(recognized_text)
                log_file.write(translated_text)

                # 如果識別的文字是問題，獲得簡單的例句回答
                responses = get_responses(result.text)
                print("例句:\n")
                print(responses)
                log_file.write(f"Responses: {responses}\n")

            elif result.reason == speechsdk.ResultReason.NoMatch:
                no_match_text = "No speech could be recognized\n"
                print(no_match_text)
                # log_file.write(no_match_text)
            elif result.reason == speechsdk.ResultReason.Canceled:
                cancellation_details = result.cancellation_details
                canceled_text = f"Speech Recognition canceled: {cancellation_details.reason}\n"
                # print(canceled_text)
                # log_file.write(canceled_text)
                if cancellation_details.reason == speechsdk.CancellationReason.Error:
                    error_text = f"Error details: {cancellation_details.error_details}\n"
                    print(error_text)
                    log_file.write(error_text)

        recognizer.recognized.connect(recognized_handler)

        # 開始連續識別
        recognizer.start_continuous_recognition()
        print("Listening...")

        try:
            # 保持程序運行直到按Enter鍵停止
            input("Press Enter to stop...\n")
        finally:
            recognizer.stop_continuous_recognition()

if __name__ == "__main__":
    translate_speech_to_text_continuous()

運行結果

當您運行這個Python腳本時，執行畫面的交互將會按照以下步驟展開：
啟動提示：當您啟動腳本後，系統會首先顯示"請說些什麼..."，提示用戶開始說話。
語音輸入：此時您可以向麥克風說話。您說的話將被系統捕捉。
顯示識別結果：一旦語音輸入結束，Azure的語音識別服務會處理這段語音並將其轉換為文字。這個轉換過程通常非常快速。系統將在屏幕上顯示識別的文字，例如："識別的文字: 你好，我想了解更多關於AI的資訊。"
回答生成：識別的文字會被發送到ChatGPT，ChatGPT會基於這些文字生成回答。這個過程大約需要幾秒鐘。

作者

Mark Ku

前言

預先準備

運作原理

運行結果

留言

推薦標籤

推薦分類

AI

DevOps

Frontend

Management

Infra

PowerShell

熱門文章

用 AI 打造全新技術部落格：從舊架構到 Next.js 15 的完整改版歷程

Vibe Coding 經驗分享

用 AI Agent + LangChain 打造基於大語言模型的自然語言 BI 報表系統

Claude Opus 4.5 實戰心得：AI 輔助開發的現實與限制

AI 時代的舊系統重構翻新策略

解決 Node.js 單執行緒效能瓶頸的幾種實戰解法

讀者也在看

熱門文章

文章分類

快速連結

技術專長

前言

預先準備

運作原理

運行結果

留言

推薦標籤

推薦分類

AI

DevOps

Frontend

Management

Infra

PowerShell

熱門文章

用 AI 打造全新技術部落格：從舊架構到 Next.js 15 的完整改版歷程

Vibe Coding 經驗分享

用 AI Agent + LangChain 打造基於大語言模型的自然語言 BI 報表系統

Claude Opus 4.5 實戰心得：AI 輔助開發的現實與限制

AI 時代的舊系統重構翻新策略

解決 Node.js 單執行緒效能瓶頸的幾種實戰解法

讀者也在看

熱門文章