歡迎來 教育部華文視障電子圖書網教育部
  [登入/註冊]       
:::左側區塊
 主要選單 
* 歷屆考古題專區
* 網站導覽
* 個人書籤
* 近期新書
* 出版社圖書
* 點字教科書
* 書目查詢
* 新聞雜誌區
* 蝙蝠電子報
* 「身」命力電子報
* 推薦與書摘
* 出版快訊
* 行動數位圖書館
* 視障行動學習
* 網路博覽家&APP
* DAISY/有聲書書目
* 統計資料
* 會員專區
* 無障礙全球資訊網
:::中央區塊

分享到 Facebook 推至Plurk 推至twitter 

讓我聽見更多——台灣尤塞氏症暨視聽弱協會

文/黃靖騰

熟悉的人都知道,我還能聽見聲音,但卻距離語言非常遙遠。對我來說,聽見的彷彿是一個個或大或小的問號。

曾經也能以口語方式和人們順暢交流,但擁有正常聽力的日子並不長久,似乎只為了學會說話,並稍稍領略各種聲音的樣貌,然後就進入一場奇幻的冒險旅程。任旁人說說笑笑,我全聽而不聞,其實是多努力都聽不出個所以然。如果沒有翻譯,轉換成其他方式呈現,縱然戴上助聽器、植入人工耳蝸,仍辨識不出無處不在的人聲。

與世界嚴重脫節的我,幾年後遇見同步聽打翻譯,在大學課堂中開始能順利學習、甚至名列前茅,帶來極大的助益。但生活中,我仍是經常處於語言接收不良的狀態。一直在探索新的方式來改善,不錯過任何可能的機會,現在,科技的進步似乎漸漸翻轉我的日常,一點一點,更接近這世界的人群,同時也好似找回了某些本屬於我的東西。

前陣子,經朋友介紹認識了也在做自由接案的明眼夥伴宜平和致傑,他們交給我一些「代寫」的案子,需要將對方提供的影片內容和觀點,佐以相關的網路資料,撰寫成部落格文章。於是我開始探索有什麼輔助工具能順利接收影音內容。

其實從小到大,我還真沒有觀賞影片的經驗。既辨識不出影音內容,視障也導致看不清快速跳動的字幕,網路上翻到影音媒體便一籌莫展,大多時候只閱讀純文字的資訊。

這個「代寫」案子去除影音接收的困難,其實很適合我文字編輯的專長,自然不想放棄,但若請人手打翻譯,勢必耗費不少人力成本⋯⋯我詢問身邊的朋友,最後在「台灣尤塞氏症暨視聽弱協會」問到一位對資訊很有研究的黃俊榕醫生,他提到Whisper這個將音檔(影音視頻或錄音)轉成文字檔的軟體,可以在電腦上免費安裝使用,而且準確度可說是當前首屈一指的。俊榕醫生很熱心先幫我以Whisper轉出手邊需要翻譯的影片,一看大為驚嘆,幾乎沒出現錯字。

拜現代AI科技發達之賜,Whisper正是由OpenAI推出的先進語音識別系統,藉由大規模語言處理技術,它能夠準確地將語音轉換為文字。或許開發者都沒想到,這項技術對於無法辨識語言的聽障者來說,將可能翻轉其生活型態,創造新的可能性。

然而,我平常很少使用電腦,文書處理方面大多以iPad進行;雖然電腦可以安裝Whisper執行,但必須要高效能GPU顯卡如Nvidia系列(硬體設備)的電腦,才能相對快速地完成音檔轉逐字稿的分析。以我手邊的筆電(Surface Pro)來說,可能要跑超久。

我也研究過Good Tape 網站,它由丹麥人開發,能以Whisper技術翻譯音檔,效果很好;但每個月只有最多三次音檔轉文字的機會(每次上傳最長90分鐘的音檔),如果要使用更多時數需付費(約每月514台幣),對於有經濟顧慮的人是不小的負擔。

於此之際,同樣在尤塞氏症協會的社群,我認識了會寫Python程式語言的林承駿,他了解我的需求,嘗試將Whisper軟體放上Google Colab,讓使用者都能透過各種裝置上網操作Whisper,且Colab提供的GPU運算速度,比起沒有獨立顯卡的電腦快上許多。唯一小缺點是每個Google帳號使用Colab GPU時,每日有一定的額度限制,但我找到了其他可解決的方式,目前以這個網站執行音檔轉文字綽綽有餘。

經過兩個多月的測試,期間承駿也不斷進行優化,Colab_Whisper的使用上已經沒什麼問題。如果朋友們有語音接收方面的需求,不妨來試試看。無論是觀看影片、或現場錄音事後再轉文字,彌補當下資訊接收的困難,都很適合用這項工具。

與承駿會面聚餐,卻忘了合照,這是從他的視角下看見的我。

我跟同為視聽障的硯淳、怡真目前使用Colab_Whisper可順利接收大部分影音視頻,參加一些講座活動透過錄音再轉文字,資訊接收上也帶來很大幫助。

原來我也能看影片,利用Whisper把影音內容轉為純文字閱讀,尤其是一些純影音的平台如Podcast不需要看影片畫面,跟其他人接收到的資訊幾乎一致。媽媽最近很推薦葉子老師的「猿猴式超慢跑」,我也看著老師的Youtube頻道指示一起做了起來,感覺自己的體力真的有所增長。另一方面,宜平那邊也固定有繼續合作接案代寫的工作,當涉及影音接收的部分,已不再是難以逾越的障礙。Whisper技術的出現不但拉近我與一般大眾的距離、增加共同話題,同時實際擴展更多元的職涯發展空間。

我跟承駿,透過討論Colab_Whisper的操作、回報狀況時,他都很有耐心地解答,更願意花額外時間優化網站,使之擁有更多可選擇的功能性、提升操作便利性。在一來一往的互動中,與承駿漸漸熟悉,發現他是個很認真又有專業熱誠的人。聊天中,話題衍伸到如何善用各種AI科技,大有所獲。例如,曾討論過ChatGPT的功能,我發現它在資料處理與整理、提供創意發想、語句改寫上特別突出;另外輔以由Google開發、較為理性嚴謹的Bard(也是AI機器人),提供更準確無誤的資料⋯⋯兩者相輔相成,幫助我在寫文章時索取靈感素材、段落統整,大大提升了生產效率。難產的時候跟它們聊一聊,或許就會有新的發現。

更讓我驚喜的是,一般人使用Whisper只能將錄音後的音檔轉為文字,那如果想利用它 「即時語音翻譯」呢?承駿表示:「目前我寫的程式有辦法做到,國外也有人在研究這塊。我測試後,即時翻譯的準確度不會拉低,但需要用高效能顯卡的電腦如Nvidia系列或MacBook的M晶片系列,速度才跑得起來。」

看到這個訊息,我迫不及待想親眼目睹其效果,於是和承駿討論約一天出來見個面。

巧的是,承駿目前在交大進修碩班,平常住在竹南。從我家過去,只要搭五分鐘的區間車到竹南站,與承駿會面極為方便。

這天,帶上我和硯淳、怡真共同準備的小小禮物保溫瓶,交給承駿的還有三人各自寫的小卡片,只為表達我們對承駿無償付出的小心意。「保溫瓶」意象是希望這些溫暖的點滴一直持續下去。

給承駿的小卡片,非自己手寫,而是透過網站選擇背景、手寫字體設計而成。

選了一間竹南站附近Google評價看起來很不錯的「真誠食」,在餐廳裡人聲鼎沸,承駿拿出他的Mac,以Whisper即時翻譯的功能和我溝通。也許受到環境吵雜的影響,筆電本身的麥克風收音也不算高級,翻譯有些斷斷續續,且說完一句話仍要等三秒左右才跑出文字。承駿說:「如果在安靜的環境下,再用更好的麥克風來收音效果應該不錯,我之後會繼續改版。即時溝通的話,你的iPad內建語音辨識速度會更快。」他發現iPad收音也容易受到環境雜音影響,且距離稍遠便無法辨識,承駿也建議可以買一把外接麥克風改善收音狀況。

竹南車站附近的「真誠食」餐點很讚。

回到家後,我和承駿繼續討論麥克風的選購。網路上找到「KONIX G2」一對二的無線領夾式麥克風,我看上它的「一對二」,兩把麥克風可以同時接收兩名或更多人的聲音、領夾式的方便性和內建降噪功能也很讚;資料上說,插在iPad上的無線接收器距離麥克風20公尺內都有效。剛好還有優惠,預算可接受,就決定把它買下來。

跟家人測試過效果挺理想的,環境不要太吵鬧,佩戴領夾式麥克風的人說話,iPad都能清楚地轉為文字,不再受限於距離太遠,使我的即時溝通能力又更上層樓。缺點是,語音辨識仍容易自動中斷、翻譯過程跟輸入文字一樣,使螢幕畫面不斷下移,無法自由上下滑動iPad來閱覽內容。

新買的KONIX一對二外接麥克風,用它來語音辨識可幫助收音(降噪功能),打破距離限制。

我發現iPad的語音辨識較適合即時溝通,但如果是長時間的講座Whisper效果應該更好。期待下次等承駿那邊改版後,再約時間出來測試,或許可以連接KONIX無線麥克風幫助收音。

承駿說,對我為了溝通付出的努力很敬佩。其實,我希望透過克服自己這類障礙的經驗,才能幫助到其他有同樣需求的人;而承駿已經實際在幫助我們,不僅是障礙者,這些科技的應用相信能讓更多人受惠,他真的很用心。

這篇文章,除了讓大家認識Colab_Whisper,歡迎有需要的朋友一起使用它。更要感謝障礙路上總有一群人在默默付出,幫助我們解決疑難雜症、改善生活品質,無論是醫生、科學家、學者、家屬都是很重要的支持力量。文中提到「台灣尤塞氏症暨視聽弱協會」即將在今年正式成立,我也是其中一員,1月27日將召開第一次的會員大會,歡迎各界關注障礙議題的親朋好友當天一同參與,如果朋友們想支持、報名,記得告訴我。


本系統由淡江大學視障資源中心維護 如有任何建議歡迎來信
資源中心電話:(02)7730-0606, 傳真:(02)8631-9073, 地址:25137新北市淡水區英專路151號商館B125室
捐款劃撥帳號:17137650 淡江大學募款委員會 (請註明:視障資源中心視障系統研發專用)
本網站通過第一、第二及第三優先等級無障礙網頁檢測