一開始在 Yourator 招募網站上看到 Glossika 的介紹:一間語言學演算法公司,覺得很嚮往,就申請了 Glossika 暑期實習。大三上我開始修程式課(如果你也是臺大的學生,這堂課的課名是 Python 商管程式設計),大三下也繼續修了電機的課維持寫程式的手感。對一個外文系剛涉足程式設計的學生來說,Glossika 是一個既舒適,又能讓人看看窗外風景的環境。可以碰到語言學,而且還能寫程式,跟大家分享我實習時做的專案!
利用機器學習做阿拉伯文標音專案
我的專案其實大概在七月初時都還是游離未定的狀態,偶爾幫幫其他小組的忙,處理一些 csv 檔等等。在七月中時正式決定我們這個小組負責阿拉伯文標音(Arabic Vocalization)的機器學習專案。
我對機器學習的認知僅限於計算機概論課時一次架 CNN 的作業,因此從七月中到八月底一路走來可以說是在閱讀論文、不段嘗試更好的處理文檔方式和與 Google Colab一直斷線的免費 GPU 奮鬥過來的。由於負責語言學團隊的 Michael 同時也領導另一個小組的工作,所以其實不太會插手 ML 的標音計畫,給我們滿大的空間練習自己找出解法。
這段期間我通常會與團隊中精通阿拉伯文的 Imad 討論更好的文字處理方式,Imad 人超級好!這個計畫也使我開始練習更熟練於 python 裡各式各樣的常用 packages,如 regex、pandas 等,也寫過一些爬蟲。若真的要說美中不足大概是公司缺乏 GPU 設備可以跑大資料這點吧!
這項計畫目前還是現在進行式,在我的暑期實習結束前估計可以進行到用付費方式跑一次大模型。如果你對自然語言處理(NLP)、機器學習有所研究的同學們可以來 Glossika 接手這項計畫或另啟新的計劃!
咖啡上癮者的福音
在公司裡我比較常跟工程師相處,大家雖然話不太多,但真的都很友善!公司有無限暢飲的咖啡真的是我這個咖啡狂人的福音,大樓也時常會有特別的活動,八月底正好有海尼根推出的活動,可以免費掃條碼試喝新產品 😍
Glossika 教育新創團隊徵才中!加入我們,與來自不同文化背景的團隊成員一起打造產品、解決問題,讓全世界的語言都能夠被學習和看見!