【Glossika 實習分享 | 研究開發小組】從資料整合到解決「阿拉伯文字母辨認」和「日文字詞搭配」
一開始在 Yourator 上看到 Glossika 在招募實習生時,就對這個職缺感到很有興趣。這是一家關於語言學的公司,但卻在招募會程式語言的實習生,這引起我很大的興趣,想了解語言學跟程式語言能產生出什麼樣的火花,於是前來應徵,也很幸運的得到了這份工作。
在 Glossika 負責的專案項目簡介
在 Glossika 的這三個月期間,我的工作項目主要分成兩大塊:
最初的一個月,因為碰到 Q3 的結束,我們多半的時間都跟語言學團隊的其他人一起做資料整合,其中包含:字典輸入、造句、regular expression、syntax tagging 等等的項目。這些工作雖然說很繁瑣,但卻格外的重要,因為這些資料就像是一個房子的地基,地基沒有搭建好,這個建築物就不會穩固。同樣的這些資料處理,雖然重複性質很高,但在做的同時,我也學到了很多新的單字。
接下來的時間我都在 Python Team 負責一些專案,我們完成了將阿拉伯文轉換成一套叫做 Buckwalter Transliteration 的工具,好方便我們辨認阿拉伯文字母。以及我們將Japanese collocation 結合平假名、片假名、羅馬拼音,輸出成一個 regular expression 的模式,方便未來做查找。
這些專案聽起來很簡單,但當我們從零開始的時候,我們花了很多時間想如何下手以及修正我們得到的結果。我覺得對於一個學程式語言的學生來說,這是一個難能可貴的機會,因為我們在學校學到的通常都是教授安排好的,但在真正的職場中,我們會碰到很多困難,並且很多東西是沒有正確解答的,該如何解決他變成一個重要的環節。在實習的期間,我們解決的大大小小的問題,也讓我的 Python Skill 運用的更加自如。
在 Glossika 學習到什麼、改變了妳的什麼想法
很多人很努力的想要學第二外文,但我們通常都是學英文、日文、西班牙文、韓文,這些耳熟能詳的語言,其原因很簡單,因為用得到的機會比較大。但是 Glossika 不僅僅提供這些語言的學習機會,他還提供了非常平常比較難有機會學習到的語言,例如:閩南語、客家語、印地語、冰島語、蒙古語等等。我雖然在台灣土生土長的,卻連基本的台語都不會說,但是 Glossika 卻致力於保留這些語言,雖然說這些語言我們較少用到,除非我們在那塊土地上,但是每一個語言都是一個文化,他保留了很多當地的文化特色。一個語言即便在不同的地方使用也會截然不同,像是中文,台灣跟中國的中文就差異很大。我覺得在 Glossika 的期間,我不但靠自己的力量解決的很多 Python 上的問題,我也對語言有更深的認識、更多的興趣。
與其他成員團隊合作的想法、有趣或任何值得分享的事情
在 Glossika 的期間,我有很多的同事是 remote 的,尤其是我們 Python Team 中有兩個成員是遠在美國進行遠距工作的。但我們還是會在星期二早上進行線上會議,雖然會議都很短暫的,但也足夠大家分享自己這週的進度,有什麼需要我們幫忙的,例如:之前有一次他們就希望我們可以幫他們準備一些 Machine Learning 前需要的資料,會議結束後,我們就開始著手進行,我覺得這是一個很特別的經驗。另外我們也常常需要跟 Linguistics Team 合作,每個人都有自己的專業,他們身上有很多是可以學習的,幾乎每個人都可以說很流暢的英語,有些人甚至還會第三第四語言。
你會推薦 Glossika 給什麼樣的人
Glossika 提供了 60 多種語言,這裡有很多的語言是外面平台或教室都沒有提供的,所以我一定會大力推薦給那些想學少數民族語言的學生們,像是我就會是一個很好的例子,我就可以好好的利用 Glossika 來學習及惡補一下我的台語,同時大家也可以透過 Glossika 來學習更多平時沒有機會學習到的語言。