學號: 1071732
姓名: 黃羽瑍
大家好,我是第26屆元智大學資管系校內實習生,
我從今年一月開始於商業智慧實驗室(BI LAB)實習。
指導老師為邱昭彰教授,實習期間主要以科學方法分析財務為主題。
工作內容/學習
剛開始進入校內實習時,
第一件學習的是使用python語法撰寫爬蟲程式。
初步的練習是使用BeautifulSoup模組的簡易爬蟲,將「博客來」的書籍資料爬取下來做分析。下一步也練習了「蝦皮購物網站」、「鉅亨網」資料的爬取,直至爬蟲的技巧熟練。
在確定專題方向後,目前是以「Goodinfo!台灣股市資訊網」為目標網站做資料的來源,
針對網站上三大法人與大盤的盤後資料,將其爬取下來後存入資料庫。
Python爬蟲
當Python爬蟲技巧熟練之後,下一部讓我們學習的是:
一款將資料以視覺化呈現的工具-QlikView。
將爬蟲所抓取的資料放入資料庫並與QlikView進行連結,
使用其內建的表格及圖表進行呈現,
例如:長條圖、折線圖、組合圖、列表框等......,
介面的上方提供了選取年、月、日的表格,能即時呈現所選擇範圍中的資料。
透過資料視覺化的呈現,相比其原先龐大雜亂的數據資料,透過視覺化分析更能使其易讀、分析,並能找出資料與資料之間的關聯。
QlikView視覺化工具
1. Random Forest
2. SVM
3. KNN
4. LightGBM
5. XGBoost
6. Naive Bayes
7. Logistic Regression
8. Ensemble Learning
9. Reinforcement Learning
機器學習模型
在分析完三大法人與大盤資料的相關性後,
下一步學習的是將上述資料以機器學習演算法做預測分析。
如右表所示,
目前學習到的機器學習演算法總共有9個。
論文撰寫
將實習期間所研究的資料及數據蒐集,以「利用機器學習探討美金匯率變化及三大法人買賣超金額與股市漲跌之關聯」為研究主題,撰寫相關論文,作為學術探討用。
自我評估與心得感想
在實習的過程中,透過學習從沒接觸過的領域,對於新知的吸收成長了許多,
過程中包含了自學、想法溝通、團隊合作。
從寒假開始接觸的基本Python爬蟲、運用selenium操作webdriver自動點選頁面、再匯入到QlikView做視覺化分析,
讓我一下子進步得非常多。在研究的過程中,需要大量的自學與問題解決的能力,
加上實驗室每周固定的meeting,一步一步的檢視每周的進度,
讓我對專題內容學習不敢鬆懈,進而催促自己好好分配時間。