使用Python及Yahoo Finance API抓取台股歷史資料

目錄

原始文章

〈使用Python及Yahoo Finance API抓取台股歷史資料〉


無論是投資或是資料科學專案,經常需要股市資料作分析。證交所在政府資料開放平台中提供了個股日成交資訊,也可以透過API查詢歷史記錄,但很容易因為頻繁抓取資料而被暫時的鎖IP,之後會再寫另外一篇文章說明。

常見的替代方案是到美國的Yahoo Finance下載,只要搜尋「股票代碼.TW」就可以查詢,如「0050.TW」。網路上有很多文章提到,Yahoo Finance的免費API服務可能會收掉,也確實,我偶爾執行的時候會出現錯誤訊息如下,但通常過個幾分鐘再試就可以正常執行了。如果你每次都是手動執行Python程式的話,我覺得這倒不是太大的問題,但如果你是使用排程自動更新,可能就要先寫個try/except。

HTTPSConnectionPool(host=’query1.finance.yahoo.com’, port=443): Max retries exceeded with url: /v8/finance/chart/0050.TW?period1=-2208988800&period2=1606746234&interval=1d&includePrePost=False&events=div%2Csplits (Caused by NewConnectionError(‘: Failed to establish a new connection: [Errno 51] Network is unreachable’))

另外,國外有一些公司也提供類似的API服務,像是IEX CloudAlpha Vantage,但這些資料不一定包含台股的資訊,建議付費前先查詢清楚,使用的關鍵字為Supported Symbols,Symbols指的是股票代號,像是這一篇〈How to Find All Supported Symbols on IEX Cloud〉

如果你希望獲得歷史資料,並持續累積新資料,最好的方式應該是先用這篇文章的方式抓取所有歷史資料,然後再寫一支程式每日抓取證交所的個股日成交資訊。我在2020年6月25日執行以下程式,並儲存成h5或csv檔,總資料筆數約380萬,檔案大小約300mb,不算太大。

執行流程與程式碼

下載台股代碼清單

下載台股國際證券辨識號碼一覽表
資料來源為本國上市證券國際證券辨識號碼一覽表,由於整體的code有點長,這裡就暫不提供,檔案如下。
台股個股清單

下載最新收盤資料
透過證交所的個股日成交資訊API下載最新的收盤資料,但此份資料中只包含上市公司的資料。

import requests
import numpy as np
import pandas as pd

link = 'https://quality.data.gov.tw/dq_download_json.php?nid=11549&md5_url=bb878d47ffbe7b83bfc1b41d0b24946e'
r = requests.get(link)
data = pd.DataFrame(r.json())

data.to_csv(儲存路徑 + '/stock_id.csv', index=False, header = True)

下載Yahoo股市資料

根據〈Free Stock Data for Python Using Yahoo Finance API〉.)的說法,Yahoo Finance的API的限制為:Using the Public API (without authentication), you are limited to 2,000 requests per hour per IP (or up to a total of 48,000 requests a day)。在我用以下的code抓取1116支股票的歷史記錄後,確實沒有被阻擋的問題。

# 必須先安裝yfinance套件
import yfinance as yf
import h5py
import pandas as pd

# 讀取csv檔
stock_list = pd.read_csv(儲存路徑 + '/stock_id.csv')
stock_list.columns = ['STOCK_ID', 'NAME']

historical_data = pd.DataFrame()

for i in stock_list.index:    

    # 抓取股票資料
    stock_id = stock_list.loc[i, 'STOCK_ID'] + '.TW'
    data = yf.Ticker(stock_id)
    df = data.history(period="max")

    # 增加股票代號
    df['STOCK_ID'] = stock_list.loc[i, 'STOCK_ID']

    # 合併
    historical_data = pd.concat([historical_data, df])
    time.sleep(0.8)

historical_data.to_hdf(路徑 + '/historical_data.h5', key='s')

推薦文章

〈申請玉山證券富果帳戶及台股API常見問題 – 量化投資第一步〉
在DataCamp學Python和R語言,快速入門資料科學

A
Aron

工業設計系畢業,曾任職知名品牌行銷企劃,做點設計,寫文案也寫網站;目前擔任零售業數據分析師。最近開始練格鬥和Python量化投資。

Content Protection by DMCA.com

10 則留言

  1. 14711

    ticker 裡面究竟要填什麼才能找到歷史資料呢? 照著原本的程式碼似乎是找不到的 會出現這樣的錯誤
    No data found for this date range, symbol may be delisted

    1. Aron

      如果要抓台股資料的話,要用股票代號加上.TW,如0050要變成「0050.TW」。美股的話就可以直接輸入股票代號,像微軟是MSFT。

  2. Jeff

    請問一下,有沒有什麼辦法可以取得個股過往的K棒開高收低資料嗎?包含 M1, M5,….,D1等等

    1. Aron

      證交所跟Yahoo Finance都只能抓到開盤、收盤、最高、最低、調整後收盤價和交易量。如果你想看到完整的資料,可以試試看富果的API,他們好像可以提供逐筆交易的資料,但這部份我自己也還沒試過。

      〈申請玉山證券富果帳戶及台股API常見問題 – 量化投資第一步〉
      富果API說明文件

  3. Leon

    為何有網站說yahoo finance已不繼續繼了?
    https://rapidapi.com/blog/how-to-use-the-yahoo-finance-api/

    1. Aron

      我也看過滿多類似的文章,但我之前使用上都沒問題,剛才再以0050.TW、0056.TW和MSFT測試,確實前兩次出現錯誤訊息如下,但後來再試又可以了。
      我覺得只要在Python中寫個try except,Yahoo Finance API應該還是可以加減用一下。
      ———-
      HTTPSConnectionPool(host=’query1.finance.yahoo.com’, port=443): Max retries exceeded with url: /v8/finance/chart/0050.TW?period1=-2208988800&period2=1606746234&interval=1d&includePrePost=False&events=div%2Csplits (Caused by NewConnectionError(‘: Failed to establish a new connection: [Errno 51] Network is unreachable’))

  4. Alan

    這個分享真的很棒,但分析上似乎會有suvival bias?過往已經下市的股票資料無法取得。

    1. Aron

      感謝你的提醒,我之前沒注意到yahoo會排除下市的股票,我也同意這可能會在分析上產生偏差,只是目前也不知道該怎麼處理。
      之後如果有新的發展,我會更新在文章中,並用留言回覆給你,這樣你應該就會收到通知的mail了。

  5. s

    請問我照您的code跑出現下面訊息
    ValueError: Length mismatch: Expected axis has 10 elements, new values have 2 elements

    請教是哪邊出問題呢

    1. Dana

      原始數據比較多
      但新的叫用只需要用到兩個元素

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *