2016年7月30日 星期六

Newsurvey媒體爬蟲課程介紹 三堂課程快速上手!專為不會寫程式的你設計

三堂課程快速上手!專為不會寫程式的你設計


為什麼選擇 Newsurvey?

●媒體文字一直以來都是文本分析最重要的資料來源。面對巨量資料以及新媒體的熱潮,資訊流的掌握已成為不可或缺的能力


○爬蟲是透過電腦自動擷取網頁資料的程式,基本上在網頁上的可視資料都能透過爬蟲程式系統性的擷取下來。除了免除大量手動複製貼上的麻煩,也可以依照需求設定資料儲存的格式

●在三堂課程中,我們將實作自由時報、蘋果日報、PTT以及臉書的爬蟲程式,一網打盡熱門媒體

2016年7月14日 星期四

python文字探勘,資料前處理流程介紹


當拿到文本資料想進行探勘時,若直接將原始資料去訓練 model或是代入套件通常都會得到雜訊非常嚴重的結果。因此,要擷取資料中真正有意義的部份,前處理是不可或缺的一個步驟。

以下的介紹是基於中文文本資料來撰寫的,簡述常用到的幾個技巧:

2016年7月12日 星期二

Keras筆記:implementing Graph object to concatenate multiple CNN example

對於類神經網絡(neural network)的應用,python有兩大支持套件(library): 由 Google主持開發的 Tensorflow以及 Theano。雖然這兩個套件賦予使用者極大的彈性去建立及設定類神經網絡,但對於非主修領域的使用者來說門檻還是太高了,而這也正是 Keras所要解決的問題。


你可以把 Keras想像為以 Tensorflow及 Theano做為運算後臺的前臺使用者介面,讓你能夠在略懂皮毛的知識濃度下就輕鬆地建立起自己需要的類神經網絡。