2016年7月30日 星期六

Newsurvey媒體爬蟲課程介紹 三堂課程快速上手!專為不會寫程式的你設計

三堂課程快速上手!專為不會寫程式的你設計


為什麼選擇 Newsurvey?

●媒體文字一直以來都是文本分析最重要的資料來源。面對巨量資料以及新媒體的熱潮,資訊流的掌握已成為不可或缺的能力


○爬蟲是透過電腦自動擷取網頁資料的程式,基本上在網頁上的可視資料都能透過爬蟲程式系統性的擷取下來。除了免除大量手動複製貼上的麻煩,也可以依照需求設定資料儲存的格式

●在三堂課程中,我們將實作自由時報、蘋果日報、PTT以及臉書的爬蟲程式,一網打盡熱門媒體

2016年7月14日 星期四

python文字探勘,資料前處理流程介紹


當拿到文本資料想進行探勘時,若直接將原始資料去訓練 model或是代入套件通常都會得到雜訊非常嚴重的結果。因此,要擷取資料中真正有意義的部份,前處理是不可或缺的一個步驟。

以下的介紹是基於中文文本資料來撰寫的,簡述常用到的幾個技巧:

2016年7月12日 星期二

Keras筆記:implementing Graph object to concatenate multiple CNN example

對於類神經網絡(neural network)的應用,python有兩大支持套件(library): 由 Google主持開發的 Tensorflow以及 Theano。雖然這兩個套件賦予使用者極大的彈性去建立及設定類神經網絡,但對於非主修領域的使用者來說門檻還是太高了,而這也正是 Keras所要解決的問題。


你可以把 Keras想像為以 Tensorflow及 Theano做為運算後臺的前臺使用者介面,讓你能夠在略懂皮毛的知識濃度下就輕鬆地建立起自己需要的類神經網絡。

2016年6月20日 星期一

香港住宿推薦:平價優質青年旅舍 美荷樓住宿、餐廳細節及最佳交通方式大公開

想去香港旅遊的朋友一定很快就會發現香港的住宿讓人有點不知所措......漂亮舒適的酒店價錢太高了住不起,便宜一點的賓館又大多座落於老舊大廈的某一樓層,讓人看得有點觸目驚心。


但這次找到的 YHA美荷樓青年旅舍真的是性價比 CP值非常高,不僅相當乾淨舒適,附有早餐,離港鐵深水埗也只有約 5~10分鐘的距離,就算不是青年的旅行者我也相當推薦入住。

2016年3月4日 星期五

賀!瀏覽人次十萬人達成!!

值得慶祝的一刻,就在昨天 DannyPhoebe瀏覽人次正式突破十萬人!真的非常感謝所有來過 DannyPhoebe的朋友,尤其每當看到讀者們的留言回應時更是令人興奮的時刻!

圖片取自網站

近半年來肥鰻由於投入職場的關係,不論時間或精神上都不足以好好整理更多有用、有趣的資訊給大家。但其實這段時間內是有不少想法想分享的,請大家拭目以待!

再次感謝所有閱讀過 DannyPhoebe中任何一篇文章的朋友,所有的資訊都是我在面臨不同挑戰時的學習歷程,希望大家都能從中獲得需要的幫助,謝謝!