taibif 有時收的資料都非常的大量~~多至好幾十萬筆~~通常以phpMyAdmin 的方式來執行匯入時常是行不通的..
時常會 timeout 或等很久都無法成功…. 這就是使用web的方式來處理資料的一個大缺點….
小量的資料是可以,但大筆資料就會失敗,因此我們就得利用command line 的方式來處理,不僅快速且保證成功~~
但資料通常得先處理~~有兩種方式~~
一是先用程式或excel來處理,
二是,若資料已經存在資料庫裡了,也可以用sql 的function來處理~~也還蠻快速的~
再來,就是匯入資料了~~
用 putty 連線到遠端資料庫伺服器,並下以下的指令
mysql -u USER -p DBNAME < filename.sql(你要匯入的檔名及他的絕對路徑) ===>注意 ” < ” 的方向,匯入匯出是相反的
通常建議再加上編碼,才不會匯入亂碼 –default-character-set=utf8
匯入指令為:

匯出的指令為:

打完指令後會需要建入資料庫密碼,正確後則會開始處理資料,直到出現根目錄為止,如下
[root@culture ~]#
K最近鄰法(K-Nearest Neighbor)為一種事例學習(Instance-based learning)的一種機械學習方法,而做法為比對測試資料與一群訓練資料中距離最接近K個的資料,最後以用投票Vote判定其分類歸屬。
Read more…
貝氏分類法基本演算法:
利用已知的事件發生之機率來推測未知資料的類別,此為背式分類最大的特色。當新的樣本資料加入時,只要再調整某些機率,及可以得到新的分類的模型(機率),因此當資料不斷增加的時候,會有比較好的分類效能,但因貝氏分類器採用機率模型所建構,故有時會有不易解釋分類原因。
條件機率
進行貝氏分類前,要先介紹條件機率,所謂條件機率「在A條件下發生B的機率等於AB同時發生的機率除以A發生的機率」
表示A條件下發生B的條件機率,等於AB同時發生機率除以A發生的機率
表示「AB同時發生的機率等於B發生的機率乘以B條件中A的可能性」
貝氏理論: 基礎
- 假設 X 為某一樣本資料: 屬於未知類別
- 假設 H 為X屬於某個類別C
- 在分類問題我們想要決定

- 在資料值組X之下假設H成功的機率
- P(H) (事前機率)
- P(X): X在樣本資料集合中出現機率
(事後機率),當假設H成立下, 樣本X出現的機率
- 貝氏分類利用統計方法(貝氏定理(Bayes’ theorem))來預測類別成員的機率。給定一個樣本,計算該樣本屬於一個特定的類別之機率。
- 假設X為訓練資料,透過貝式理論假設H的事後機率為

在資料挖掘的領域中,分類預測(Classification)主要是鎖定的對象為欲處理且未分類的資料集合,根據已知類別(Class)的物件集合,將上述的資料依據其屬性(Attributes)去完成分類的過程,並冀望能讓機器學習分類的規則,提供未來能自動分類之用。而幾種常見分類技術,如決策樹演算法(Decision Tree)、貝式分類法(Bayes classifier)、支援向量機(Support Vector Machine)、K最近鄰法(K-Nearest Neighbor)…等技術,將陸續介紹。
Convex hull演算法為在一個平面上,找出一最小凸多邊形可包含所有的點,目前有幾種比較常見用來計算凸多邊形演算法,如:Incremental 、Jarvis’s March (Gift Wrap)、Divide and Conquer、Quick Hull,而TaiBIF上即採用Quick Hull演算法,來協助我們畫出一個物種的最小凸多邊,因此在這邊,說明此演算法的概念及步驟: Read more…
TaiBIF(Taiwan Biodiversity Information Facility)使用 Google Maps 做為物種出現記錄的呈現工具,接下來的介紹將以盤古蟾蜍(Bufo bankorensis)的搜尋結果作為介紹所使用的頁面(網址如參考資料1)。

Read more…
很多的朋有再問「究竟TaiBIF上的多邊形檢索是怎麼作」?在這一篇文章中,就來說明其中的關鍵作法。
傳統上多邊形檢索在一般的GIS軟體中,並不是一個特別的功能,幾乎所有的GIS軟體都會提供這樣的功能,大家用久了自然也就覺得好像不是一個特別的技術。但在Google Map中並沒有提供所謂多邊形檢索,因此要達成這樣的目的,必須多花一些功夫,重新探討與瞭解GIS軟體中多邊形檢索的原理。
早期的TaiBIF的空間檢索功能,先利用一個JavaScript的功能,當使用者任意框選Google Map上任一個地區,會將這個矩形的框框的左下與右上(座標的最大值與最小值)傳到資料庫中進行檢索,再回傳符合這個區塊的資料。
Read more…
先前筆者於網站上陸續寫了幾篇關於linked data、RDF與RDFa的文章,之後在Kenny熱心的協助下,我們開始進行物種名錄資料庫RDFa,至於為什麼會先選RDFa來進行,我想最大的原因就是它可以保有原本網頁html架構,且容易實作。
Read more…
活動網頁:http://www.bio.ncue.edu.tw/arr/actnews.php?Sn=1
活動時間:2010-01-20 ~ 2010-01-21
活動地點:國立彰化師範大學進德校區
可以在 TaiBIF 新增的功能:
- Darwin Core 格式的介紹網頁。
- 讓使用者下載出現記錄的點位資料。 Read more…
筆者於2009年參加TDWG年會時,聽到一位講者介紹關於linked open data 時,講者順道提了英國目前由Tim Berners-Lee進行資料公開上網的消息,而他們所採用的技術為RDFa,希望透過這種Light-Weight RDF可以有效的整合目前存在網路上的「公開資訊」。
傳統上而言Web 提供是一個豐富的分散式的資訊,一個HTML文件可能包含一個標題,接下來用小字型寫了一個子標題、一個斜體、粗體等方式表達網頁的具體內容,最後在包含幾個超鏈結的網址,而現今的網頁中大都遵循這樣的架構,然而這樣的透過瀏覽器的解讀變成人類可以思考理解,對機器而言它卻不知到哪些是文章的標題、哪些是發表日期、哪些是分類的連結,機器與人類的理解存在一些gap。
Read more…