您的位置:首頁>科技>正文

教你如何使用深度學習識別交通標誌,準確度高達93%

前言

如果用一個句子總結學習資料科學的本質, 那就是:

學習資料科學的最佳方法就是應用資料科學。

如果你是初學者, 那麼每完成一個項目你的能力就會大大提高。 如果你是有經驗的資料科學從業者, 那麼你應該懂這個道理。

但是, 當我向人們給出這個建議時, 他們通常會問:我可以在哪裡獲得練習的資料集呢? 他們沒有意識到存在大量開放的資料集可使用。 他們沒有意識到通過這些項目, 能夠不斷學習, 從而促進自己的職業發展。

如果你認為這符合你的情況, 那麼你來對地方了!本文將列出一些資料集網站、資源的列表,

你可以從使用當中的資料來進行自己的 pet project, 甚至創造自己的產品。

如何使用這些資源?

如何使用這些資料來源是沒有限制的。 唯一限制你的是創造力和實際應用。

使用它們的最簡單方法是進行資料項目目並發佈到網上。 這不僅可以提高資料和視覺化技能, 還可以改善你的結構化思維。

另一方面, 如果你打算或正在處理基於資料的產品, 這些資料集可以通過提供新的輸入資料來增加產品的活力。

我已經將這些資源分類, 從簡單, 通用和易於處理的資料集, 到大型、行業相關的資料集。 接著, 介紹用於特定目的的資料集:文本挖掘, 圖像分類, 推薦引擎等。

(友情提示:以下網站均需翻牆)

1. 簡單、通用的資料集

• data.gov

( https://www.data.gov/ )

美國政府公開資料。 該網站在發佈時包含超過 19 萬個資料點。 這些資料包括氣候, 教育, 能源, 金融等領域的資料。

•data.gov.in

( https://data.gov.in/ )

印度政府公開資料。 可以查找各行業, 氣候, 醫療保健等資料。 還可以在這裡得到一些視覺化的靈感。 根據所在國家, 你也可以從其他幾個網站上查看類似的網站。

• World Bank

( http://data.worldbank.org/ )

世界銀行的開放數據。 該平臺提供 Open Data Catalog, 世界發展指數, 教育指數等幾個工具。

• RBI

( https://rbi.org.in/Scripts/Statistics.aspx )

印度儲備銀行提供的資料。 包括國際收支, 銀行業務和一些產品使用的貨幣市場運作指標。

• Five Thirty Eight Datasets

( https://github.com/fivethirtyeight/data )

Five Thirty Eight, 亦稱作 538, 專注與民意調查分析, 政治, 經濟與體育的博客。 該資料集為 Five Thirty Eight Datasets 使用的資料集。 每個資料集包括資料, 解釋資料的字典和Five Thirty Eight 文章的連結。 如果你想學習如何創建資料故事,

不能錯過。

2. 大型資料集

• Amazon Web Services(AWS)datasets

( https://aws.amazon.com/cn/datasets/ )

亞馬遜提供了一些大資料集, 可以在他們的平臺或本地電腦上使用。 還可以通過 EMR, 使用 EC2 和 Hadoop 在雲端分析資料。 亞馬遜的熱門資料集包括完整的 Enron 電子郵件資料集, Google Books n-gram, NASA NEX 資料集, 百萬歌曲資料集等。

• Google datasets

( https://cloud.google.com/bigquery/public-data/ )

Google 提供了一些資料集作為其 Big Query 工具的一部分。 包括 GitHub 公共資料庫的資料, Hacker News 的所有故事和評論。

• Youtube labeled Video Dataset

( https://research.google.com/youtube8m/ )

幾個月前, 穀歌研究小組發佈了 YouTube 標籤資料集, 該資料集由 800 萬個 YouTube 視頻 ID 和 4800 個視覺實體的相關標籤組成。 這來自數十億幀的預先計算和最先進的視覺功能。

3. 預測建模與機器學習資料集

• UCI Machine Learning Repository

( https://archive.ics.uci.edu/ml/datasets.html )

UCI 機器學習存儲庫顯然是最著名的資料存儲庫。 如果你正在尋找與機器學習庫相關的資料集, 那麼這是不可錯過的資源。 當中包括各種各樣的資料集,

從泰坦尼克號的倖存資料, 到最近的空氣品質、GPS 軌跡等待。 存儲庫包含超過 350 個資料集, 其中包含功能變數名稱, 問題目的(分類/回歸)等標籤。 你可以使用這些篩檢程式來確定需要的資料。

• Kaggle

( https://www.kaggle.com/datasets )

Kaggle 推出了一個平臺, 人們上傳資料集, 其他社區成員可以投票並在其上運行腳本。 共有 350 多個資料集 , 特徵資料集超過 200 個。

• Analytics Vidhya

(https://datahack.analyticsvidhya.com/contest/all/ )

• Quandl

( https://www.quandl.com/ )

Quandl 通過起網站、API 或一些工具的直接集成提供了不同來源的財務、經濟和替代資料。 他們的資料集分為開放和付費。 所有開放資料集為免費, 但高級資料集需要付費。 通過搜索仍然可以在平臺上找到優質資料集。 例如, 來自印度的證券交易所資料是免費的。

• Past KDD Cups

( http://www.kdd.org/kdd-cup )

KDD Cup 是 ACM Special Interest Group 組織的年度資料採擷和知識發現競賽。

• Driven Data

( https://www.drivendata.org/ )

Driven Data 發現運用資料科學帶來積極社會影響的現實問題。

然後, 他們為資料科學家組織線上類比競賽, 從而開發出最好的模型來解決這些問題。

4. 圖像分類資料集

• The MNIST Database

( http://yann.lecun.com/exdb/mnist/ )

最流行的使用手寫數位的圖像識別的資料集。 包括 6 萬個火車示例和一個 1 萬個示例的測試集。 這通常是進行圖像識別的第一個資料集。

• Chars74K

(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )

如果你已經掌握手寫數位, 可以進一步使用該資料集。 當中包括自然圖像中的字元識別, 包含 74,000 個圖像。

• Frontal Face Images

(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )

如果你已經完成了前兩個專案, 並且能夠識別數位和字元, 那麼在圖像識別的下一個挑戰就是正面臉部圖像。 這些圖像由 CMU & MIT 收集, 並排列在四個資料夾中。

• ImageNet

( http://image-net.org/ )

是時候構建一些通用的東西了。 根據 WordNet 層次的圖像資料庫(目前僅為名詞)。 層次結構的每個節點都被描述為數百個圖像。 目前,這個集合平均每個節點有超過 500 個圖像,並且在增加中。

5. 文本分類資料集

• Spam – Non Spam

(http://www.esp.uem.es/jmgomez/smsspamcorpus/)

區分短信是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將短信進行分類。

• Twitter Sentiment Analysis

(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)

該資料集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。資料依次基於 Kaggle 比賽和 Nick Sanders 的分析。

• Movie Review Data

(http://www.cs.cornell.edu/People/pabo/movie-review-data/)

本網站提供電影評論檔的集合,標注其總體情緒極性(正面或負面)和主觀評分(例如“兩星半”)等。

6. 推薦引擎的資料集

• MovieLens

( https://grouplens.org/ )

• Jester

(http://www.ieor.berkeley.edu/~goldberg/jester-data/)

線上笑話推薦系統。

7. 來自各種來源的資料集網站

• KDNuggets

(http://www.kdnuggets.com/datasets/index.html)

KDNuggets 的資料集頁面一直是人們搜索資料集的參考。列表全面,但是某些來源不再提供資料集。因此,需要謹慎選擇資料集和來源。

• Awesome Public Datasets

(https://github.com/caesar0301/awesome-public-datasets)

具有按域分類的資料集清單的 GitHub 存儲庫。資料集被整齊地劃分在不同的領域,然而沒有關於存儲庫本身的資料集的描述

• Reddit Datasets Subreddit

(https://www.reddit.com/r/datasets/)

由於這是一個社區驅動的論壇,可能與之前的兩個資料來源相比會一些混亂。但是,你可以根據熱度和投票來對資料集進行排序,以查看最流行的資料集。另外,它還有一些有趣的資料集和討論。

結語

我希望這份資源清單對那些想做專案的人有所幫助。這絕對是一個金礦。

ref:

https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

End.

http://www.itongji.cn

目前,這個集合平均每個節點有超過 500 個圖像,並且在增加中。

5. 文本分類資料集

• Spam – Non Spam

(http://www.esp.uem.es/jmgomez/smsspamcorpus/)

區分短信是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將短信進行分類。

• Twitter Sentiment Analysis

(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)

該資料集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。資料依次基於 Kaggle 比賽和 Nick Sanders 的分析。

• Movie Review Data

(http://www.cs.cornell.edu/People/pabo/movie-review-data/)

本網站提供電影評論檔的集合,標注其總體情緒極性(正面或負面)和主觀評分(例如“兩星半”)等。

6. 推薦引擎的資料集

• MovieLens

( https://grouplens.org/ )

• Jester

(http://www.ieor.berkeley.edu/~goldberg/jester-data/)

線上笑話推薦系統。

7. 來自各種來源的資料集網站

• KDNuggets

(http://www.kdnuggets.com/datasets/index.html)

KDNuggets 的資料集頁面一直是人們搜索資料集的參考。列表全面,但是某些來源不再提供資料集。因此,需要謹慎選擇資料集和來源。

• Awesome Public Datasets

(https://github.com/caesar0301/awesome-public-datasets)

具有按域分類的資料集清單的 GitHub 存儲庫。資料集被整齊地劃分在不同的領域,然而沒有關於存儲庫本身的資料集的描述

• Reddit Datasets Subreddit

(https://www.reddit.com/r/datasets/)

由於這是一個社區驅動的論壇,可能與之前的兩個資料來源相比會一些混亂。但是,你可以根據熱度和投票來對資料集進行排序,以查看最流行的資料集。另外,它還有一些有趣的資料集和討論。

結語

我希望這份資源清單對那些想做專案的人有所幫助。這絕對是一個金礦。

ref:

https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

End.

http://www.itongji.cn

Next Article
喜欢就按个赞吧!!!
点击关闭提示