三重大学教育学部 奥村晴彦 (この文書は CC BY で公開しています)
「もっと手間をかけろ」ではなく,「もっと手間を省け」(シンプルな表ほど機械可読性が高い。罫線やセル結合を駆使した帳票化は機械可読性を妨げる),「わざわざPDF化せず元データ(Excelファイル等)をそのまま公開すればよい」という考え方を広める。「PDFのほうが改ざんされにくい」といった誤解を解く。
API化まで現場に押し付けず,Excelファイルでもいいからデータをタイムリーに出してもらう。API化は力のあるところがやればよい(われわれボランティアでもできる)。Excelファイルからデータを抽出する方法はいろいろある。
- 当然ながら,オープンであること(つまり,許諾なしに2次利用できること)。具体的には,政府標準利用規約(第2.0版) または同じことだが CC BY に従うこと(参考:松原勇介 政府ホームページ利用規約の一覧)
- 機械判読に適したデータ形式であること(「PDFだけ」は不適。Excel形式か,テキストファイル(HTML,XML,CSV,TSV,JSONの類)を使う)
- データとしての利用を考えて作成していること(セル結合をしない,など。参考:首相官邸「二次利用の促進のための府省のデータ公開に関する基本的考え方(ガイドライン)」別添2 数値(表)、文章、地理空間情報のデータ作成に当たっての留意事項)
- 永続的なURLを使うこと。現状ではサイトリニューアルのたびにURLが変わり,リンク切れが発生している(参考:国の機関サイトの残存率 5年で60%が消滅)。e-Statに入れれば安心
- 厚労省 平成28年「高年齢者の雇用状況」集計結果 …… すべてPDF
- 国立教育政策研究所 教育課程実施状況調査 …… すべてPDF
- 警察庁 統計 …… PDFだけの統計資料がけっこうある
(ほかにもたくさんあるはず。あったら教えてください)
<script async src="//platform.twitter.com/widgets.js" charset="utf-8"></script>実は、学校の「校名・住所・電話番号・URL・メールアドレス」の5つ組は、文部科学省のどこもデータを持っていない。それでは緊急時に連絡のしようがない。それはまずいと思い、全学校の基本情報をオープンデータにするサービスを始めます。それがedumap。 #netcommons
— norico arai (@noricoco) 2014年7月22日
→ edumap
例えば全国自治体について,ホームページから情報を自動収集したり,○○担当部局に郵便を出す必要が生じた場合,地方公共団体コード(あるいは国税庁の法人番号)・公式ホームページURL・郵便番号付き住所等を対応づけるデータが欲しいが,人間が地道に探さないと簡単には得られない。
<script async src="//platform.twitter.com/widgets.js" charset="utf-8"></script>@noricoco @h_okumura @konotarogomame 機械可読も大事ですが、私はIDの重要性を訴えたいです。IDは複数のデータを紐付ける基盤で、政府が一元付与・運用すれば皆で共有できる。道路の話で言えば、実は高速道路さえ公的IDがないのですよ。ビックリです。
— 北本 朝展 (@KitamotoAsanobu) 2016年10月26日
県ごとのデータはJIS X 0401「都道府県コード」を付け,その順に並べる。自治体ごとのデータにも総務省全国地方公共団体コードを付けると集約が簡単になる(参考:ウィキペディア全国地方公共団体コード)。
首相官邸の地方公共団体に向けたデータフォーマット標準例には「○○町」「○○町」…のように自治体名ごとにデータが列挙されているが,全国地方公共団体コードも付けることが望ましい。
- 政府統計の総合窓口 e-Stat
- 首相官邸 高度情報通信ネットワーク社会推進戦略本部(IT総合戦略本部)>電子行政オープンデータに関連する決定等 特に「二次利用の促進のための府省のデータ公開に関する基本的考え方(ガイドライン)」の「別添2」(数値(表)、文章、地理空間情報のデータ作成に当たっての留意事項)および「政府標準利用規約(第2.0版)」
- 総務省 オープンデータ戦略の推進
- データカタログサイト
- オープン&ビッグデータ活用・地方創生推進機構(VLED)成果公開にある最新の「オープンデータガイド」
- 奥村晴彦 「ネ申Excel」問題 情報処理学会情報教育シンポジウムSSS2013論文集,pp.93-98(2013年8月)
- Tim Berners-Lee クールなURIは変わらない
- Q. Ethan McCallum, Bad Data Handbook (O'Reilly, 2012)
- @narusase さんによるネ申エクセル問題に関するWiki
- 「札幌市オープンデータ整備・変換業務」に係る一般競争入札について (2017年12月28日)業務仕様書(PDF)に,どのようにしたら機械判読が容易になるかの説明がある