大量の文書ファイルを手作業で分類・タグ付けしており、管理が追いつかない

FileBlogのテキスト抽出と連携し、議事録・請求書などを自動分類してタグを一括登録

文書管理システム「FileBlog」が抽出したテキストデータをPythonのNLPライブラリで解析し、議事録・請求書・申請書などの文書種別を自動判定してタグ付けするツールを開発します。FileBlogの外部スクリプト実行機能をトリガーに自動起動し、抽出したタグ情報をCSV出力してFileBlogの一括登録機能へ流し込む、既存システムに無理なく組み込める連携設計を採用。クラウドAIを使わずオンプレミス完結を基本としながら、分類困難なケースのみネットワークを限定的に開放するハイブリッド構成も対応可能です。高額なAI-OCR製品に頼らず、必要な機能に絞ったコスト効率の高い独自開発を実現します。

解決できる課題

課題

届いた文書ファイルをひとつひとつ開いて、種別を確認しながら手作業でタグを付けており、件数が多いと対応しきれない

解決アプローチ

FileBlogが抽出したテキストをNLPで自動解析し、文書の種類と日付などのキー情報を自動判定。タグをCSV経由でFileBlogへ一括登録します

課題

市販のAI-OCR製品を検討したが、機能が多すぎて高額になり、導入に踏み切れなかった

解決アプローチ

必要な機能だけに絞ったスクラッチ開発で、無駄なライセンス費用を排除。PythonのオープンソースNLPライブラリを活用してコストを抑えます

課題

行政・官公庁の環境なので、外部クラウドにデータを送信することが原則できない

解決アプローチ

オンプレミスサーバー上で完結するNLP処理を基本設計とし、外部ネットワークへのデータ送信なしで動作します

課題

NLPだけでは判定しきれない文書が出てきたときの対処法がない

解決アプローチ

通常はオンプレミスNLPで処理し、判定困難なケースに限り外部APIを部分的に利用するハイブリッド構成を設計。例外ケースも自動処理の範囲に含められます

活きる業種・場面

自治体・公共製造業