spaCy固有表現抽出(+Presidio)によるドキュメントの情報漏えいリスクチェック支援

公開時に匿名加工が必要な日本語ドキュメントのレビューにspaCy固有表現抽出を利用する手法の紹介

2022-02-10

13億のパラメータを持つ日本語GPTでFew-shot推論を試してみる

こんにちは、R&Dの伊藤です。「〇〇 is all you need」系の論文が多すぎて何が本当に必要なのか悩みながら機械学習タスクに取り組んだりしています。今回は先日公開されたrinna社の日本語GPTモデルを使って遊んでみた記事になります。はじめに日本語GPTモ…

2021-11-17

Rasa+GiNZAによるお手軽チャットボット作成

自然言語処理 Python

R&Dチーム所属の伊藤です。GiNZAについて検索しようとして(地名の)銀座についての結果が出てくると悲しくなります。今回はチャットボットの作成についてです。前から気になっていたRasaを試してみたので備忘録がてらまとめてみました。はじめに準備ドメ…

2021-09-21

GiNZAのja-ginza-electraモデルでELECTRAベースの単語ベクトルを使用できるようにする

自然言語処理 Python

はじめに R&Dチーム所属の伊藤です。相も変わらず自然言語処理と格闘する毎日を送っています。今回は個人的にとても楽しみにしていたGiNZA v5の新モデルであるja-ginza-electraを使って、前後の文脈を加味した単語ベクトルを求められるようにするまでの手順…

2021-08-13

WebAssemblyを用いてBERTモデルをフロントエンドで動かす

自然言語処理 WebAssembly

はじめまして。R&Dチーム所属、20.5卒の伊藤です。普段の業務では自然言語処理と格闘していることが多いです。今回は自然言語処理モデルとして有名なBERTをWebAssemblyを使用してフロントエンドで動かしてみた話になります。最近、自然言語処理ライブラリ…

2021-06-14

Bunkai(日本語文境界判定器)でPDFテキスト抽出の改行位置をいい感じにする

Python 自然言語処理

R&D チームの徳田（@dakuton）です。前回記事にてPDFの改行補正に関する記事を書いたあと、前回記事のような日本語文境界判定での利用に特化したBunkaiというライブラリが公開されたので、今回は続編として紹介します。前回記事 tech-blog.optim.co.jp テ…

2021-04-09

spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする

Python 自然言語処理

R&D チームの徳田（@dakuton）です。過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこ…

2020-08-05