今日の世界では、データの操作と分析は、さまざまな業界の重要な部分になっています。 よく発生するタスクの XNUMX つは、データセット内の単語を数値に変換することです。 この記事では、Python の強力なライブラリである pandas を使用して、このタスクを効率的に実行する方法について説明します。 この問題を解決するための手順、コード、および概念について説明し、プロセスを把握して簡単に実装できるようにします。
まず、解決しようとしている問題を理解しましょう。 「XNUMX」、「XNUMX」、「XNUMX」などの単語で書かれた数字を含む列を持つデータセットがあるとします。 私たちの目標は、Python と pandas を使用して、これらの単語数を対応する整数に変換することです。
ステップ 1: 必要なライブラリーのインポート
このタスクを達成するには、まず必要なライブラリをインポートする必要があります。 この場合、データの処理と操作に pandas ライブラリを使用し、単語を数値に変換するために inflect を使用します。
import pandas as pd import inflect
パンダ図書館
pandas は、構造化データの処理に必要なデータ構造と関数を提供するオープンソースのデータ操作および分析ライブラリです。 これは Python プログラミング言語の上に構築されており、データの前処理、クリーニング、および分析において重要な役割を果たします。 主なデータ構造には、シリーズ、データフレーム、およびインデックスが含まれており、さまざまなデータ型と操作を処理するのに役立ちます。
ライブラリを活用する
inflect は、複数形と単数形の名詞、序数の計算、および数字から単語への変換、または単語から数字への変換を支援する Python ライブラリです。 この記事では、単語を数値に変換する機能に焦点を当てます。 inflect を使用するには、次のコマンドを使用してインストールする必要があります。
!pip install inflect
ステップ 2: pandas DataFrame の作成
必要なライブラリをインポートしたので、数字を単語として含む列を持つ pandas DataFrame を作成しましょう。 これは、説明用のサンプル データセットとして機能します。
data = {'Numbers_in_words': ['one', 'two', 'three', 'four', 'five']} df = pd.DataFrame(data) print(df)
ステップ 3: 単語を数字に変換する
次に、inflect ライブラリを使用して、単語の数値を対応する整数に変換します。 入力として単語を受け取り、対応する数値を返す「convert_word_to_number」という関数を作成します。
def convert_word_to_number(word): p = inflect.engine() try: return p.singular_noun(word) except: return None df['Numbers'] = df['Numbers_in_words'].apply(convert_word_to_number) print(df)
このコード スニペットでは、語形変化エンジンを使用して単語を数値に変換する関数を定義します。 次に、pandas の apply() メソッドを使用して、この関数を DataFrame の「Numbers_in_words」列のすべての要素に適用します。
要約すると、Python、pandas、および inflect を使用してデータセット内の単語を数値に変換する方法を見てきました。 Pandas はデータ操作に不可欠なツールとして機能し、inflect ライブラリは単語と数字を含む操作を支援します。 これらの手順に従うことで、データセット内の単語数を整数に簡単に変換し、データをさらに分析および操作できます。 ハッピーコーディング!