[unity]ChatGPT で Web スクレイピングしてみる(1)

有料版 ChatGPT に登録したので、試してみた内容を記事にしました。
unity はプログラムコードだけでは成立しないですし、PDF 出力も見たことないので、ChatGPT に回答を求めるのはちょっとシンドそうだな……と考えつつ、お願いしてみました。

長くなったので記事は複数になっています。

質問１：いきなり python への改宗を勧められる

あなたはプログラマーで有能な技術者です。unity でウェブスクレイピングし、PDFを出力するプログラムを作ってください。次の入力フィールドを元に、「Start」ボタンを押すことで処理を実行します。
①ウェブスクレイピング元URL
②スクレイピングする文字列
③出力するPDFファイル名

Unity は主にゲームやインタラクティブコンテンツの開発に使用されるソフトウェアであり、ウェブスクレイピングや PDF 出力といったタスクには適していません。代わりに Python を使用して、ウェブスクレイピングと PDF 出力を行うプログラムを作成しましょう。

以下に、必要なパッケージをインストールし、Python スクリプトの例を示します。

必要なパッケージをインストールする:

pip install requests
pip install beautifulsoup4
pip install html5lib
pip install reportlab

以下の Python スクリプトを使用して、ウェブスクレイピングと PDF 出力を行います:

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

def web_scraping(url, target_string):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html5lib')
    scraped_text = soup.find_all(text=target_string)
    return scraped_text

def generate_pdf(text_list, output_filename):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    text = pdf.beginText(50, 750)
    for line in text_list:
        text.textLine(line.strip())
    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

if __name__ == "__main__":
    url = input("①ウェブスクレイピング元URL: ")
    target_string = input("②スクレイピングする文字列: ")
    output_filename = input("③出力するPDFファイル名: ")

    scraped_text = web_scraping(url, target_string)
    generate_pdf(scraped_text, output_filename)
    print(f"PDFファイル'{output_filename}'が生成されました。")

このスクリプトを使用すると、指定された URL から指定された文字列をスクレイピングし、それらの文字列を含む PDF ファイルを生成できます。ただし、このコードはあくまで一例であり、特定のウェブページや文字列に対しては改善が必要な場合があります。

ウェブスクレイピングはともかくunityでPDFとか、かなり無理がありそうだなと思いつつ依頼した結果、いきなり Python を薦められてしまいました。
まだ仕様もフンワリしているので、Python である程度完成形を作ってから、unity にしてもらう作戦を考えます。

対話はまず、相手を肯定するところから！

Python は 3.10.7 がインストールされていたので、それを使いました。ちなみに私自身はほぼ Python 未経験です。
言語が変わったとはいえ、ちゃんと動くコードが出力されたのは驚き。

質問２：日本語が文字化け

日本語でもスクレイピングできるようにしてください

もちろん、日本語のウェブページもスクレイピングできます。以下の Python スクリプトは、日本語ウェブページから指定された文字列をスクレイピングして PDF ファイルに出力するものです。

必要なパッケージをインストールする:

pip install requests
pip install beautifulsoup4
pip install html5lib
pip install reportlab

以下の Python スクリプトを使用して、ウェブスクレイピングと PDF 出力を行います:

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding  # 追加: 文字コードを自動的に判定
    soup = BeautifulSoup(response.text, 'html5lib')
    scraped_text = soup.find_all(text=target_string)
    return scraped_text

def generate_pdf(text_list, output_filename):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    text = pdf.beginText(50, 750)
    for line in text_list:
        text.textLine(line.strip())
    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

if __name__ == "__main__":
    url = input("①ウェブスクレイピング元URL: ")
    target_string = input("②スクレイピングする文字列: ")
    output_filename = input("③出力するPDFファイル名: ")

    scraped_text = web_scraping(url, target_string)
    generate_pdf(scraped_text, output_filename)
    print(f"PDFファイル'{output_filename}'が生成されました。")

上記のコードでは、response.encoding = response.apparent_encoding の行を追加しました。これにより、文字コードを自動的に判定して適切なエンコーディングを使用できます。この変更により、日本語のウェブページも正しくスクレイピングできるようになります。

質問３：PDFは出来たが、何も出力されない

なにも表示されませんでした。

申し訳ありません。おそらく、指定された文字列が正確に一致しないため、何もスクレイピングされなかったのだと思われます。BeautifulSoup で部分一致を検索できるようにコードを修正しました。これにより、指定された文字列が含まれるテキストもスクレイピングできるようになります。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    # 部分一致検索のために関数を定義
    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)  # 部分一致検索を適用
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    text = pdf.beginText(50, 750)
    for line in text_list:
        text.textLine(line.strip())
    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

if __name__ == "__main__":
    url = input("①ウェブスクレイピング元URL: ")
    target_string = input("②スクレイピングする文字列: ")
    output_filename = input("③出力するPDFファイル名: ")

    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename)
        print(f"PDFファイル'{output_filename}'が生成されました。")
    else:
        print("指定された文字列が見つかりませんでした。")

この修正により、指定された文字列が含まれるテキストが見つからない場合でも、「指定された文字列が見つかりませんでした」というメッセージが表示されます。これで、指定された文字列がウェブページ上で部分一致するテキストがあれば、スクレイピングできるはずです。

質問４：PDF に出力された日本語が文字化け

PDF出力された日本語が文字化けして、正しく表示されませんでした。

日本語テキストを正しくPDFに出力するために、フォントを指定してReportLabを設定する必要があります。まず、ReportLabがサポートする日本語フォントをダウンロードし、次に指定されたフォントをPDFに使用します。

フリーの日本語フォント（Takaoフォント）をダウンロードし、適切なディレクトリに配置してください。Takaoフォントは以下のURLからダウンロードできます。 https://launchpad.net/takao-fonts
ダウンロードしたTakaoフォント（例：TakaoGothic.ttf）のパスをメモし、以下のPythonスクリプトのfont_path変数に設定します。
以下のPythonスクリプトを使用して、ウェブスクレイピングとPDF出力を行います。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    
    # 日本語フォントを登録
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    
    text = pdf.beginText(50, 750)
    
    # 使用するフォントを指定
    text.setFont('TakaoGothic', 12)
    
    for line in text_list:
        text.textLine(line.strip())
    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

if __name__ == "__main__":
    url = input("①ウェブスクレイピング元URL: ")
    target_string = input("②スクレイピングする文字列: ")
    output_filename = input("③出力するPDFファイル名: ")

    # ダウンロードした日本語フォントのパスを指定
    font_path = "path/to/TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        print(f"PDFファイル'{output_filename}'が生成されました。")
    else:
        print("指定された文字列が見つかりませんでした。")

これで、日本語テキストも正しくPDFに出力されるはずです。必要に応じて、他の日本語フォントを使用して、フォントのパスと名前を変更してください。

font_path の部分は手で修正する必要があります。Takao という IPA 似フォントが選択されたのはおそらく、IPA サイトがリンク全部変えちゃった問題で現在混乱中のためでしょう。賢い、ChatGPT。

質問５：複数ページのPDFが出力されない

複数ページのPDFが出力されません。

複数ページのPDFを生成するには、テキストがページの終わりに達したときに新しいページを開始するようにコードを変更する必要があります。以下のPythonスクリプトでは、行がページの下端に達すると新しいページが開始されます。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    text = pdf.beginText(50, 750)
    text.setFont('TakaoGothic', 12)
    
    y_position = 750

    for line in text_list:
        text.textLine(line.strip())
        y_position -= 15

        # ページの下端に達した場合、新しいページを開始
        if y_position <= 50:
            pdf.drawText(text)
            pdf.showPage()
            text = pdf.beginText(50, 750)
            y_position = 750

    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

if __name__ == "__main__":
    url = input("①ウェブスクレイピング元URL: ")
    target_string = input("②スクレイピングする文字列: ")
    output_filename = input("③出力するPDFファイル名: ")

    font_path = "path/to/TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        print(f"PDFファイル'{output_filename}'が生成されました。")
    else:
        print("指定された文字列が見つかりませんでした。")

この変更により、スクレイピングされたテキストが複数ページにわたる場合でも、適切にPDFに出力されます。y_position変数を調整することで、ページの上下のマージンを変更できます。また、行間を調整するには、y_position -= 15の行の値を変更してください。

長年の勘で「１ページしか対応できないのでは」と確認したところやっぱりだったため、複数ページの対応をお願いしました。

ここまででもうわかると思いますが、プログラムは「細かく指摘していかないと、きちんとしたものを生成するのは難しい」と言うこと。
これはプログラマーを生業にしている人だとピンと来そうですが、プログラム未経験者はハマってしまいそうなポイントです。プログラムを一切知らないでプロンプトエンジニアリングだけでなんとかするのは結構大変なんじゃないでしょうか。

実はこれ、AI だけでなく、SE やクライアントが実装者（プログラマー）に伝える情報でも同じことが言えますよね。

残念ながらこの情報を伝える側（SEやクライアント）が「適当な、ふわっとした情報」しか伝えられないため、その後いくらお金を積んでもまともなソフトウェアが作れない案件はあちこちで見かけます。

質問６：入力画面を作って欲しい

input をダイアログウィンドウに変更してください

PythonでGUIダイアログウィンドウを表示するために、Tkinterを使用しましょう。TkinterはPythonの標準ライブラリで、GUIアプリケーションを作成するために使用されます。以下のスクリプトでは、入力を受け取るためのダイアログウィンドウが表示されます。

まず、必要なパッケージをインストールします。

pip install tk

次に、以下のPythonスクリプトを使用して、ウェブスクレイピングとPDF出力を行います。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
import tkinter as tk
from tkinter import simpledialog

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    text = pdf.beginText(50, 750)
    text.setFont('TakaoGothic', 12)
    
    y_position = 750

    for line in text_list:
        text.textLine(line.strip())
        y_position -= 15

        if y_position <= 50:
            pdf.drawText(text)
            pdf.showPage()
            text = pdf.beginText(50, 750)
            y_position = 750

    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

if __name__ == "__main__":
    root = tk.Tk()
    root.withdraw()

    url = simpledialog.askstring("入力", "①ウェブスクレイピング元URL:", parent=root)
    target_string = simpledialog.askstring("入力", "②スクレイピングする文字列:", parent=root)
    output_filename = simpledialog.askstring("入力", "③出力するPDFファイル名:", parent=root)

    font_path = "path/to/TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        tk.messagebox.showinfo("成功", f"PDFファイル'{output_filename}'が生成されました。")
    else:
        tk.messagebox.showwarning("警告", "指定された文字列が見つかりませんでした。")

このスクリプトでは、tkinter.simpledialog.askstringを使用して、ユーザーからの入力を取得するダイアログウィンドウを表示します。入力が完了すると、ウェブスクレイピングとPDFの生成が開始されます。また、tk.messagebox.showinfoとtk.messagebox.showwarningを使用して、結果のメッセージボ（メッセージ途中でストップ）

↓

ちょっとコレジャナイ感が漂いますが、コマンドライン上ではなく、質問をダイアログにすることができました。

私はほとんど Python を知らないんですが、このように動くコードをどんどん生成してくれるので、その言語を理解する助けとして超一流ですね。
ググって自分の欲しいサンプルを探すより、こちらの方がより自分の思い通りのコードを用意してくれ、時短になっていることを実感します。

質問７：入力フィールドを考えている内容に変更

入力フィールドを全て１ウィンドウにおさめてください。

Tkinterを使用して、すべての入力フィールドが1つのウィンドウに収まるように変更しました。以下のスクリプトでウェブスクレイピングとPDF出力を行います。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
import tkinter as tk
from tkinter import messagebox

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    text = pdf.beginText(50, 750)
    text.setFont('TakaoGothic', 12)
    
    y_position = 750

    for line in text_list:
        text.textLine(line.strip())
        y_position -= 15

        if y_position <= 50:
            pdf.drawText(text)
            pdf.showPage()
            text = pdf.beginText(50, 750)
            y_position = 750

    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

def process_inputs():
    url = url_entry.get()
    target_string = target_string_entry.get()
    output_filename = output_filename_entry.get()

    font_path = "path/to/TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        messagebox.showinfo("成功", f"PDFファイル'{output_filename}'が生成されました。")
    else:
        messagebox.showwarning("警告", "指定された文字列が見つかりませんでした。")

if __name__ == "__main__":
    root = tk.Tk()
    root.title("ウェブスクレイピングとPDF出力")

    tk.Label(root, text="①ウェブスクレイピング元URL:").grid(row=0, column=0, sticky=tk.W)
    url_entry = tk.Entry(root)
    url_entry.grid(row=0, column=1)

    tk.Label(root, text="②スクレイピングする文字列:").grid(row=1, column=0, sticky=tk.W)
    target_string_entry = tk.Entry(root)
    target_string_entry.grid(row=1, column=1)

    tk.Label(root, text="③出力するPDFファイル名:").grid(row=2, column=0, sticky=tk.W)
    output_filename_entry = tk.Entry(root)
    output_filename_entry.grid(row=2, column=1)

    tk.Button(root, text="Start", command=process_inputs).grid(row=3, columnspan=2)

    root.mainloop()

このスクリプトでは、Tkinterを使用してGUIウィンドウにすべての入力フィールドを表示し、Startボタンを押すことでウェブスク（メッセージ途中でストップ）

またもやメッセージが途中で停止してしまいましたが、コード自体はしっかり生成され、思った通りのGUIになりました。

質問８：バグに気が付いた

２ページ目以降のPDFの日本語が文字化けしてしまいます。

すみません、新しいページでフォント設定がリセットされてしまっていました。新しいページを開始するたびにフォント設定を行うように修正しました。以下が修正済みのスクリプトです。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
import tkinter as tk
from tkinter import messagebox

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    text = pdf.beginText(50, 750)
    text.setFont('TakaoGothic', 12)
    
    y_position = 750

    for line in text_list:
        text.textLine(line.strip())
        y_position -= 15

        if y_position <= 50:
            pdf.drawText(text)
            pdf.showPage()
            text = pdf.beginText(50, 750)
            text.setFont('TakaoGothic', 12)  # フォント設定を追加
            y_position = 750

    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

def process_inputs():
    url = url_entry.get()
    target_string = target_string_entry.get()
    output_filename = output_filename_entry.get()

    font_path = "path/to/TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        messagebox.showinfo("成功", f"PDFファイル'{output_filename}'が生成されました。")
    else:
        messagebox.showwarning("警告", "指定された文字列が見つかりませんでした。")

if __name__ == "__main__":
    root = tk.Tk()
    root.title("ウェブスクレイピングとPDF出力")

    tk.Label(root, text="①ウェブスクレイピング元URL:").grid(row=0, column=0, sticky=tk.W)
    url_entry = tk.Entry(root)
    url_entry.grid(row=0, column=1)

    tk.Label(root, text="②スクレイピングする文字列:").grid(row=1, column=0, sticky=tk.W)
    target_string_entry = tk.Entry(root)
    target_string_entry.grid(row=1, column=1)

    tk.Label(root, text="③出力するPDFファイル名:").grid(row=2, column=0, sticky=tk.W)
    output_filename_entry = tk.Entry(root)
    output_filename_entry.grid(row=2, column=1)

    tk.Button(root, text="Start", command=process_inputs).grid(row=3, columnspan=2)

    root.mainloop()

これで、2ページ目以降のPDFの日本（メッセージ途中でストップ）

質問９：微調整を試みる

入力フィールドを大きくしてください。また、最初から以下の入力値を入れてください：
①ウェブスクレイピング元URL:　→　https://www.create-forever.games/
②スクレイピングする文字列:　→　mipass
③出力するPDFファイル名:　→　D:\temp\test.pdf

入力フィールドの大きさを変更し、デフォルトの入力値を設定しました。以下が変更済みのスクリプトです。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
import tkinter as tk
from tkinter import messagebox

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    text = pdf.beginText(50, 750)
    text.setFont('TakaoGothic', 12)
    
    y_position = 750

    for line in text_list:
        text.textLine(line.strip())
        y_position -= 15

        if y_position <= 50:
            pdf.drawText(text)
            pdf.showPage()
            text = pdf.beginText(50, 750)
            text.setFont('TakaoGothic', 12)
            y_position = 750

    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

def process_inputs():
    url = url_entry.get()
    target_string = target_string_entry.get()
    output_filename = output_filename_entry.get()

    font_path = "path/to/TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        messagebox.showinfo("成功", f"PDFファイル'{output_filename}'が生成されました。")
    else:
        messagebox.showwarning("警告", "指定された文字列が見つかりませんでした。")

if __name__ == "__main__":
    root = tk.Tk()
    root.title("ウェブスクレイピングとPDF出力")

    tk.Label(root, text="①ウェブスクレイピング元URL:").grid(row=0, column=0, sticky=tk.W)
    url_entry = tk.Entry(root, width=60)
    url_entry.insert(0, "https://www.create-forever.games/")
    url_entry.grid(row=0, column=1)

    tk.Label(root, text="②スクレイピングする文字列:").grid(row=1, column=0, sticky=tk.W)
    target_string_entry = tk.Entry(root, width=60)
    target_string_entry.insert(0, "mipass")
    target_string_entry.grid(row=1, column=1)

    tk.Label(root, text="③出力するPDFファイル名:").grid(row=2, column=0, sticky=tk.W)
    output_filename_entry = tk.Entry(root, width=60)
    output_filename_entry.insert(0, "D:\\temp\\test.pdf")
    output_filename_entry.grid(row=2, column=1)

    tk.Button(root, text="Start", command=process_inputs).grid(row=3, columnspan=2)

    root.mainloop()

↓

こういう微調整も楽々ですね……。

質問10：毎回手で直していたコードも、ついでに直してもらう

font_path を D:\\temp\\TakaoGothic.ttf にしてください

font_pathを"D:\temp\TakaoGothic.ttf"に変更しました。以下が変更済みのスクリプトです。

import requests
from bs4 import BeautifulSoup
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from reportlab.pdfbase import pdfmetrics
from reportlab.pdfbase.ttfonts import TTFont
import tkinter as tk
from tkinter import messagebox

def web_scraping(url, target_string):
    response = requests.get(url)
    response.encoding = response.apparent_encoding
    soup = BeautifulSoup(response.text, 'html5lib')

    def contains_target_string(tag):
        return tag.string and target_string in tag.string
    
    scraped_text = soup.find_all(contains_target_string)
    return [tag.string for tag in scraped_text]

def generate_pdf(text_list, output_filename, font_path):
    pdf = canvas.Canvas(output_filename, pagesize=letter)
    pdfmetrics.registerFont(TTFont('TakaoGothic', font_path))
    text = pdf.beginText(50, 750)
    text.setFont('TakaoGothic', 12)
    
    y_position = 750

    for line in text_list:
        text.textLine(line.strip())
        y_position -= 15

        if y_position <= 50:
            pdf.drawText(text)
            pdf.showPage()
            text = pdf.beginText(50, 750)
            text.setFont('TakaoGothic', 12)
            y_position = 750

    pdf.drawText(text)
    pdf.showPage()
    pdf.save()

def process_inputs():
    url = url_entry.get()
    target_string = target_string_entry.get()
    output_filename = output_filename_entry.get()

    font_path = "D:\\temp\\TakaoGothic.ttf"
    
    scraped_text = web_scraping(url, target_string)
    if scraped_text:
        generate_pdf(scraped_text, output_filename, font_path)
        messagebox.showinfo("成功", f"PDFファイル'{output_filename}'が生成されました。")
    else:
        messagebox.showwarning("警告", "指定された文字列が見つかりませんでした。")

if __name__ == "__main__":
    root = tk.Tk()
    root.title("ウェブスクレイピングとPDF出力")

    tk.Label(root, text="①ウェブスクレイピング元URL:").grid(row=0, column=0, sticky=tk.W)
    url_entry = tk.Entry(root, width=60)
    url_entry.insert(0, "https://www.create-forever.games/")
    url_entry.grid(row=0, column=1)

    tk.Label(root, text="②スクレイピングする文字列:").grid(row=1, column=0, sticky=tk.W)
    target_string_entry = tk.Entry(root, width=60)
    target_string_entry.insert(0, "mipass")
    target_string_entry.grid(row=1, column=1)

    tk.Label(root, text="③出力するPDFファイル名:").grid(row=2, column=0, sticky=tk.W)
    output_filename_entry = tk.Entry(root, width=60)
    output_filename_entry.insert(0, "D:\\temp\\test.pdf")
    output_filename_entry.grid(row=2, column=1)

    tk.Button(root, text="Start", command=process_inputs).grid(row=3, columnspan=2)

    root.mainloop()

これで、`font（メッセージ途中でストップ）

ChatGPT のメッセージが途中で止まってしまう現象が頻発しています。
コードには影響ないので放っておきましたが、必要な情報が途中でストップしていた場合は「メッセージが途中で止まったのでもう１度作成してください」と依頼しましょう。

個人的には「Python で出来上がったな……」と満足してしまいましたが、さてここから Unity に捻じ曲げていこうと思います。

記事の続き (unity編）

Unity Indies

2023.05.27

[unity]ChatGPT で Web スクレイピングしてみる(2)

https://www.create-forever.games/unitychatgpt-web-scraping2

質問11：いよいよ Unityこのプログラムをunityで動くようにしてくださいUnityでこのプログラムを動作させるには、PythonスクリプトをC#に変換し、Unityエディタで実行する必要があります。PythonスクリプトをC#に変換し、Unity用のコードを以下に示します。ただし、このコードは完全なUnityプロジェクトではありません。変換されたコードをUnityプロジェクトに組み込んで、適切なインターフェイスと機能を実装する必要があります。using System.Collections;using System.Collections.Generic;using UnityEngine;using UnityEngine.UI;...

[unity]ChatGPT で Web スクレイピングしてみる(1)

質問１：いきなり python への改宗を勧められる

コメント

質問２：日本語が文字化け

質問３：PDFは出来たが、何も出力されない

質問４：PDF に出力された日本語が文字化け

コメント

質問５：複数ページのPDFが出力されない

コメント

質問６：入力画面を作って欲しい

コメント

質問７：入力フィールドを考えている内容に変更

コメント

質問８：バグに気が付いた

質問９：微調整を試みる

コメント

質問10：毎回手で直していたコードも、ついでに直してもらう

コメント

記事の続き (unity編）

返信を残すコメントをキャンセル

質問１：いきなり python への改宗を勧められる

コメント

質問２：日本語が文字化け

質問３：PDFは出来たが、何も出力されない

質問４：PDF に出力された日本語が文字化け

コメント

質問５：複数ページのPDFが出力されない

コメント

質問６：入力画面を作って欲しい

コメント

質問７：入力フィールドを考えている内容に変更

コメント

質問８：バグに気が付いた

質問９：微調整を試みる

コメント

質問10：毎回手で直していたコードも、ついでに直してもらう

コメント

記事の続き (unity編）

related posts:

返信を残す コメントをキャンセル

返信を残すコメントをキャンセル